基于小世界模型的复合关键词提取方法研究

被引:14
作者
马力 [1 ,2 ]
焦李成 [1 ]
白琳 [2 ]
周雅夫 [2 ]
董洛兵 [3 ]
机构
[1] 西安电子科技大学智能信息处理研究所
[2] 西安邮电学院信息中心
[3] 西安电子科技大学图书馆
关键词
计算机应用; 中文信息处理; 小世界网络; 词语网络; 平均最短路径变化量; 聚类系数变化量; 复合关键词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
该文提出了一种新的基于小世界网络特性的关键词提取算法。首先,利用K最邻近耦合图构成方式,将文档表示成为词语网络。引入词语聚类系数变化量和平均最短路径变化量来度量词语的重要性,选择重要性大的词语组成候选关键词集。利用侯选关键词集词语位置关系和汉语词性搭配关系,提取出复合关键词。实验结果表明该方法是可行和有效的,获取复合关键词比一般关键词所表达的含义更便于人们对文本的理解。
引用
收藏
页码:121 / 128
页数:8
相关论文
共 5 条
[1]   一种基于词汇链的关键词抽取方法 [J].
索红光 ;
刘玉树 ;
曹淑英 .
中文信息学报, 2006, (06) :25-30
[2]   基于朴素贝叶斯模型的中文关键词提取算法研究 [J].
程岚岚 ;
何丕廉 ;
孙越恒 .
计算机应用, 2005, (12) :64-66
[3]   关键词自动标引的最大熵模型应用研究 [J].
李素建 ;
王厚峰 ;
俞士汶 ;
辛乘胜 .
计算机学报, 2004, (09) :1192-1197
[4]   中文文本中抽取特征信息的区域与技术 [J].
刘开瑛 ;
薛翠芳 ;
郑家恒 ;
周晓强 ;
不详 .
中文信息学报 , 1998, (02) :2-8
[5]  
复杂网络理论及其应用.[M].汪小帆;李翔;陈关荣编著;.清华大学出版社.2006,