基于词汇链的关键短语抽取方法的研究

被引:14
作者
刘铭
王晓龙
刘远超
机构
[1] 哈尔滨工业大学计算机科学与技术学院
基金
国家自然科学基金重点项目;
关键词
词汇链; 知网; 中心词聚类; 关键短语; 词义获取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
文中提出一种基于词汇链的关键短语抽取算法,算法首先通过构造多条词汇链来表达文章的多条叙事线索,并从多条词汇链中抽取富含主题信息的强链代表文章着重叙述的信息,然后从强链中选取能够从不同侧面充分表达强链所述信息的短语作为文章的关键短语.实验表明该算法抽取的关键短语能够更全面地覆盖文章的主题信息.算法消除了多个关键短语表达同一主题信息的冗余性,同时可以根据文章主题的分布动态确定输出的关键短语的数量,其效果明显优于采用统计信息进行关键词抽取的方法.
引用
收藏
页码:1246 / 1255
页数:10
相关论文
共 13 条
[1]   文本分类中特征选择的约束研究 [J].
徐燕 ;
李锦涛 ;
王斌 ;
孙春明 ;
张森 .
计算机研究与发展 , 2008, (04) :596-602
[2]   密度敏感的半监督谱聚类 [J].
王玲 ;
薄列峰 ;
焦李成 .
软件学报, 2007, (10) :2412-2422
[3]   领域术语自动抽取及其在文本分类中的应用 [J].
刘桃 ;
刘秉权 ;
徐志明 ;
王晓龙 .
电子学报, 2007, (02) :328-332
[4]   基于粗集理论的中文关键词短语构成规则挖掘 [J].
刘远超 ;
王晓龙 ;
徐志明 ;
刘秉权 .
电子学报, 2007, (02) :371-374
[5]   信息检索中的聚类分析技术 [J].
刘远超 ;
王晓龙 ;
刘秉权 ;
钟彬彬 .
电子与信息学报, 2006, (04) :606-609
[6]   统计词义消歧的研究进展 [J].
卢志茂 ;
刘挺 ;
李生 .
电子学报, 2006, (02) :333-343
[7]   关键词自动标引的最大熵模型应用研究 [J].
李素建 ;
王厚峰 ;
俞士汶 ;
辛乘胜 .
计算机学报, 2004, (09) :1192-1197
[8]   基于语义计算的语句相关度研究 [J].
李素建 .
计算机工程与应用, 2002, (07) :75-76+83
[9]   一种基于词矢量的汉语语义量化模型 [J].
陈清才 ;
王晓龙 .
计算机研究与发展, 2001, (02) :207-212
[10]   基于k-近似的汉语词类自动判定 [J].
孙茂松 ;
左正平 ;
邹嘉彦 .
计算机学报, 2000, (02) :166-170