基于语义关联的中文网页主题词提取方法研究

被引:5
作者
李芳芳 [1 ]
葛斌 [1 ]
毛星亮 [2 ]
汤大权 [1 ]
机构
[1] 国防科学技术大学CISR技术国防科技重点实验室
[2] 中共湖南省委互联网新闻宣传办公室
关键词
语义关联; 中文网页; 主题词; 权重;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
提出了一种基于语义关联的中文网页主题词提取方法,首先借助滑动窗口和"知网"计算词语间的语义相似度,形成候选名词对集合;然后基于该集合生成无向图表示词语间的语义联系,并通过该无向图对主题词权重进行建模;最后选取权值较高的名词作为主题词。实验结果表明,相比未建立语义关联的主题词提取方法,本方法在查准率、召回率和F1测度值上均有一定的提高,当提取主题词个数为7时,本方法召回率和F1测度值达到最大值,且分别较传统方法最大值提高了12.5%和9.53%。
引用
收藏
页码:105 / 107+123 +123
页数:4
相关论文
共 4 条
[1]   基于语义联系的新闻网页关键词抽取 [J].
谢飞 ;
吴信东 ;
胡学钢 ;
李星华 ;
江兆中 .
广西师范大学学报(自然科学版), 2009, 27 (01) :145-148
[2]   一种基于词汇链的关键词抽取方法 [J].
索红光 ;
刘玉树 ;
曹淑英 .
中文信息学报, 2006, (06) :25-30
[3]   关键词自动标引的最大熵模型应用研究 [J].
李素建 ;
王厚峰 ;
俞士汶 ;
辛乘胜 .
计算机学报, 2004, (09) :1192-1197
[4]   基于向量空间模型中义项词语的无导词义消歧 [J].
鲁松 ;
白硕 ;
黄雄 .
软件学报, 2002, (06) :1082-1089