共 4 条
基于语义关联的中文网页主题词提取方法研究
被引:5
作者:
李芳芳
[1
]
葛斌
[1
]
毛星亮
[2
]
汤大权
[1
]
机构:
[1] 国防科学技术大学CISR技术国防科技重点实验室
[2] 中共湖南省委互联网新闻宣传办公室
来源:
关键词:
语义关联;
中文网页;
主题词;
权重;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
提出了一种基于语义关联的中文网页主题词提取方法,首先借助滑动窗口和"知网"计算词语间的语义相似度,形成候选名词对集合;然后基于该集合生成无向图表示词语间的语义联系,并通过该无向图对主题词权重进行建模;最后选取权值较高的名词作为主题词。实验结果表明,相比未建立语义关联的主题词提取方法,本方法在查准率、召回率和F1测度值上均有一定的提高,当提取主题词个数为7时,本方法召回率和F1测度值达到最大值,且分别较传统方法最大值提高了12.5%和9.53%。
引用
收藏
页码:105 / 107+123
+123
页数:4
相关论文