共 7 条
改进的基于知网的词语相似度算法
被引:36
作者:
王小林
[1
]
王义
[1
,2
]
机构:
[1] 安徽工业大学计算机学院
[2] 山东省淄博市周村区人民医院信息科
来源:
关键词:
词语相似度;
知网;
义原;
义项;
词性;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
词语相似度计算在文本分类、问答系统、机器翻译、文本聚类等有着广泛的应用。词语相似度计算的研究工作一般都是基于《知网》的义原的层面上,根据义原之间的距离和义原本身的层次深度,进行词语相似度的计算。基于以上研究,提出了一种新的改进的词语相似度算法,首先根据义项中各类义原的个数不同,提出了一种新的变系数义项相似度计算方法;其次从词性的角度,认为词语义项中的不同词性对词语相似度的贡献度不同,剔除不同词性义项之间的组合。实验结果证明,改进的算法结果在原有基础上得到较好的提升,大幅度降低了相似度计算的复杂度,提高了运算效率。
引用
收藏
页码:3075 / 3077+3090
+3090
页数:4
相关论文