改进的基于知网的词语相似度算法

被引:36
作者
王小林 [1 ]
王义 [1 ,2 ]
机构
[1] 安徽工业大学计算机学院
[2] 山东省淄博市周村区人民医院信息科
关键词
词语相似度; 知网; 义原; 义项; 词性;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
词语相似度计算在文本分类、问答系统、机器翻译、文本聚类等有着广泛的应用。词语相似度计算的研究工作一般都是基于《知网》的义原的层面上,根据义原之间的距离和义原本身的层次深度,进行词语相似度的计算。基于以上研究,提出了一种新的改进的词语相似度算法,首先根据义项中各类义原的个数不同,提出了一种新的变系数义项相似度计算方法;其次从词性的角度,认为词语义项中的不同词性对词语相似度的贡献度不同,剔除不同词性义项之间的组合。实验结果证明,改进的算法结果在原有基础上得到较好的提升,大幅度降低了相似度计算的复杂度,提高了运算效率。
引用
收藏
页码:3075 / 3077+3090 +3090
页数:4
相关论文
共 7 条
[1]   基于《知网》的词语相似度算法研究 [J].
刘青磊 ;
顾小丰 .
中文信息学报, 2010, 24 (06) :31-36
[2]   一种改进的基于《知网》的词语相似度计算方法 [J].
林丽 ;
薛方 ;
任仲晟 .
计算机应用, 2009, 29 (01) :217-220
[3]   一种改进的基于《知网》的词语语义相似度计算 [J].
江敏 ;
肖诗斌 ;
王弘蔚 ;
施水才 .
中文信息学报, 2008, (05) :84-89
[4]   中文本体映射研究与实现 [J].
李佳 ;
祝铭 ;
刘辰 ;
杨正球 .
中文信息学报, 2007, (04) :27-33
[5]   中文词语语义相似度计算——基于《知网》2000 [J].
李峰 ;
李芳 .
中文信息学报, 2007, (03) :99-105
[6]   基于本体论和词汇语义相似度的Web服务发现 [J].
吴健 ;
吴朝晖 ;
李莹 ;
邓水光 .
计算机学报, 2005, (04) :595-602
[7]   一种基于加权语义相似度模型的自动问答系统 [J].
刘亚军 ;
徐易 .
东南大学学报(自然科学版), 2004, (05) :609-612