一种改进的基于《知网》的词语语义相似度计算

被引:103
作者
江敏
肖诗斌
王弘蔚
施水才
机构
[1] 北京信息科技大学中文信息处理研究中心
关键词
计算机应用; 中文信息处理; 知网; 词语相似度; 义原; 词语极性识别;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与"贼眉鼠眼"的相似度为0.814 815,与"优雅"的相似度为0.788 360,"深红"与"粉红"的相似度仅为0.074 074,这将不利于进行词语的极性识别。基于文本情感色彩分析的需要,把词语相似度的取值范围规定为[-1,+1],在刘群论文的基础上,进一步考虑了义原的深度信息,并利用《知网》义原间的反义、对义关系和义原的定义信息来计算词语的相似度。在词语极性识别实验中,得到了较好的实验结果:P值为99.07%,R值为99.11%。
引用
收藏
页码:84 / 89
页数:6
相关论文
共 4 条
[1]   中文词语语义相似度计算——基于《知网》2000 [J].
李峰 ;
李芳 .
中文信息学报, 2007, (03) :99-105
[2]   基于HowNet的词汇语义倾向计算 [J].
朱嫣岚 ;
闵锦 ;
周雅倩 ;
黄萱菁 ;
吴立德 .
中文信息学报, 2006, (01) :14-20
[3]   基于本体论和词汇语义相似度的Web服务发现 [J].
吴健 ;
吴朝晖 ;
李莹 ;
邓水光 .
计算机学报, 2005, (04) :595-602
[4]   基于ALICE的汉语自然语言接口 [J].
夏天 ;
樊孝忠 ;
刘林 ;
骆正华 .
北京理工大学学报, 2004, (10) :885-889