基于《知网》义原空间的文本相似度计算

被引:29
作者
肖志军 [1 ]
冯广丽 [2 ]
机构
[1] 玉林师范学院计算机科学与工程学院
[2] 河南工程学院计算机学院
关键词
向量空间模型; 广义向量空间模型; 正交特征项; 《知网》; 文本语义相似度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
针对向量空间模型特征项正交的假设和缺乏语义的缺点,在广义向量空间模型的基础上,提出了一种基于《知网》义原的向量空间模型,利用义原的相似度实现文本相似度的计算。通过文本特征项的TF-IDF权重将文本表示为《知网》义原空间中的向量,并利用义原向量之间的夹角实现对文本相似度的计算。通过文本聚类实验对比了本文提出的方法与VSM和GVSM模型,实验结果表明本文提出的方法在语义相似度计算方面相比GVSM和VSM有所提高。
引用
收藏
页码:8651 / 8656
页数:6
相关论文
共 11 条
[1]
ON MODELING OF INFORMATION-RETRIEVAL CONCEPTS IN VECTOR-SPACES [J].
WONG, SKM ;
ZIARKO, W ;
RAGHAVAN, VV ;
WONG, PCN .
ACM TRANSACTIONS ON DATABASE SYSTEMS, 1987, 12 (02) :299-321
[2]
[3]
《知网》义原相似度计算的研究 [J].
袁晓峰 .
辽宁大学学报(自然科学版), 2011, 38 (04) :358-361
[4]
概念向量文本聚类算法 [J].
白秋产 ;
金春霞 ;
周海岩 .
计算机工程与应用, 2011, 47 (35) :155-157+209
[5]
基于同义词词林的词语相似度计算方法 [J].
田久乐 ;
赵蔚 .
吉林大学学报(信息科学版), 2010, 28 (06) :602-608
[6]
一种基于语料特性的聚类算法 [J].
曾依灵 ;
许洪波 ;
吴高巍 ;
白硕 .
软件学报, 2010, 21 (11) :2802-2813
[7]
基于中文WordNet的中英文词语相似度计算 [J].
吴思颖 ;
吴扬扬 .
郑州大学学报(理学版), 2010, 42 (02) :66-69
[8]
一种改进的基于《知网》的词语语义相似度计算 [J].
江敏 ;
肖诗斌 ;
王弘蔚 ;
施水才 .
中文信息学报, 2008, (05) :84-89
[9]
中文词语语义相似度计算——基于《知网》2000 [J].
李峰 ;
李芳 .
中文信息学报, 2007, (03) :99-105
[10]
基于部件的文本相似度计算 [J].
程玉柱 ;
邬书跃 .
计算机工程与设计, 2006, (18) :3444-3446