语义分析与词频统计相结合的中文文本相似度量方法研究

被引:43
作者
华秀丽 [1 ,2 ]
朱巧明 [2 ]
李培峰 [2 ]
机构
[1] 苏州大学计算机科学与技术学院
[2] 江苏省计算机信息处理技术重点实验室
基金
高等学校博士学科点专项科研基金;
关键词
向量空间模型; 语义分析; 词频; 概率分布; 文本相似度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。
引用
收藏
页码:833 / 836
页数:4
相关论文
共 2 条
[1]   基于语义计算的语句相关度研究 [J].
李素建 .
计算机工程与应用, 2002, (07) :75-76+83
[2]  
Spotsigs:Robust and Efficient Near Duplicate Detection in Large Web Collections .2 Theobald,M,Siddharth,J,Paepcke,A. Proceedings of the 31 st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval . 2008