基于改进的TF-IDF方法的文本相似度算法研究

被引:11
作者
周丽杰 [1 ]
于伟海 [2 ,3 ]
郭成 [4 ]
机构
[1] 烟台职业学院电教中心
[2] 烟台市教育局
[3] 烟台职业学院成教处
[4] 大连理工大学软件学院
关键词
文本相似度算法; TF-IDF方法; 词语关联; 马尔可夫模型; 文本分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
传统的文本相似度算法采用关键词频率表示该关键词在文档中的重要程度,关键词在类别内不同文档中的频率波动使得关键词的权值产生不稳定性,导致文本之间的相似度运算不够准确.本文提出一种基于词语信息量的改进的TF-IDF算法计算关键词的权值,将得到的权值运用于向量空间模型和马尔可夫模型中,分别得到基于向量空间模型的基础相似度和基于马尔可夫模型的语义相似度,将语义相似度和基础相似度相结合,得到文本之间总体相似度.将改进的文本相似度算法运用于文本分类,实验结果表明,在搜狗文本分类语料库基础上,改进的算法相对于传统的文本相似度算法使得文本分类的准确率有了较大地提高.
引用
收藏
页码:18 / 22
页数:5
相关论文
共 6 条
[1]   文本聚类中的改进特征权重算法 [J].
褚蕾蕾 ;
常文波 ;
李秦 .
工程数学学报, 2012, 29 (04) :523-528
[2]   面向不平衡文本的特征选择方法 [J].
廖一星 ;
潘雪增 .
电子科技大学学报, 2012, 41 (04) :592-595
[3]   统计流形扩散核的文本分类方法 [J].
李侃 ;
周世斌 ;
刘玉树 .
模式识别与人工智能, 2012, 25 (02) :339-345
[4]   语义分析与词频统计相结合的中文文本相似度量方法研究 [J].
华秀丽 ;
朱巧明 ;
李培峰 .
计算机应用研究, 2012, 29 (03) :833-836
[5]   基于余弦向量法的Web数据并行抓掘系统 [J].
徐文杰 ;
陈庆奎 .
计算机工程, 2009, 35 (07) :64-67
[6]  
Exploration on efficient similar sentences extraction[J] . Yanhui Gu,Zhenglu Yang,Guandong Xu,Miyuki Nakano,Masashi Toyoda,Masaru Kitsuregawa.World Wide Web . 2014 (4)