基于VSM的文本相似度计算的研究

被引:96
作者
郭庆琳 [1 ,2 ]
李艳梅 [1 ]
唐琦 [1 ]
机构
[1] 华北电力大学计算机科学与技术学院
[2] 北京大学计算机系
关键词
文本相似度; 特征选择; 词频—逆文档频率法; 向量空间模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词的方法,弥补了其对个别有用信息错误过滤的不足;另一方面,利用特征项在特征选择阶段的权重对TD-IDF方法进行加权处理,在不增加开销的情况下扩大了文档集的规模,还提高了相似度计算的精确度。
引用
收藏
页码:3256 / 3258
页数:3
相关论文
empty
未找到相关数据