学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于VSM的文本相似度计算的研究
被引:96
作者
:
论文数:
引用数:
h-index:
机构:
郭庆琳
[
1
,
2
]
李艳梅
论文数:
0
引用数:
0
h-index:
0
机构:
华北电力大学计算机科学与技术学院
华北电力大学计算机科学与技术学院
李艳梅
[
1
]
论文数:
引用数:
h-index:
机构:
唐琦
[
1
]
机构
:
[1]
华北电力大学计算机科学与技术学院
[2]
北京大学计算机系
来源
:
计算机应用研究
|
2008年
/ 11期
关键词
:
文本相似度;
特征选择;
词频—逆文档频率法;
向量空间模型;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词的方法,弥补了其对个别有用信息错误过滤的不足;另一方面,利用特征项在特征选择阶段的权重对TD-IDF方法进行加权处理,在不增加开销的情况下扩大了文档集的规模,还提高了相似度计算的精确度。
引用
收藏
页码:3256 / 3258
页数:3
相关论文
未找到相关数据
未找到相关数据