基于向量空间模型的中文文本相似度的研究

被引:12
作者
薛苏琴
牛永洁
机构
[1] 延安大学数学与计算机学院
关键词
文本相似度; 向量空间模型; 分词; 信息处理; C#;
D O I
10.14022/j.cnki.dzsjgc.2016.10.008
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在文本聚类中需要衡量中文文本之间的相似性。本文首先讨论了文本相似度的概念和常用计算算法,详细介绍了向量空间模型和算法步骤,采用删除去除词表、近义词合并、修改文件长度3中策略对算法进行了改进。最后借助盘古分词组件和搜狗实验室的互联网词库,在Visual Studio 2008环境下使用C#语言对算法进行了实现。使用在CNKI上得到的5个不同领域的500篇学术论文的中文摘要对算法进行了测试,结果表明新算法在误差率方面有较大改善,但运行时间较长。
引用
收藏
页码:28 / 31
页数:4
相关论文
共 10 条
[1]   一种基于语义与结构的句子相似度计算方法 [J].
张艳杰 ;
邵雄凯 ;
刘建舟 .
湖北工业大学学报, 2015, 30 (05) :82-85
[2]   基于频繁项集的海量短文本聚类与主题抽取 [J].
彭敏 ;
黄佳佳 ;
朱佳晖 ;
黄济民 ;
刘纪平 .
计算机研究与发展, 2015, (09) :1941-1953
[3]   基于主题词分布的低价值新闻识别技术研究 [J].
朱青 ;
李贞昊 .
计算机应用与软件, 2015, 32 (07) :190-195
[4]   一种基于向量词序的句子相似度算法研究 [J].
程志强 ;
闵华松 .
计算机仿真, 2014, 31 (07) :419-424
[5]  
网络舆情突发事件检测与追踪关键技术研究.[D].费绍栋.山东师范大学.2015, 09
[6]  
基于关键句的文本自动标签研究.[D].李洪岩.北京邮电大学.2015, 08
[7]  
自动问答系统中基于WordNet的句子相似度计算研究与实现.[D].陈丽莎.华南理工大学.2014, 01
[8]  
微博热点话题发现的研究.[D].李晓娴.北京交通大学.2014, 06
[9]  
基于主题模型的文本相似度计算研究与实现.[D].孙昌年.安徽大学.2012, 09
[10]  
基于向量空间模型的中文文本相似度算法研究.[D].陈飞宏.电子科技大学.2011, 12