基于左归词频向量空间模型的中文文本抄袭检测算法

被引:9
作者
谢松山
唐雁
机构
[1] 西南大学计算机与信息科学学院
关键词
抄袭检测; 相似度; 向量空间模型; 左归;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
提出一种基于左归词频向量空间模型的抄袭检测算法.通过左归处理将抄袭文本的指代还原,借助同义词链对所有同义词统一左对齐于同义词链首词,然后以直接统计词频构造文本词频特征,抛弃词频统计抄袭检测算法中以TF-IDF多步计算相对词频的处理,最后以词频特征构造向量空间模型,用余弦相似计算文本相似度.实验表明,算法在各种抄袭类型的数据集上综合性能更优、稳定性更好、效率更高.
引用
收藏
页码:158 / 161
页数:4
相关论文
共 10 条
[1]
基于句子相似度的论文抄袭检测模型研究 [J].
冷强奎 ;
秦玉平 ;
王春立 .
计算机工程与应用, 2011, 47 (24) :199-201
[2]
一种结合词项语义信息和TF-IDF方法的文本相似度量方法 [J].
黄承慧 ;
印鉴 ;
侯昉 .
计算机学报, 2011, 34 (05) :856-864
[3]
基于局部词频指纹的论文抄袭检测算法 [J].
秦玉平 ;
冷强奎 ;
王秀坤 ;
王春立 .
计算机工程, 2011, 37 (06) :193-194+197
[4]
Winnowing算法和动态规划算法在作业剽窃检测中的应用和比较 [J].
张量 ;
刘秀敏 ;
刘秀娟 .
计算机工程与科学, 2009, 31 (06) :147-149
[5]
基于本体和向量空间模型的服务相似度度量 [J].
钟国祥 ;
葛继科 .
西南师范大学学报(自然科学版), 2009, 34 (02) :119-122
[6]
基于改进编辑距离和依存文法的汉语句子相似度计算 [J].
刘宝艳 ;
林鸿飞 ;
赵晶 .
计算机应用与软件, 2008, (07) :33-34+47
[7]
中文WordNet的研究及实现 [J].
张俐 ;
李晶皎 ;
胡明涵 ;
姚天顺 .
东北大学学报, 2003, (04) :327-329
[8]
基于二次特征提取的中文文本抄袭检测方法 [D]. 
徐琴 .
西南大学,
2013
[9]
论文相似度分析系统设计 [D]. 
徐川 .
山东大学,
2012
[10]
文本抄袭检测方法研究 [D]. 
华秀丽 .
苏州大学,
2012