基于句子相似度的论文抄袭检测模型研究

被引:14
作者
冷强奎 [1 ]
秦玉平 [1 ]
王春立 [2 ]
机构
[1] 渤海大学信息科学与工程学院
[2] 大连海事大学信息科学技术学院
关键词
句子相似度; 抄袭检测; 局部词频; 最长有序公共子序列;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
提出一种基于句子相似度的论文抄袭检测模型。利用局部词频指纹算法对大规模文档进行快速检测,找出疑似抄袭文档。根据最长有序公共子序列算法计算句子间的相似度,并标注抄袭细节,给出抄袭依据。在标准中文数据集SOGOU-T上进行的实验表明,该模型具有较强的局部信息挖掘能力,在一定程度上克服了现有的论文抄袭检测算法精度不高的缺点。
引用
收藏
页码:199 / 201
页数:3
相关论文
共 7 条
[1]
Exploring the similarity space.[J].Justin Zobel;Alistair Moffat.ACM SIGIR Forum.1998, 1
[2]
Algorithms for the Longest Common Subsequence Problem.[J].Daniel S. Hirschberg.Journal of the ACM (JACM).1977, 4
[3]
基于超球支持向量机的类增量学习算法研究 [J].
秦玉平 ;
李祥纳 ;
王秀坤 ;
王春立 .
计算机科学, 2008, (08) :116-118
[4]
基于篇章结构相似度的复制检测算法 [J].
金博 ;
史彦军 ;
滕弘飞 .
大连理工大学学报, 2007, (01) :125-130
[5]
抄袭论文识别研究与进展 [J].
史彦军 ;
滕弘飞 ;
金博 .
大连理工大学学报, 2005, (01) :50-57
[6]
句子相似度的动态规划求解及改进 [J].
林贤明 ;
李堂秋 ;
陈毅东 .
计算机工程与应用, 2004, (35) :64-65+93
[7]
基于语义依存的汉语句子相似度计算 [J].
李彬 ;
刘挺 ;
秦兵 ;
李生 .
计算机应用研究, 2003, (12) :15-17