论文抄袭是困扰学术界的严重问题之一,当前,英文论文的相似度分析主要采用数字指纹和字符串匹配等技术,该技术发展应用的比较成熟,但是在进行中文论文的相似度分析时,我们采用的算法一般都是识别率比较低、效率也低,因此对中文论文的相似度分析还需提高。
文本复制检测技术在知识产权保护和信息检索中有着重要应用。文档复制检测在初期主要检测程序复制,现在则主要应用于学术不端论文检测。文章首先对文本复制检测技术的研究意义和发展历史进行了简单的介绍,接着文章介绍了中文分词,因为中文分词是解决论文相似度分析的基础,并且文章分析了ICTCLAS中文分词系统。
本文设计了一套论文相似度分析综合方法,本设计主要使用两种基本的文本复制检测方法:基于段落的词频统计和逐层的指纹识别,这套方法是对词频统计指纹识别和KMP字符串匹配等方法的改进和完善。基于段落的词频统计只需要对某个抄袭的段落进行匹配操作即可,无需全篇匹配,大大提高了性能,同时由于字符串直接匹配是最准确的匹配方法,因此提高了抄袭判定的准确率;逐层的指纹识别性能比词频统计系统更优,更适合于超大规模计算的文本复制检测方法。本文的指纹生成使用k-words法为基础,指纹选取使用winnowing策略。
本文使用java代码实现了这套方法的部分功能,实现功能包括:段落词频统计和交互式论文相似度分析系统,交互式论文相似度分析系统包括词频统计、指纹识别、双重KMP等部分。本文还对此程序进行了系统测试分析,主要包括交互式论文相似度系统测试和段落词频统计程序测试,证明了其可行性和性能优势,文章最后在大量工作的基础上总结了中英文文本复制检测的异同点并对未来中文文本复制检测方法进行了展望。