论文相似度分析系统设计

被引:0
作者
徐川
机构
[1] 山东大学
关键词
复制检测; 词频统计; 指纹识别; ICTCLAS; KMP算法;
D O I
暂无
年度学位
2012
学位类型
硕士
导师
摘要
论文抄袭是困扰学术界的严重问题之一,当前,英文论文的相似度分析主要采用数字指纹和字符串匹配等技术,该技术发展应用的比较成熟,但是在进行中文论文的相似度分析时,我们采用的算法一般都是识别率比较低、效率也低,因此对中文论文的相似度分析还需提高。 文本复制检测技术在知识产权保护和信息检索中有着重要应用。文档复制检测在初期主要检测程序复制,现在则主要应用于学术不端论文检测。文章首先对文本复制检测技术的研究意义和发展历史进行了简单的介绍,接着文章介绍了中文分词,因为中文分词是解决论文相似度分析的基础,并且文章分析了ICTCLAS中文分词系统。 本文设计了一套论文相似度分析综合方法,本设计主要使用两种基本的文本复制检测方法:基于段落的词频统计和逐层的指纹识别,这套方法是对词频统计指纹识别和KMP字符串匹配等方法的改进和完善。基于段落的词频统计只需要对某个抄袭的段落进行匹配操作即可,无需全篇匹配,大大提高了性能,同时由于字符串直接匹配是最准确的匹配方法,因此提高了抄袭判定的准确率;逐层的指纹识别性能比词频统计系统更优,更适合于超大规模计算的文本复制检测方法。本文的指纹生成使用k-words法为基础,指纹选取使用winnowing策略。 本文使用java代码实现了这套方法的部分功能,实现功能包括:段落词频统计和交互式论文相似度分析系统,交互式论文相似度分析系统包括词频统计、指纹识别、双重KMP等部分。本文还对此程序进行了系统测试分析,主要包括交互式论文相似度系统测试和段落词频统计程序测试,证明了其可行性和性能优势,文章最后在大量工作的基础上总结了中英文文本复制检测的异同点并对未来中文文本复制检测方法进行了展望。
引用
收藏
页数:54
共 10 条
[1]
An algorithmic approach to the detection and prevention of plagiarism.[J].K. J. Ottenstein.ACM SIGCSE Bulletin.1976, 4
[2]
论文复制检测管理系统的设计与实现 [D]. 
李志斌 .
北京邮电大学,
2009
[3]
基于串匹配方法的文档复制检测系统研究 [D]. 
李旭 .
燕山大学,
2006
[4]
中文文本自动分类的研究与实现 [D]. 
都云琪 .
西安电子科技大学,
2002
[5]
基于段落相似度的论文抄袭判定 [J].
赵俊杰 ;
谢飞 .
电脑与电信, 2008, (08) :22-23+35
[6]
基于提取关键词的中文文档复制检测研究 [J].
麻会东 ;
刘国华 ;
李旭 ;
梁鹏 ;
刘春辉 ;
张凌宇 .
计算机工程与科学, 2007, (10) :63-64+88
[7]
数字商品非法复制的检测算法 [J].
宋擒豹 ;
杨向荣 ;
沈钧毅 ;
齐勇 .
计算机学报, 2002, (11) :1206-1211
[8]
基于分类思想的论文抄袭判定系统的设计与实现.[J].赵俊杰;.数字图书馆论坛.2008, 11
[9]
文本分类及其相关技术研究 [D]. 
李荣陆 .
复旦大学,
2005
[10]
基于统计的文本分类技术研究 [D]. 
程军 .
中国科学院研究生院(文献情报中心),
2003