一种基于段落词频统计的论文抄袭判定算法

被引:11
作者
赵俊杰 [1 ,2 ]
胡学钢 [1 ]
机构
[1] 合肥工业大学
[2] 安徽财经大学
关键词
抄袭判定; 词频统计; 段落相似度; 中文分词;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
081202 ;
摘要
解决论文抄袭的判定问题不但可以减轻审稿人员的工作负担,而且对于提高学术论文质量、净化学术领域、防止学术腐败都有很重要的意义。从抄袭的定义和法律规定出发,在分析比较国内外主要的论文抄袭判定方法基础上,提出存在的问题和改进策略,然后给出一种基于段落词频统计的论文抄袭判定算法。此算法不但可以检测出抄袭者成段抄袭的情况,而且可以检测出段落中语句顺序改变、段落内容压缩和扩充的情况,若疑似抄袭还可以将抄袭论文和被抄袭论文的相似内容输出,方便用户进一步审查。
引用
收藏
页码:231 / 233+238 +238
页数:4
相关论文
共 6 条
[1]   基于篇章结构相似度的复制检测算法 [J].
金博 ;
史彦军 ;
滕弘飞 .
大连理工大学学报, 2007, (01) :125-130
[2]   抄袭论文识别研究与进展 [J].
史彦军 ;
滕弘飞 ;
金博 .
大连理工大学学报, 2005, (01) :50-57
[3]   自然语言文档复制检测研究综述 [J].
鲍军鹏 ;
沈钧毅 ;
刘晓东 ;
宋擒豹 .
软件学报, 2003, (10) :1753-1760
[5]   数字商品非法复制和扩散的监测机制 [J].
宋擒豹 ;
沈钧毅 .
计算机研究与发展, 2001, (01) :121-125
[6]  
自然语言处理技术基础[M]. 北京邮电大学出版社 , 王小捷,常宝宝编著, 2002