基于句子相似度的文档复制检测算法研究

被引:16
作者
秦新国
机构
[1] 南京审计学院教务处
关键词
文档复制检测; 句子相似度; 指纹;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
提出一种基于句子相似度的文档复制检测技术,在抓住文档的全局特征的同时又兼顾文档的结构信息,克服以往检测算法两者不可兼顾的缺陷,提高检测精度。最后,给出该算法与其他算法检测结果的比较情况。实验证明,该算法是可行的。
引用
收藏
页码:63 / 66
页数:4
相关论文
共 5 条
[1]
一种文本相似性的度量方法和计算方法 [J].
何明 ;
胡彩霞 .
黄山学院学报, 2005, (06) :71-72
[2]
抄袭论文识别研究与进展 [J].
史彦军 ;
滕弘飞 ;
金博 .
大连理工大学学报, 2005, (01) :50-57
[3]
自然语言文档复制检测研究综述 [J].
鲍军鹏 ;
沈钧毅 ;
刘晓东 ;
宋擒豹 .
软件学报, 2003, (10) :1753-1760
[4]
数字商品非法复制的检测算法 [J].
宋擒豹 ;
杨向荣 ;
沈钧毅 ;
齐勇 .
计算机学报, 2002, (11) :1206-1211
[5]
Finding similar files in a large file system UDI M; 1994 Winter USENIX Technical Conference 1994,