文档复制检测技术是数据安全领域中一个重要的研究课题,是保护知识产权和提高信息检索效率的一种有力手段。文档复制检测就是判断一篇给定文档是否抄袭﹑剽窃或者复制于另外一篇或者多篇文档的内容,剽窃不仅仅意味着原封不动地照搬,还包括对原作的移位变换﹑同义词替换以及改变说法重述等方式。
本文首先介绍了文档复制检测技术的基本原理,分析了现有检测系统的功能和特点,并阐述了构建系统所需要的关键技术。
其次,为了解决现有检测系统的不足,利用Karp-Rabin串匹配算法的思想,提出了一个基于串匹配方法的文档复制检测系统,并描述了系统的体系结构和系统中各模块的工作原理。
再次,指出了基于串匹配方法的文档复制检测系统应该具有的特性,并且解决了构建系统中的许多技术问题。采用重叠的文本块分割文档;定义“滚动”的散列函数把文本块映射成相应的散列值;设计抽样算法从散列值序列中提取文档特征,并对算法提取出文档特征的期望密度以及算法的正确性和复杂性给出了证明分析;提出新的文档相似性度量方法,不仅可以解决1:1的文档关系,也可以解决1:n的文档关系;采用数字查找树存储数据库中已有文档的文本特征,并用双链树表示其结构。
最后,基于上述研究成果,采用面向对象的方法,实现了基于串匹配方法的文档复制检测原型系统,并对系统检测结果的准确性进行了评估。