共 2 条
基于文档指纹的中文复制检测方法
被引:7
作者:
麻会东
刘国华
李现伟
刘春辉
机构:
[1] 燕山大学信息科学与工程学院
来源:
关键词:
指纹;
剽窃;
文本块;
匹配;
D O I:
10.16088/j.issn.1001-6600.2007.04.030
中图分类号:
TP309.7 [加密与解密];
学科分类号:
摘要:
文档复制检测技术是保护知识产权和提高信息检索效率的有效有段。目前,关于英文的复制检测技术已经趋向成熟,但关于中文的复制检测技术才刚刚起步。在此提出基于文档指纹的中文复制检测方法,改进了正向最大匹配分词方法并建立了相应的语料库机制,提出k-words分解句子的方法;定义了两篇文档同粒度指纹矩阵之间的匹配运算。实验结果表明,所提出的方法能高效地进行中文文档复制检测。
引用
收藏
页码:112 / 115
页数:4
相关论文