共 5 条
基于指纹和语义特征的文档复制检测方法
被引:5
作者:
李旭
[1
]
赵亚伟
[2
]
刘国华
[1
]
机构:
[1] 燕山大学信息科学与工程学院
[2] 石家庄信息工程职业学院
来源:
关键词:
复制检测;
文档表示;
指纹;
语义特征;
重叠度;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
文档复制检测是保护知识产权、提高信息检索效率的有效手段。提出一种基于指纹和语义特征的文档复制检测方法。介绍了指纹提取算法以及相关的重叠度度量,并且以知网的概念描述为基础对文本进行语义分析,利用词类信息和语义规则进行歧义消解,并采用基于框架的层级表示方法描述句子的语义特征。在3种测试集上把该方法与现存的方法在检测准确率上进行比较,实验结果表明该方法能够有效地检测出各种方式的复制文本。
引用
收藏
页码:334 / 339
页数:6
相关论文