基于指纹和语义特征的文档复制检测方法

被引:5
作者
李旭 [1 ]
赵亚伟 [2 ]
刘国华 [1 ]
机构
[1] 燕山大学信息科学与工程学院
[2] 石家庄信息工程职业学院
关键词
复制检测; 文档表示; 指纹; 语义特征; 重叠度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
文档复制检测是保护知识产权、提高信息检索效率的有效手段。提出一种基于指纹和语义特征的文档复制检测方法。介绍了指纹提取算法以及相关的重叠度度量,并且以知网的概念描述为基础对文本进行语义分析,利用词类信息和语义规则进行歧义消解,并采用基于框架的层级表示方法描述句子的语义特征。在3种测试集上把该方法与现存的方法在检测准确率上进行比较,实验结果表明该方法能够有效地检测出各种方式的复制文本。
引用
收藏
页码:334 / 339
页数:6
相关论文
共 5 条
[1]   基于提取关键词的中文文档复制检测研究 [J].
麻会东 ;
刘国华 ;
李旭 ;
梁鹏 ;
刘春辉 ;
张凌宇 .
计算机工程与科学, 2007, (10) :63-64+88
[2]   基于篇章结构相似度的复制检测算法 [J].
金博 ;
史彦军 ;
滕弘飞 .
大连理工大学学报, 2007, (01) :125-130
[3]   基于语义理解的文本相似度算法 [J].
金博 ;
史彦军 ;
滕弘飞 .
大连理工大学学报, 2005, (02) :291-297
[4]   数字商品非法复制和扩散的监测机制 [J].
宋擒豹 ;
沈钧毅 ;
不详 .
计算机研究与发展 , 2001, (01) :121-125
[5]   用LR算法分析汉语的语法关系 [J].
周会平 ;
王挺 ;
陈火旺 .
软件学报, 1999, (09) :967-973