基于数字指纹的文献相似度检测研究

被引:7
作者
白如江
王晓笛
王效岳
机构
[1] 山东理工大学科技信息研究所
关键词
数字指纹; 抄袭检验; 最大熵原理;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对中文文献抄袭检测提出了一种基于汉语词频的文本数字指纹,通过对具有参考性的语料库进行词频和字频统计形成一个hash词表,然后基于最大熵原理为任意长度的文本生成一个基于词频特征的文本数字指纹,对于任意两篇文献可以通过计算对应的两个数字指纹的Hamming距离来得到一个相似度的估计。通过使用维基百科zhwiki-20121129-all-titles语料库构建hash词表,对情报学领域4种核心期刊进行实验,结果表明这种数字指纹对常见的抄袭情况都能很好地识别和检测,具有很强的鲁棒性。
引用
收藏
页码:88 / 95
页数:8
相关论文
共 18 条
[1]   语义分析与词频统计相结合的中文文本相似度量方法研究 [J].
华秀丽 ;
朱巧明 ;
李培峰 .
计算机应用研究, 2012, 29 (03) :833-836
[2]   基于词性频率的中文文本零水印算法 [J].
舒娟娟 ;
刘玉玲 .
计算机应用, 2011, 31(S2) (S2) :103-105+111
[3]   基于多SimHash指纹的近似文本检测 [J].
董博 ;
郑庆华 ;
宋凯磊 ;
田锋 ;
马瑞 .
小型微型计算机系统, 2011, 32 (11) :2152-2157
[4]   基于领域本体的文本相似度算法 [J].
王晋 ;
孙涌 ;
王璁玮 .
苏州大学学报(工科版), 2011, 31 (03) :13-17+25
[5]   一种结合词项语义信息和TF-IDF方法的文本相似度量方法 [J].
黄承慧 ;
印鉴 ;
侯昉 .
计算机学报, 2011, 34 (05) :856-864
[6]   国内外文本分类研究计量分析与综述 [J].
胡泽文 ;
王效岳 ;
白如江 .
图书情报工作 , 2011, (06) :78-81+142
[7]   基于潜在特征词的文本相似度计算方法 [J].
杨云 ;
吴亚男 ;
李健 .
计算机工程与设计, 2011, 32 (02) :572-575
[8]   基于文本特征的文本水印算法 [J].
斯琴 ;
张力 ;
廉德亮 .
计算机应用, 2009, 29 (09) :2348-2350
[9]   基于语义理解的文本相似度算法 [J].
金博 ;
史彦军 ;
滕弘飞 .
大连理工大学学报, 2005, (02) :291-297
[10]   零水印的概念与应用 [J].
温泉 ;
孙锬锋 ;
王树勋 .
电子学报, 2003, (02) :214-216