共 18 条
基于数字指纹的文献相似度检测研究
被引:7
作者:

白如江
论文数: 0 引用数: 0
h-index: 0
机构: 山东理工大学科技信息研究所

王晓笛
论文数: 0 引用数: 0
h-index: 0
机构: 山东理工大学科技信息研究所

王效岳
论文数: 0 引用数: 0
h-index: 0
机构: 山东理工大学科技信息研究所
机构:
[1] 山东理工大学科技信息研究所
来源:
关键词:
数字指纹;
抄袭检验;
最大熵原理;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
针对中文文献抄袭检测提出了一种基于汉语词频的文本数字指纹,通过对具有参考性的语料库进行词频和字频统计形成一个hash词表,然后基于最大熵原理为任意长度的文本生成一个基于词频特征的文本数字指纹,对于任意两篇文献可以通过计算对应的两个数字指纹的Hamming距离来得到一个相似度的估计。通过使用维基百科zhwiki-20121129-all-titles语料库构建hash词表,对情报学领域4种核心期刊进行实验,结果表明这种数字指纹对常见的抄袭情况都能很好地识别和检测,具有很强的鲁棒性。
引用
收藏
页码:88 / 95
页数:8
相关论文
共 18 条
[1]
语义分析与词频统计相结合的中文文本相似度量方法研究
[J].
华秀丽
;
朱巧明
;
李培峰
.
计算机应用研究,
2012, 29 (03)
:833-836

论文数: 引用数:
h-index:
机构:

朱巧明
论文数: 0 引用数: 0
h-index: 0
机构:
江苏省计算机信息处理技术重点实验室 苏州大学计算机科学与技术学院

李培峰
论文数: 0 引用数: 0
h-index: 0
机构:
江苏省计算机信息处理技术重点实验室 苏州大学计算机科学与技术学院
[2]
基于词性频率的中文文本零水印算法
[J].
舒娟娟
;
刘玉玲
.
计算机应用,
2011, 31(S2) (S2)
:103-105+111

论文数: 引用数:
h-index:
机构:

刘玉玲
论文数: 0 引用数: 0
h-index: 0
机构: 湖南大学信息科学与工程学院
[3]
基于多SimHash指纹的近似文本检测
[J].
董博
;
郑庆华
;
宋凯磊
;
田锋
;
马瑞
.
小型微型计算机系统,
2011, 32 (11)
:2152-2157

董博
论文数: 0 引用数: 0
h-index: 0
机构:
西安交通大学计算机科学与技术系
西安交通大学教育部智能网络与网络安全重点实验室与陕西省天地网技术重点实验室 西安交通大学计算机科学与技术系

郑庆华
论文数: 0 引用数: 0
h-index: 0
机构:
西安交通大学计算机科学与技术系
西安交通大学教育部智能网络与网络安全重点实验室与陕西省天地网技术重点实验室 西安交通大学计算机科学与技术系

论文数: 引用数:
h-index:
机构:

田锋
论文数: 0 引用数: 0
h-index: 0
机构:
西安交通大学教育部智能网络与网络安全重点实验室与陕西省天地网技术重点实验室
西安交通大学系统工程研究所 西安交通大学计算机科学与技术系

论文数: 引用数:
h-index:
机构:
[4]
基于领域本体的文本相似度算法
[J].
王晋
;
孙涌
;
王璁玮
.
苏州大学学报(工科版),
2011, 31 (03)
:13-17+25

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:
[5]
一种结合词项语义信息和TF-IDF方法的文本相似度量方法
[J].
黄承慧
;
印鉴
;
侯昉
.
计算机学报,
2011, 34 (05)
:856-864

黄承慧
论文数: 0 引用数: 0
h-index: 0
机构:
中山大学信息科学与技术学院
广东金融学院计算机科学与技术系 中山大学信息科学与技术学院

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:
[6]
国内外文本分类研究计量分析与综述
[J].
胡泽文
;
王效岳
;
白如江
.
图书情报工作 ,
2011, (06)
:78-81+142

论文数: 引用数:
h-index:
机构:

王效岳
论文数: 0 引用数: 0
h-index: 0
机构: 不详

白如江
论文数: 0 引用数: 0
h-index: 0
机构: 不详
[7]
基于潜在特征词的文本相似度计算方法
[J].
杨云
;
吴亚男
;
李健
.
计算机工程与设计,
2011, 32 (02)
:572-575

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:
[8]
基于文本特征的文本水印算法
[J].
斯琴
;
张力
;
廉德亮
.
计算机应用,
2009, 29 (09)
:2348-2350

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

廉德亮
论文数: 0 引用数: 0
h-index: 0
机构: 深圳大学信息工程学院
[9]
基于语义理解的文本相似度算法
[J].
金博
;
史彦军
;
滕弘飞
.
大连理工大学学报,
2005, (02)
:291-297

金博
论文数: 0 引用数: 0
h-index: 0
机构: 大连理工大学机械工程学院

史彦军
论文数: 0 引用数: 0
h-index: 0
机构: 大连理工大学机械工程学院

滕弘飞
论文数: 0 引用数: 0
h-index: 0
机构: 大连理工大学机械工程学院
[10]
零水印的概念与应用
[J].
温泉
;
孙锬锋
;
王树勋
.
电子学报,
2003, (02)
:214-216

论文数: 引用数:
h-index:
机构:

孙锬锋
论文数: 0 引用数: 0
h-index: 0
机构: 吉林大学通信工程学院

王树勋
论文数: 0 引用数: 0
h-index: 0
机构: 吉林大学通信工程学院