学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于左归词频向量空间模型的中文文本抄袭检测算法
被引:9
作者
:
论文数:
引用数:
h-index:
机构:
谢松山
论文数:
引用数:
h-index:
机构:
唐雁
机构
:
[1]
西南大学计算机与信息科学学院
来源
:
西南大学学报(自然科学版)
|
2015年
/ 05期
关键词
:
抄袭检测;
相似度;
向量空间模型;
左归;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
提出一种基于左归词频向量空间模型的抄袭检测算法.通过左归处理将抄袭文本的指代还原,借助同义词链对所有同义词统一左对齐于同义词链首词,然后以直接统计词频构造文本词频特征,抛弃词频统计抄袭检测算法中以TF-IDF多步计算相对词频的处理,最后以词频特征构造向量空间模型,用余弦相似计算文本相似度.实验表明,算法在各种抄袭类型的数据集上综合性能更优、稳定性更好、效率更高.
引用
收藏
页码:158 / 161
页数:4
相关论文
共 10 条
[1]
基于句子相似度的论文抄袭检测模型研究
[J].
论文数:
引用数:
h-index:
机构:
冷强奎
;
论文数:
引用数:
h-index:
机构:
秦玉平
;
王春立
论文数:
0
引用数:
0
h-index:
0
机构:
大连海事大学信息科学技术学院
渤海大学信息科学与工程学院
王春立
.
计算机工程与应用,
2011,
47
(24)
:199
-201
[2]
一种结合词项语义信息和TF-IDF方法的文本相似度量方法
[J].
论文数:
引用数:
h-index:
机构:
黄承慧
;
论文数:
引用数:
h-index:
机构:
印鉴
;
论文数:
引用数:
h-index:
机构:
侯昉
.
计算机学报,
2011,
34
(05)
:856
-864
[3]
基于局部词频指纹的论文抄袭检测算法
[J].
论文数:
引用数:
h-index:
机构:
秦玉平
;
论文数:
引用数:
h-index:
机构:
冷强奎
;
论文数:
引用数:
h-index:
机构:
王秀坤
;
王春立
论文数:
0
引用数:
0
h-index:
0
机构:
大连海事大学信息科学技术学院
渤海大学信息科学与工程学院
王春立
.
计算机工程,
2011,
37
(06)
:193
-194+197
[4]
Winnowing算法和动态规划算法在作业剽窃检测中的应用和比较
[J].
论文数:
引用数:
h-index:
机构:
张量
;
论文数:
引用数:
h-index:
机构:
刘秀敏
;
论文数:
引用数:
h-index:
机构:
刘秀娟
.
计算机工程与科学,
2009,
31
(06)
:147
-149
[5]
基于本体和向量空间模型的服务相似度度量
[J].
论文数:
引用数:
h-index:
机构:
钟国祥
;
论文数:
引用数:
h-index:
机构:
葛继科
.
西南师范大学学报(自然科学版),
2009,
34
(02)
:119
-122
[6]
基于改进编辑距离和依存文法的汉语句子相似度计算
[J].
刘宝艳
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系
刘宝艳
;
论文数:
引用数:
h-index:
机构:
林鸿飞
;
论文数:
引用数:
h-index:
机构:
赵晶
.
计算机应用与软件,
2008,
(07)
:33
-34+47
[7]
中文WordNet的研究及实现
[J].
论文数:
引用数:
h-index:
机构:
张俐
;
论文数:
引用数:
h-index:
机构:
李晶皎
;
论文数:
引用数:
h-index:
机构:
胡明涵
;
论文数:
引用数:
h-index:
机构:
姚天顺
.
东北大学学报,
2003,
(04)
:327
-329
[8]
基于二次特征提取的中文文本抄袭检测方法
[D].
论文数:
引用数:
h-index:
机构:
徐琴
.
西南大学,
2013
[9]
论文相似度分析系统设计
[D].
徐川
论文数:
0
引用数:
0
h-index:
0
机构:
山东大学
山东大学
徐川
.
山东大学,
2012
[10]
文本抄袭检测方法研究
[D].
论文数:
引用数:
h-index:
机构:
华秀丽
.
苏州大学,
2012
←
1
→
共 10 条
[1]
基于句子相似度的论文抄袭检测模型研究
[J].
论文数:
引用数:
h-index:
机构:
冷强奎
;
论文数:
引用数:
h-index:
机构:
秦玉平
;
王春立
论文数:
0
引用数:
0
h-index:
0
机构:
大连海事大学信息科学技术学院
渤海大学信息科学与工程学院
王春立
.
计算机工程与应用,
2011,
47
(24)
:199
-201
[2]
一种结合词项语义信息和TF-IDF方法的文本相似度量方法
[J].
论文数:
引用数:
h-index:
机构:
黄承慧
;
论文数:
引用数:
h-index:
机构:
印鉴
;
论文数:
引用数:
h-index:
机构:
侯昉
.
计算机学报,
2011,
34
(05)
:856
-864
[3]
基于局部词频指纹的论文抄袭检测算法
[J].
论文数:
引用数:
h-index:
机构:
秦玉平
;
论文数:
引用数:
h-index:
机构:
冷强奎
;
论文数:
引用数:
h-index:
机构:
王秀坤
;
王春立
论文数:
0
引用数:
0
h-index:
0
机构:
大连海事大学信息科学技术学院
渤海大学信息科学与工程学院
王春立
.
计算机工程,
2011,
37
(06)
:193
-194+197
[4]
Winnowing算法和动态规划算法在作业剽窃检测中的应用和比较
[J].
论文数:
引用数:
h-index:
机构:
张量
;
论文数:
引用数:
h-index:
机构:
刘秀敏
;
论文数:
引用数:
h-index:
机构:
刘秀娟
.
计算机工程与科学,
2009,
31
(06)
:147
-149
[5]
基于本体和向量空间模型的服务相似度度量
[J].
论文数:
引用数:
h-index:
机构:
钟国祥
;
论文数:
引用数:
h-index:
机构:
葛继科
.
西南师范大学学报(自然科学版),
2009,
34
(02)
:119
-122
[6]
基于改进编辑距离和依存文法的汉语句子相似度计算
[J].
刘宝艳
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系
刘宝艳
;
论文数:
引用数:
h-index:
机构:
林鸿飞
;
论文数:
引用数:
h-index:
机构:
赵晶
.
计算机应用与软件,
2008,
(07)
:33
-34+47
[7]
中文WordNet的研究及实现
[J].
论文数:
引用数:
h-index:
机构:
张俐
;
论文数:
引用数:
h-index:
机构:
李晶皎
;
论文数:
引用数:
h-index:
机构:
胡明涵
;
论文数:
引用数:
h-index:
机构:
姚天顺
.
东北大学学报,
2003,
(04)
:327
-329
[8]
基于二次特征提取的中文文本抄袭检测方法
[D].
论文数:
引用数:
h-index:
机构:
徐琴
.
西南大学,
2013
[9]
论文相似度分析系统设计
[D].
徐川
论文数:
0
引用数:
0
h-index:
0
机构:
山东大学
山东大学
徐川
.
山东大学,
2012
[10]
文本抄袭检测方法研究
[D].
论文数:
引用数:
h-index:
机构:
华秀丽
.
苏州大学,
2012
←
1
→