学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
网页排重技术研究及应用
被引:0
作者
:
白广慧
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院(计算技术研究所)
中国科学院研究生院(计算技术研究所)
白广慧
机构
:
[1]
中国科学院研究生院(计算技术研究所)
关键词
:
中文信息处理;
特征串;
网页排重;
支持向量机;
向量空间模型;
倒排表;
相似性检索;
D O I
:
暂无
年度学位
:
2006
学位类型
:
硕士
导师
:
程学旗;
摘要
:
随着Internet的不断发展,网络信息也成指数级的不断膨胀,这给信息检索带来了很大的困难,重复网页排除的研究工作是十分有意义的。 本文从理论和应用两方面对网页查重算法及其应用进行了研究,取得了以下成果: 首先,本文对传统的网页查重算法进行了总结,对其效率、准确率、召回率作了细致的分析。 其次,改进了已有算法,提出了基于字频的特征串算法,实验表明改进的方法处理速度和召回率均优于传统方法。又提出了基于词频的倒排表算法,通过算法性能测试、互联网实际测试,证明此算法的正确率和召回率都有了显著提高,并实际应用到企业的竞争情报系统中,取得了很好的效果。
引用
收藏
页数:70
共 3 条
[1]
数字商品非法复制和扩散的监测机制
[J].
论文数:
引用数:
h-index:
机构:
宋擒豹
;
论文数:
引用数:
h-index:
机构:
沈钧毅
.
计算机研究与发展,
2001,
(01)
:121
-125
[2]
基于多重倒排文件的快速相似性检索
[J].
论文数:
引用数:
h-index:
机构:
吴立德
;
论文数:
引用数:
h-index:
机构:
罗航哉
;
论文数:
引用数:
h-index:
机构:
薛向阳
.
计算机学报,
2000,
(11)
:1156
-1160
[3]
Organization and maintenance of large ordered indexes.[J].R. Bayer;E. M. McCreight.Acta Informatica.1972, 3
←
1
→
共 3 条
[1]
数字商品非法复制和扩散的监测机制
[J].
论文数:
引用数:
h-index:
机构:
宋擒豹
;
论文数:
引用数:
h-index:
机构:
沈钧毅
.
计算机研究与发展,
2001,
(01)
:121
-125
[2]
基于多重倒排文件的快速相似性检索
[J].
论文数:
引用数:
h-index:
机构:
吴立德
;
论文数:
引用数:
h-index:
机构:
罗航哉
;
论文数:
引用数:
h-index:
机构:
薛向阳
.
计算机学报,
2000,
(11)
:1156
-1160
[3]
Organization and maintenance of large ordered indexes.[J].R. Bayer;E. M. McCreight.Acta Informatica.1972, 3
←
1
→