网页排重技术研究及应用

被引:0
作者
白广慧
机构
[1] 中国科学院研究生院(计算技术研究所)
关键词
中文信息处理; 特征串; 网页排重; 支持向量机; 向量空间模型; 倒排表; 相似性检索;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
随着Internet的不断发展,网络信息也成指数级的不断膨胀,这给信息检索带来了很大的困难,重复网页排除的研究工作是十分有意义的。 本文从理论和应用两方面对网页查重算法及其应用进行了研究,取得了以下成果: 首先,本文对传统的网页查重算法进行了总结,对其效率、准确率、召回率作了细致的分析。 其次,改进了已有算法,提出了基于字频的特征串算法,实验表明改进的方法处理速度和召回率均优于传统方法。又提出了基于词频的倒排表算法,通过算法性能测试、互联网实际测试,证明此算法的正确率和召回率都有了显著提高,并实际应用到企业的竞争情报系统中,取得了很好的效果。
引用
收藏
页数:70
共 3 条
[1]
数字商品非法复制和扩散的监测机制 [J].
宋擒豹 ;
沈钧毅 .
计算机研究与发展, 2001, (01) :121-125
[2]
基于多重倒排文件的快速相似性检索 [J].
吴立德 ;
罗航哉 ;
薛向阳 .
计算机学报, 2000, (11) :1156-1160
[3]
Organization and maintenance of large ordered indexes.[J].R. Bayer;E. M. McCreight.Acta Informatica.1972, 3