近似镜像网页检测算法的研究与评价

被引:21
作者
王建勇
谢正茂
雷鸣
李晓明
机构
[1] 北京大学计算机科学技术系!北京
关键词
万维网; 搜索引擎; 近似镜像; 向量空间模型; MD5;
D O I
暂无
中图分类号
TP393 [计算机网络];
学科分类号
081201 ; 1201 ;
摘要
当前在WWW上有众多的近似镜像web页面 ,如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一 .为基于关键词匹配的搜索引擎系统提出了 5种近似镜像网页检测算法 ,并利用“天网”系统对这 5种算法进行了实际评测 .另外还将它们与现有的方法进行了对比分析 .本文所论述的近似镜像检测算法已成功地被用于消除“天网”系统的重复网页 ,同时也可广泛应用于数字化图书馆的搭建
引用
收藏
页码:130 / 132+129 +129
页数:4
相关论文
共 1 条
[1]  
Finding similar files in a large file system. U. Manber. . 1993