基于网页文本结构的网页去重

被引:11
作者
魏丽霞
郑家恒
机构
[1] 山西大学计算机与信息技术学院
关键词
层次指纹; 文本结构; 网页去重;
D O I
暂无
中图分类号
TP393.092 []; TP391.1 [文字信息处理];
学科分类号
080402 ; 081203 ; 0835 ;
摘要
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征和网页文本自身的特点,提出了一种动态的网页去重方法。该方法通过将网页的正文表示成目录结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。实验证明,该方法对全文重复和部分重复的网页都能进行准确的检测。
引用
收藏
页码:2854 / 2856
页数:3
相关论文
共 2 条
[1]   “天网”目录导航服务研究 [J].
冯是聪 ;
单松巍 ;
龚笔宏 ;
张志刚 ;
李晓明 .
计算机研究与发展, 2004, (04) :653-659
[2]   近似镜像网页检测算法的研究与评价 [J].
王建勇 ;
谢正茂 ;
雷鸣 ;
李晓明 .
电子学报, 2000, (S1) :130-132+129