共 2 条
基于网页文本结构的网页去重
被引:11
作者:
魏丽霞
郑家恒
机构:
[1] 山西大学计算机与信息技术学院
来源:
关键词:
层次指纹;
文本结构;
网页去重;
D O I:
暂无
中图分类号:
TP393.092 [];
TP391.1 [文字信息处理];
学科分类号:
080402 ;
081203 ;
0835 ;
摘要:
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征和网页文本自身的特点,提出了一种动态的网页去重方法。该方法通过将网页的正文表示成目录结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。实验证明,该方法对全文重复和部分重复的网页都能进行准确的检测。
引用
收藏
页码:2854 / 2856
页数:3
相关论文