基于网页正文主题和摘要的网页去重算法

被引:5
作者
周小平 [1 ]
黄家裕 [2 ]
刘连芳 [1 ,2 ]
梁一平 [1 ]
申文明 [1 ]
机构
[1] 广西大学计算机与电子信息学院
[2] 南宁平方软件新技术有限公司
关键词
去重; 网页; 分词; 相似度; 元搜索;
D O I
10.13657/j.cnki.gxkxyxb.2009.04.008
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对元搜索返回的网页内容相同,别名差异很大的重复网页,提出基于网页正文主题和摘要的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的网页标题进行有关处理,提取出网页的主题信息,然后对摘要进行分词,再计算摘要的相似度,二者结合能更好地现出文章摘要的内容,实现网页去重。该算法有效,并且比基于传统特征码的算法有明显的优势,更接近人工统计结果。
引用
收藏
页码:251 / 253
页数:3
相关论文
共 5 条
[1]   基于元搜索的网页消重方法研究 [J].
谢蕙 ;
秦杰 .
计算机系统应用, 2008, (08) :94-96
[2]   基于用户查询关键词的网页去重方法研究 [J].
谢蕙 ;
秦杰 ;
胡双双 .
现代图书情报技术, 2008, (07) :43-46
[3]   中文信息处理中自动分词技术的研究与展望 [J].
刘迁 ;
贾惠波 .
计算机工程与应用, 2006, (03) :175-177+182
[4]   基于特征串的大规模中文网页快速去重算法研究 [J].
吴平博 ;
陈群秀 ;
马亮 .
中文信息学报, 2003, (02) :28-35
[5]  
搜索引擎.[M].李晓明;闫宏飞;王继民著;.科学出版社.2005,