网页正文提取及去重技术研究

被引:0
作者
胡金栋
机构
[1] 浙江大学
关键词
搜索引擎; 网页正文提取; 网页去重; 最大连续子序列和; 关键长句; 预分类;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
随着互联网技术的持续高速发展,网络上的网页数目成爆炸式增长,搜索引擎已成为人们日常生活中必不可少的获取信息的工具。然而,原始网页中的非正文信息及网络上的重复网页给搜索引擎带来了很大的干扰,这使得网页正文提取及网页去重成为搜索引擎领域亟待解决的两个重要问题。 本文提出了一种基于最大连续子序列和的网页正文提取算法。该算法摆脱了现有主流方法对DOM树的依赖,它和网页HTML源码结构无关,从而提高了算法在执行过程中的健壮性。最重要的是,该算法以线性时间提取网页正文内容,大大提高了提取效率,同时以较高的精度保证提取结果的正确性。 本文还提出了基于关键长句和预分类的网页去重算法。该算法结合了基于上下文和和基于语义的特征提取技术的长处,将文中词语的权重和所处上下文环境相结合,从而既发挥了语义的重要性,又发挥了上下文的联系性,大大提高了文档特征提取的准确度,同时降低了所需特征的数量,提高了查重效率。另外,该算法在网页正文提取的基础上,提出了预分类技术,该技术在查重之前,先根据网页正文长度将网页进行分类,从而进一步提高了在海量数据中去重的时间效率。 本文通过对20个门户网站的近15万个网页进行实验分析,实验结果表明,本文的基于最大连续子序列和的网页正文提取算法可以达到96%以上的提取准确率和召回率,而本文的基于关键长句和预分类的网页去重算法,在阀值设为0.45的时候,准确率和召回率可以同时保持在97%。两个算法的实验结果均好于现有主流算法。
引用
收藏
页数:63
共 9 条
[1]
Collection statistics for fast duplicate document detection [J].
Chowdhury, A ;
Frieder, O ;
Grossman, D ;
McCabe, MC .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 2002, 20 (02) :171-191
[2]
Mirror, mirror on the Web: A study of host pairs with replicated content [J].
Bharat, Krishna ;
Broder, Andrei .
Computer Networks, 1999, 31 (11) :1579-1590
[3]
Finding related pages in the World Wide Web.[J].Jeffrey Dean;Monika R Henzinger.Computer Networks.1999, 11
[4]
Syntactic clustering of the Web.[J].Andrei Z. Broder;Steven C. Glassman;Mark S. Manasse;Geoffrey Zweig.Computer Networks and ISDN Systems.1997, 8
[5]
News article extraction with template-independent wrapper..Wang;J;He;X;Wang;C;Pei;J;Bu;J;Chen;C;Guan;Z;Lu;G;.Proceedings of the 18th international conference on World wide web.2009,
[6]
Detecting Near- Duplicates for Web Crawlng..Gurmeet Singh Manku;Arvind Jain;Anish Das Sarma;.International World Wide Web Conference.2007,
[7]
Spotsigs:Robust and Efficient Near Duplicate Detection in Large Web Collections..Theobald; M;Siddharth; J;Paepcke; A;.Proceedings of the 31 st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.2008,
[8]
基于标签密度的自适应正文提取方法 [J].
孙皓 ;
董守斌 .
郑州大学学报(理学版), 2009, 41 (01) :44-47
[9]
基于标记窗的网页正文信息提取方法 [J].
赵欣欣 ;
索红光 ;
刘玉树 .
计算机应用研究, 2007, (03) :144-145+180