基于布局特征与语言特征的网页主要内容块发现

被引:8
作者
韩先培
刘康
赵军
机构
[1] 中国科学院自动化研究所模式识别国家重点实验室
基金
北京市自然科学基金;
关键词
计算机应用; 中文信息处理; 网页清理; 主要内容块发现; 网页切分; 布局特征; 语言特征;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
本文综合分析了网页内容块各方面的特征,提出了一个联合使用布局特征和语言特征的网页主要内容块发现方法,有效地解决了以往模型中通用性与高准确率不能共存的缺点。该方法使用网页视觉块树表示网页,对网页内容块的布局特征和语言特征分别建立了独立的分类器,然后组合这两个分类器来进行网页内容块分类。实验结果表明,在保持非噪音块召回率在90%以上的同时,组合分类器的准确率达到85%,比只使用布局特征的分类器提高5个百分点,比只使用语言特征的分类器提高15个百分点;在5个站点上的分类结果表明组合分类器在不同站点上性能稳定,具有良好的通用性。
引用
收藏
页码:15 / 21
页数:7
相关论文
共 11 条
[1]  
TheVolume and Evolution of Web Page Templates. David Gibson,Kunal Punera,Andrew Tomkins. 13th International WWW Conference . 2005
[2]  
Extracting Semantic Structure of Web DocumentsUsing Content and Visual Information. Rupesh R Mehta,Pabitra Mitra,Harish Karnick. 13thInternational WWW Conference . 2005
[3]  
DIGITAL DOCUMENT PROCESSING[P]. 韩国专利:KR100743797B1,2007-07-30
[4]  
VIPS:A Vision based Page SegmentationAlgorithm. Deng Cai,Shipeng Yu,Ji-Rong Wen,and WeiYingMa. MSR-TR- 2003 -79 . 2003
[5]  
Eliminating NoisyInformation in Web Pages for Data Mining. Lan Yi,Bing Liu,Xiaoli Li. TheNinth ACM SIGKDD International Conference onKnowledge Discovery and Data Mining . 2003
[6]  
TemplateDetection via Data Mining and its Applications. Ziv Bar-Yossef,Sridhar Rajagopalan. The eleventh international world wide web conference . 2002
[7]  
DOM-based Content Extraction of HTMLDocuments. Suhit Gupta,Gail Kaiser,David Neistadt,PeterGrimm. The Twelfth International WorldWide Web Conference . 2003
[8]  
Page-level Template Detection via Isotonic Smoothing. Deepayan CHakrabarti,Ravi Kumar,Kunal Punera. The 16thInternational World Wide WebConference . 2007
[9]  
Automatic Extraction of Informative Blocks fromWebpages. Sandip Debnath,Prasenjit Mitra,C Lee Giles. 2005 ACM Symposium on AppliedComputing . 2005
[10]  
Learning Block Importance Models for Web Pages. Ruihua Song,Haifeng Liu,Ji-Rong Wen,Wei-YingMa. 13th International WWW Conference . 2005