基于扩展标记树的网页正文抽取

被引：2

作者：

夏天 ^{[1
,2
]}

机构：

[1] 数据工程与知识工程教育部重点实验室

[2] 中国人民大学信息资源管理学院

来源：

广西师范大学学报(自然科学版) | 2011年 / 29卷 / 01期

关键词：

网页正文抽取; 扩展标记树; 近邻优先遍历;

D O I：

10.16088/j.issn.1001-6600.2011.01.020

中图分类号：

TP393.092 [];

学科分类号：

080402 ;

摘要：

本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取。实验结果表明:该方法可以实现常规文章类网页的高精度抽取,并具有良好的适应性。

引用

页码：133 / 137

页数：5

共 6 条

[1] 基于内容相似度的网页正文提取 [J].

王利 ;

刘宗田 ;

王燕华 ;

廖涛 .

计算机工程, 2010, 36 (06) :102-104

[2] 基于逻辑行和最大接纳距离的网页正文抽取 [J].

张霞亮 ;

陈家骏 .

计算机工程与应用 , 2009, (25) :125-128+147

[3] 基于分块的网页主题文本抽取 [J].

任玉 ;

樊勇 ;

郑家恒 .

广西师范大学学报(自然科学版), 2009, 27 (01) :141-144

[4] 基于DOM的网页主题信息自动提取 [J].

王琦 ;

唐世渭 ;

杨冬青 ;

王腾蛟 .

计算机研究与发展, 2004, (10) :1786-1792

[5]

Web数据挖掘[M]. 清华大学出版社 , (美) 刘兵, 2009

[6]

Wrapper Induction for Information Extraction .2 N Kushmerick,DS Weld,RB Doorenbos. Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence(IJCAI297) . 1997

← 1 →