基于扩展标记树的网页正文抽取

被引:2
作者
夏天 [1 ,2 ]
机构
[1] 数据工程与知识工程教育部重点实验室
[2] 中国人民大学信息资源管理学院
关键词
网页正文抽取; 扩展标记树; 近邻优先遍历;
D O I
10.16088/j.issn.1001-6600.2011.01.020
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取。实验结果表明:该方法可以实现常规文章类网页的高精度抽取,并具有良好的适应性。
引用
收藏
页码:133 / 137
页数:5
相关论文
共 6 条
[1]   基于内容相似度的网页正文提取 [J].
王利 ;
刘宗田 ;
王燕华 ;
廖涛 .
计算机工程, 2010, 36 (06) :102-104
[2]   基于逻辑行和最大接纳距离的网页正文抽取 [J].
张霞亮 ;
陈家骏 .
计算机工程与应用 , 2009, (25) :125-128+147
[3]   基于分块的网页主题文本抽取 [J].
任玉 ;
樊勇 ;
郑家恒 .
广西师范大学学报(自然科学版), 2009, 27 (01) :141-144
[4]   基于DOM的网页主题信息自动提取 [J].
王琦 ;
唐世渭 ;
杨冬青 ;
王腾蛟 .
计算机研究与发展, 2004, (10) :1786-1792
[5]  
Web数据挖掘[M]. 清华大学出版社 , (美) 刘兵, 2009
[6]  
Wrapper Induction for Information Extraction .2 N Kushmerick,DS Weld,RB Doorenbos. Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence(IJCAI297) . 1997