HtmIParser提取网页信息的设计与实现

被引：23

作者：

黄颖 ^{[1
]}

黄治平 ^{[2
]}

机构：

[1] 江西理工大学信息工程学院

[2] 赣南师范学院

来源：

江西理工大学学报 | 2007年 / 06期

关键词：

HtmIParser; 信息提取; 网页解析;

D O I：

10.13265/j.cnki.jxlgdxxb.2007.06.016

中图分类号：

TP393.092 [];

学科分类号：

摘要：

互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接、email和图片等,而HTML语言所表述的web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理,文中详细介绍了如何使用HtmlParser来提取网页当中的超链接信息,将其清洗后存入SQL数据库当中,以备后续工作使用。

引用

页码：26 / 28+35 +35

页数：4

共 5 条

[1]

智能WEB信息提取系统的研究和设计 [J].