HtmIParser提取网页信息的设计与实现

被引:23
作者
黄颖 [1 ]
黄治平 [2 ]
机构
[1] 江西理工大学信息工程学院
[2] 赣南师范学院
关键词
HtmIParser; 信息提取; 网页解析;
D O I
10.13265/j.cnki.jxlgdxxb.2007.06.016
中图分类号
TP393.092 [];
学科分类号
摘要
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接、email和图片等,而HTML语言所表述的web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理,文中详细介绍了如何使用HtmlParser来提取网页当中的超链接信息,将其清洗后存入SQL数据库当中,以备后续工作使用。
引用
收藏
页码:26 / 28+35 +35
页数:4
相关论文
共 5 条
[1]
智能WEB信息提取系统的研究和设计 [J].
洪辉 ;
刘子敬 ;
李石君 ;
欧伟杰 .
微计算机信息, 2005, (23)
[2]
Web信息的自主抽取方法 [J].
许建潮 ;
侯锟 .
计算机工程与应用, 2005, (14) :185-189+198
[3]
Web超链分析算法研究 [J].
朱炜 ;
王超 ;
李俊 ;
潘金贵 .
计算机科学, 2003, (09) :89-93+140
[4]
基于内容过滤的个性化搜索算法 [J].
曾春 ;
邢春晓 ;
周立柱 .
软件学报, 2003, (05) :999-1004
[5]
基于Web资源的信息抽取技术 [J].
郭志红 .
情报科学, 2002, (12) :1282-1284