基于XML的自动学习Web信息抽取

被引:24
作者
冀高峰
汤庸
道炜
吴桂宾
黄帆
王鹏
机构
[1] 中山大学计算机科学系
基金
广东省自然科学基金;
关键词
信息提取; 半结构化; 自动学习; 规则库; XML;
D O I
暂无
中图分类号
TP312.2 [];
学科分类号
摘要
因特网给我们提供了巨大的信息量,在信息量极其丰富的Web资源中,蕴涵着大量有用的知识信息。信息爆炸而知识匮乏是当今人们所面临的一个很重要的问题。通过搜索引擎来查找信息将不容易定位到用户最感兴趣的数据上。而通过Web信息抽取的自动化实现,可以提高信息获得的效率。信息抽取可以从网络上分析和发现有用的信息,废弃冗余的数据,提取用户知识领域的知识。本文分析了基于XML的Web信息提取,讨论了相关技术在Web信息抽取中的应用并建立了相应的Web信息抽取模型,通过自动学习来获取信息抽取规则,实现Web信息的自动提取。
引用
收藏
页码:87 / 90
页数:4
相关论文
共 5 条
[1]
网上表格数据到XML的自动转换 [J].
张瑞 ;
李石君 .
计算机工程与应用 , 2007, (02) :190-192
[2]
一种基于树结构的Web数据自动抽取方法 [J].
胡东东 ;
孟小峰 .
计算机研究与发展, 2004, (10) :1607-1613
[3]
基于XML的Web数据抽取方法的研究 [J].
尚福华 ;
孙丽 .
黑龙江工程学院学报, 2004, (01) :28-30
[4]
Web数据抽取技术研究进展 [J].
张成洪 ;
古晓洪 ;
白延红 .
计算机科学, 2004, (02) :129-131+151
[5]
基于主动学习的Web页面信息抽取.[J].张清军;朱才连;.情报学报.2004, 06