基于XML的自动学习Web信息抽取

被引：24

作者：

冀高峰

汤庸

道炜

吴桂宾

黄帆

王鹏

机构：

[1] 中山大学计算机科学系

来源：

计算机科学 | 2008年 / 03期

基金：

广东省自然科学基金;

关键词：

信息提取; 半结构化; 自动学习; 规则库; XML;

D O I：

暂无

中图分类号：

TP312.2 [];

学科分类号：

摘要：

因特网给我们提供了巨大的信息量,在信息量极其丰富的Web资源中,蕴涵着大量有用的知识信息。信息爆炸而知识匮乏是当今人们所面临的一个很重要的问题。通过搜索引擎来查找信息将不容易定位到用户最感兴趣的数据上。而通过Web信息抽取的自动化实现,可以提高信息获得的效率。信息抽取可以从网络上分析和发现有用的信息,废弃冗余的数据,提取用户知识领域的知识。本文分析了基于XML的Web信息提取,讨论了相关技术在Web信息抽取中的应用并建立了相应的Web信息抽取模型,通过自动学习来获取信息抽取规则,实现Web信息的自动提取。

引用

页码：87 / 90

页数：4

共 5 条

[1]

网上表格数据到XML的自动转换 [J].