基于XML的Web信息抽取技术的应用研究

被引：0

作者：

陈佳

机构：

[1] 武汉理工大学

关键词：

信息抽取; 映射; 信息熵; DOM树;

D O I：

暂无

年度学位：

2007

学位类型：

硕士

导师：

胡燕;

摘要：

互联网的飞速发展使其成为全球信息传播与共享的重要资源，Web上的数据一直呈几何级数增长，要想从Web上获取一条有用信息的难度却越来越大，“信息过载”已经成为一个亟待解决的问题。一种理想的情况是：人们可以像查询数据库一样查询Web上的数据。然而，如何从浩繁的Web数据中抽取出有用的信息成为众多研究工作希望解决的问题。 Internet具有的海量、异构、动态变化等特性使Web信息抽取不同于传统信息抽取，同时带来了新的挑战。抽取技术随着需求的增加而不断丰富，近年来国内外涌现了多种信息抽取方法。这些方法各有侧重地解决了上述Web信息抽取中面临的问题，总体上取得了良好的效果，但在某些方面存在不同程度的局限或缺陷。为了更好地解决Web信息抽取面临的诸多问题和不足，有必要对Web信息抽取问题作进一步研究。本文使用标准的XML技术来解决网页信息抽取问题。基于标准的XSLT，可以利用它强大而且灵活的特性编写简单、健壮和通用的抽取规则。首先获得目标HTML页，并将HTML文档转换成符合XML语法的XHTML文档，然后通过XML强大的数据查询能力对构建的XML文档库进行查询，并利用DOM树将产生的抽取规则存入规则库中。然后将查询结果传到客户端，从而完成用户所需的数据的抽取。但是，它不是一个通用的抽取系统，而是针对某一领域，还需要制订有效的抽取规则，一旦被抽取的源Web页面结构发生变化，抽取工作可能失效。因此对其进行了改进，将页面分割成多个语义块，使块内主题尽可能地相关于同一主题。对页面进行分割以后，可以直接去除一些无用信息块，如导航信息和版权信息等；对语义相关的块进行操作，而不是整个页面，这将大大提高信息检索的质量。这里结合信息熵的理论并构造DOM语义树来弥补DOM分割的不足。最后，我们将XML文档看成是一种对象树，用一种对象—关系映射语言将这样的对象映射到关系数据库，将抽取出来的信息XML在关系数据库中存储。基于本文所设计开发的Web信息抽取平台，可以很快的构建出健壮和通用的网页信息抽取Wrapper。

引用

页数：75

共 17 条

[1]

基于XML的半结构数据管理及数据集成问题研究 [D].

聂培尧 .

西北工业大学,

2002

[2]

Building intelligent Web applications using lightweight wrappers [J].

Sahuguet, A ;

Azavant, F .

DATA & KNOWLEDGE ENGINEERING, 2001, 36 (03) :283-316

[3]

Hierarchical wrapper induction for semistructured information sources [J].

Muslea, I ;

Minton, S ;

Knoblock, CA .

AUTONOMOUS AGENTS AND MULTI-AGENT SYSTEMS, 2001, 4 (1-2) :93-114

[4]

Machine learning for information extraction in informal domains [J].

Freitag, D .

MACHINE LEARNING, 2000, 39 (2-3) :169-202

[5]

Wrapper induction: Efficiency and expressiveness.[J].Nicholas Kushmerick.Artificial Intelligence.2000, 1

[6]

Comparative analysis of five XML query languages.[J].Angela Bonifati;Stefano Ceri.ACM SIGMOD Record.2000, 1

[7]

Learning information extraction rules for semi-structured and free text [J].

Soderland, S .

MACHINE LEARNING, 1999, 34 (1-3) :233-272

[8]

Accurately and reliably extracting data from the web; A machine learning approach..CRAIG A;KNOBLOCK;KRISTINA L; et al;.Data Engineering Bulletin.2000, 04

[9]

面向移动平台的网络信息获取技术的研究与实现 [D].

李佳 .

哈尔滨工业大学,

2006

[10]

面向主题的XML网页的模式和数据抽取 [D].

邓丽 .

华侨大学,

2004

← 1 2 →