基于XML的Web信息抽取技术的应用研究

被引:0
作者
陈佳
机构
[1] 武汉理工大学
关键词
信息抽取; 映射; 信息熵; DOM树;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
互联网的飞速发展使其成为全球信息传播与共享的重要资源,Web上的数据一直呈几何级数增长,要想从Web上获取一条有用信息的难度却越来越大,“信息过载”已经成为一个亟待解决的问题。一种理想的情况是:人们可以像查询数据库一样查询Web上的数据。然而,如何从浩繁的Web数据中抽取出有用的信息成为众多研究工作希望解决的问题。 Internet具有的海量、异构、动态变化等特性使Web信息抽取不同于传统信息抽取,同时带来了新的挑战。抽取技术随着需求的增加而不断丰富,近年来国内外涌现了多种信息抽取方法。这些方法各有侧重地解决了上述Web信息抽取中面临的问题,总体上取得了良好的效果,但在某些方面存在不同程度的局限或缺陷。为了更好地解决Web信息抽取面临的诸多问题和不足,有必要对Web信息抽取问题作进一步研究。 本文使用标准的XML技术来解决网页信息抽取问题。基于标准的XSLT,可以利用它强大而且灵活的特性编写简单、健壮和通用的抽取规则。首先获得目标HTML页,并将HTML文档转换成符合XML语法的XHTML文档,然后通过XML强大的数据查询能力对构建的XML文档库进行查询,并利用DOM树将产生的抽取规则存入规则库中。然后将查询结果传到客户端,从而完成用户所需的数据的抽取。但是,它不是一个通用的抽取系统,而是针对某一领域,还需要制订有效的抽取规则,一旦被抽取的源Web页面结构发生变化,抽取工作可能失效。因此对其进行了改进,将页面分割成多个语义块,使块内主题尽可能地相关于同一主题。对页面进行分割以后,可以直接去除一些无用信息块,如导航信息和版权信息等;对语义相关的块进行操作,而不是整个页面,这将大大提高信息检索的质量。这里结合信息熵的理论并构造DOM语义树来弥补DOM分割的不足。最后,我们将XML文档看成是一种对象树,用一种对象—关系映射语言将这样的对象映射到关系数据库,将抽取出来的信息XML在关系数据库中存储。基于本文所设计开发的Web信息抽取平台,可以很快的构建出健壮和通用的网页信息抽取Wrapper。
引用
收藏
页数:75
共 17 条
[1]
基于XML的半结构数据管理及数据集成问题研究 [D]. 
聂培尧 .
西北工业大学,
2002
[2]
Building intelligent Web applications using lightweight wrappers [J].
Sahuguet, A ;
Azavant, F .
DATA & KNOWLEDGE ENGINEERING, 2001, 36 (03) :283-316
[3]
Hierarchical wrapper induction for semistructured information sources [J].
Muslea, I ;
Minton, S ;
Knoblock, CA .
AUTONOMOUS AGENTS AND MULTI-AGENT SYSTEMS, 2001, 4 (1-2) :93-114
[4]
Machine learning for information extraction in informal domains [J].
Freitag, D .
MACHINE LEARNING, 2000, 39 (2-3) :169-202
[5]
Wrapper induction: Efficiency and expressiveness.[J].Nicholas Kushmerick.Artificial Intelligence.2000, 1
[6]
Comparative analysis of five XML query languages.[J].Angela Bonifati;Stefano Ceri.ACM SIGMOD Record.2000, 1
[7]
Learning information extraction rules for semi-structured and free text [J].
Soderland, S .
MACHINE LEARNING, 1999, 34 (1-3) :233-272
[8]
Accurately and reliably extracting data from the web; A machine learning approach..CRAIG A;KNOBLOCK;KRISTINA L; et al;.Data Engineering Bulletin.2000, 04
[9]
面向移动平台的网络信息获取技术的研究与实现 [D]. 
李佳 .
哈尔滨工业大学,
2006
[10]
面向主题的XML网页的模式和数据抽取 [D]. 
邓丽 .
华侨大学,
2004