基于XML的Web信息抽取研究与实现

被引:0
作者
轩艳艳
机构
[1] 武汉理工大学
关键词
Web信息抽取; XML; DOM树; XPath; 抽取规则;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
随着互联网的快速发展以及Web数据的日益庞大,用户从Web中获取有用信息变得日益困难,如何快速有效地从Web中准确寻找信息已经成为亟待解决的问题,Web信息抽取技术应运而生。从网页中抽取信息的程序叫包装器(Wrapper),构建包装器的主要任务是编写抽取规则,因此,编写健壮灵活的抽取规则成为信息抽取的研究重点。 针对Web信息抽取,人们已经提出了各种包装器构造方法,但这些方法都有其应用的局限性。随着XML技术的不断发展,XML在Web信息抽取中的应用价值日益凸现。本文在研究现有的Web信息抽取技术的基础上,把标准的XML技术运用于Web信息抽取中,提出了一种基于XML的通用Web信息抽取解决方案。本文的主要贡献有以下几点: 1.设计并实现了一个通用的Web信息抽取系统。通过该系统用户能够把HTML页面中感兴趣的信息点抽取出来,用结构化和扩展性强的XML来表示抽取结果。该系统具有一定的通用性和灵活性,用户能够快速定制应用于不同领域的Web信息抽取包装器。 2.提出并实现了一种基于XML的Web数据转化算法。该数据转换算法能够有效地把HTML格式的文档转化为XHTML(XML)格式的文档,它是系统对HTML页面进行清洗的技术支持,极大地简化了Web信息抽取工作。 3.提出并实现了一种基于DOM的XPath生成算法。本文的信息定位是建立在XPath之上的,而在XHTML文档中定位信息点并编写XPath路径比较困难,本文提出的XPath生成算法很好地解决了这个问题。 4.利用XSLT作为抽取规则的描述语言,并使用XPath来定位待抽取信息点,这有利于抽取模式的统一。对于单信息块的抽取,本系统实现了抽取规则的自动生成。对于多信息块的抽取,在获得所有待抽取节点的XPath后,对抽取模板进行合并处理得到抽取规则。同时可使用数据定位优化方法来优化规则。 本文提出的Web信息抽取思想能够较好地解决Web信息抽取的问题,同时,该系统的召回率和准确率都能够达到较高的比例。
引用
收藏
页数:70
共 29 条
[1]
基于Web的信息抽取技术研究综述 [J].
蒲筱哥 .
现代情报 , 2007, (10) :215-219
[2]
基于XML的Web半结构化信息抽取 [J].
李哲琦 ;
张莹 .
长春理工大学学报(自然科学版), 2007, (01) :66-68
[3]
基于XSLT的XML文档转换技术.[J].何银俊;.电脑知识与技术(学术交流).2007, 03
[4]
基于Google Web API的网页获取技术研究 [J].
胡燕 ;
吴虎子 .
福建电脑, 2007, (01) :114-115
[5]
信息抽取系统的研究现状 [J].
邓尚民 ;
孙玉伟 .
现代图书情报技术, 2006, (03) :55-58+81
[6]
浅谈XML与面向Web的数据挖掘技术 [J].
李晓艳 .
中国科技信息, 2005, (09) :20
[7]
一种基于栈结构的HTML到XML的转换方法 [J].
吴相智 ;
刘卫国 ;
费洪晓 .
长沙交通学院学报, 2004, (02) :64-67
[8]
基于本体论的Web信息抽取 [J].
周明建 ;
高济 ;
李飞 .
计算机辅助设计与图形学学报, 2004, (04) :535-541
[9]
基于XPath的Web信息抽取的设计与实现 [J].
杨文柱 ;
徐林昊 ;
陈少飞 ;
郝亚南 ;
李天柱 .
计算机工程, 2003, (16) :82-83+113
[10]
Web信息抽取 [J].
李晶 ;
陈恩红 .
计算机科学, 2003, (06) :78-81