一种基于XML的Web信息抽取方法

被引:22
作者
李剑波 [1 ]
李小华 [1 ]
董树明 [2 ]
杨科华 [2 ]
机构
[1] 湖南文理学院计算机教学部
[2] 东南大学计算机科学与工程系
关键词
XML; Web信息抽取; 抽取规则; 半结构化;
D O I
暂无
中图分类号
TP312.2 [];
学科分类号
摘要
目前Web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。针对这一问题,出现了Web信息抽取技术。在论述了半结构化Web信息抽取技术总体解决方案的基础上,研究了Web信息抽取的实现技术,并从应用的角度提出一种新的半结构化信息获取方法。该方法包括网页分析过程、映射的自动生成和信息抽取过程。在Web信息抽取的实现部分,提出了抽取规则执行算法,为进一步满足Web信息检索提供了一种新的高效的检索方法。
引用
收藏
页码:49 / 51
页数:3
相关论文
共 5 条
[1]
信息抽取的功能和实现方法 [J].
刘其云 ;
李中言 ;
不详 .
情报杂志 , 2005, (05) :67-68
[2]
Web信息抽取技术研究进展 [J].
陈少飞 ;
郝亚南 ;
李天柱 ;
徐林昊 ;
杨文柱 .
河北大学学报(自然科学版), 2003, (01) :106-112
[3]
基于Web的快速信息抽取 [J].
张绍华 ;
薛文玲 ;
李天柱 .
计算机应用, 2001, (07) :18-19+31
[4]
基于主动学习的Web页面信息抽取.[J].张清军;朱才连;.情报学报.2004, 06
[5]
The Lorel query language for semistructured data [J].
Serge Abiteboul ;
Dallan Quass ;
Jason McHugh ;
Jennifer Widom ;
Janet L. Wiener .
International Journal on Digital Libraries, 1997, 1 (1) :68-88