Web信息的自主抽取方法

被引:44
作者
许建潮
侯锟
机构
[1] 长春工业大学计算机科学与工程学院,长春工业大学计算机科学与工程学院 长春
[2] 吉林大学符号计算与知识工程教育部重点实验室,长春,长春
关键词
Web; 半结构化数据; 信息抽取; Wrapper;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
摘要
提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够较好地适应网页信息的动态变化,实现信息的自动抽取。对列表结构信息源信息,通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值。采用自学习的方法以适应网页信息的动态变化。
引用
收藏
页码:185 / 189+198 +198
页数:6
相关论文
共 5 条
[1]
Web页面清洗技术的研究与实现 [J].
周源远 ;
王继成 ;
郑刚 ;
张福炎 .
计算机工程, 2002, (09) :48-50+197
[2]
基于DOM的Web信息提取 [J].
李效东 ;
顾毓清 .
计算机学报, 2002, (05) :526-533
[3]
基于多知识的Web网页信息抽取方法 [J].
朱明 ;
黄云 ;
蔡庆生 .
小型微型计算机系统, 2001, (09) :1058-1061
[4]
基于内容的网页特征提取 [J].
张义忠 ;
赵明生 ;
朱精南 .
计算机工程与应用, 2001, (10) :1-3
[5]
从WEB文档中构造半结构化信息的抽取器 [J].
黄豫清 ;
戚广志 ;
张福炎 .
软件学报, 2000, (01) :73-78