Web信息的自主抽取方法

被引：44

作者：

许建潮

侯锟

机构：

[1] 长春工业大学计算机科学与工程学院,长春工业大学计算机科学与工程学院长春

[2] 吉林大学符号计算与知识工程教育部重点实验室,长春,长春

来源：

计算机工程与应用 | 2005年 / 14期

关键词：

Web; 半结构化数据; 信息抽取; Wrapper;

D O I：

暂无

中图分类号：

TP393.09 [];

学科分类号：

摘要：

提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够较好地适应网页信息的动态变化,实现信息的自动抽取。对列表结构信息源信息,通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值。采用自学习的方法以适应网页信息的动态变化。

引用

页码：185 / 189+198 +198

页数：6

共 5 条

[1]

Web页面清洗技术的研究与实现 [J].