基于多知识的Web网页信息抽取方法

被引：36

作者：

朱明

黄云

蔡庆生

机构：

[1] 中国科技大学自动化系!安徽合肥,中国科技大学自动化系!安徽合肥,中国科技大学自动化系!安徽合肥

来源：

小型微型计算机系统 | 2001年 / 09期

基金：

安徽省自然科学基金;

关键词：

半结构化数据; 信息抽取; 模式识别;

D O I：

暂无

中图分类号：

TP393.09 [];

学科分类号：

摘要：

从 Web网页中自动抽取所需要的信息内容 ,是互联网信息智能搜取的一个重要研究课题 .为有效解决网页信息抽取所需的信息描述知识获取问题 ,这里提出了一种基于多知识的 Web网页信息抽取方法 (简称 MKIE方法 ) .该方法将网页信息抽取所需的知识分为二类 .一类是描绘网页内容本身表示特点 ,以及识别各网页信息对象的确定模式知识 ;另一类则描述网页信息记录块 ,以及各网页信息对象的非确定模式知识 .MKIE方法根据前一类知识 ,动态分析获得后一类知识 ;并利用这两类知识 ,最终完成从信息内容类似但其表现形式各异的网页中 ,抽取出所需要的信息 .美大学教员论文网页信息抽取实验结果表明 ,MKIE方法具有较强的网页信息自动识别与抽取能力

引用

页码：1058 / 1061

页数：4