基于多知识的Web网页信息抽取方法

被引:36
作者
朱明
黄云
蔡庆生
机构
[1] 中国科技大学自动化系!安徽合肥,中国科技大学自动化系!安徽合肥,中国科技大学自动化系!安徽合肥
基金
安徽省自然科学基金;
关键词
半结构化数据; 信息抽取; 模式识别;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
摘要
从 Web网页中自动抽取所需要的信息内容 ,是互联网信息智能搜取的一个重要研究课题 .为有效解决网页信息抽取所需的信息描述知识获取问题 ,这里提出了一种基于多知识的 Web网页信息抽取方法 (简称 MKIE方法 ) .该方法将网页信息抽取所需的知识分为二类 .一类是描绘网页内容本身表示特点 ,以及识别各网页信息对象的确定模式知识 ;另一类则描述网页信息记录块 ,以及各网页信息对象的非确定模式知识 .MKIE方法根据前一类知识 ,动态分析获得后一类知识 ;并利用这两类知识 ,最终完成从信息内容类似但其表现形式各异的网页中 ,抽取出所需要的信息 .美大学教员论文网页信息抽取实验结果表明 ,MKIE方法具有较强的网页信息自动识别与抽取能力
引用
收藏
页码:1058 / 1061
页数:4
相关论文
共 2 条
[1]
Wrapper induction: Efficiency and expressiveness.[J].Nicholas Kushmerick.Artificial Intelligence.2000, 1
[2]
Learning information extraction rules for semi-structured and free text [J].
Soderland, S .
MACHINE LEARNING, 1999, 34 (1-3) :233-272