基于填充标记的自适应Web信息提取

被引:1
作者
李永平
金莉
机构
[1] 华中科技大学计算机科学与技术学院
基金
国家高性能计算基金;
关键词
Web信息提取; 填充标记; 自适应; 规则推导;
D O I
10.13245/j.hust.2003.11.011
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
提出一种自适应Web信息提取算法 ,基于自底向上规则模块层叠 ,通过在提取模板中填充一定数量有助于识别信息类别的SGML标记 ,较好地覆盖Web页中不可见信息 ,有效控制自适应过程中信息的过少和溢出 ,实现智能化Web信息提取 .
引用
收藏
页码:31 / 32
页数:2
相关论文
共 2 条
[1]   基于Web的快速信息抽取 [J].
张绍华 ;
薛文玲 ;
李天柱 .
计算机应用, 2001, (07) :18-19+31
[2]   Learning Information Extraction Rules for Semi-Structured and Free Text [J].
Stephen Soderland .
Machine Learning, 1999, 34 :233-272