基于规则归纳的信息抽取系统实现

被引:19
作者
石倩
陈荣
鲁明羽
机构
[1] 大连海事大学信息科学技术学院
关键词
信息抽取; 抽取规则; DOM; 学习算法;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
面对Web信息的迅猛增长,信息抽取技术非常适合于从大量的文档中抽取需要的事实数据。通过文档对象模型(DOM)解析以及检索、抽取、映射等规则的定义,设计并实现了一种具有规则归纳能力的信息抽取系统,用于Web信息的自动检索。在用于抽取规则归纳的框架下,还重点对用于生成抽取模式的WHISK学习算法进行了实验对比分析,结果表明系统对于单槽和多槽数据都具有不错的归纳学习能力。
引用
收藏
页码:166 / 170
页数:5
相关论文
共 7 条
[1]   基于最大熵的隐马尔可夫模型文本信息抽取 [J].
林亚平 ;
刘云中 ;
周顺先 ;
陈治平 ;
蔡立军 .
电子学报, 2005, (02) :236-240
[2]   Web信息抽取 [J].
李晶 ;
陈恩红 .
计算机科学, 2003, (06) :78-81
[3]   基于DOM的Web信息提取 [J].
李效东 ;
顾毓清 .
计算机学报, 2002, (05) :526-533
[4]   A brief survey of Web data extraction tools [J].
Laender, AHF ;
Ribeiro-Neto, BA ;
da Silva, AS ;
Teixeira, JS .
SIGMOD RECORD, 2002, 31 (02) :84-93
[5]   Building intelligent Web applications using lightweight wrappers [J].
Sahuguet, A ;
Azavant, F .
DATA & KNOWLEDGE ENGINEERING, 2001, 36 (03) :283-316
[6]   Learning Information Extraction Rules for Semi-Structured and Free Text [J].
Stephen Soderland .
Machine Learning, 1999, 34 :233-272
[7]   Generating finite-state transducers for semi-structured data extraction from the Web [J].
Hsu, CN ;
Dung, MT .
INFORMATION SYSTEMS, 1998, 23 (08) :521-538