多信息块Web页面的信息抽取

被引:20
作者
王庆一
王继成
周源远
袁春风
机构
[1] 南京大学软件新技术国家重点实验室
[2] 南京大学软件新技术国家重点实验室 江苏南京
[3] 南京大学计算机科学与技术系
[4] 江苏南京
[5] 江苏
关键词
Web; 信息抽取; 包装器; 抽取规则; 信息集成;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
提出了一个采用新的抽取规则的包装器 ,结合采用基于文档结构抽取规则和基于特征Pattern匹配抽取规则包装器的优点 ,可以适用于含有多个信息块的Web页面。
引用
收藏
页码:23 / 26
页数:4
相关论文
共 1 条
[1]   Learning Information Extraction Rules for Semi-Structured and Free Text [J].
Stephen Soderland .
Machine Learning, 1999, 34 :233-272