基于页面标签的Web结构化数据抽取

被引:8
作者
任仲晟
薛永生
机构
[1] 厦门大学计算机科学系
关键词
Web数据抽取; Web挖掘; 结构化数据; 信息抽取;
D O I
暂无
中图分类号
TP311.10 []; TP393.09 [];
学科分类号
081202 ; 0835 ; 080402 ;
摘要
本文研究了从data intensive类型的Web页面中提取结构化数据的问题,提出了基于页面标签的数据抽取算法。该算法先根据标签的显示位置及其大小判断不同标签元素之间的嵌套关系,并构造简化的HTML树Sim- HTree,有效地减少了识别数据记录的时间。在此基础上,提出子串匹配调整算法,对数据记录进行识别,标识教据项。实验表明,该算法是有效的。
引用
收藏
页码:133 / 136
页数:4
相关论文
共 5 条
[1]   一种新的基于Ontology的信息抽取方法 [J].
陈兰 ;
左志宏 ;
熊毅 ;
孟令谦 .
计算机应用研究, 2004, (08) :155-157+170
[2]   基于Ontology的Web内容二阶段半自动提取方法 [J].
高军 ;
王腾蛟 ;
杨冬青 ;
唐世渭 .
计算机学报, 2004, (03) :310-318
[3]   基于标记图的Web数据模型 [J].
陈滢 ;
徐宏炳 ;
王能斌 .
计算机学报, 1999, (03) :83-89
[4]  
Wrapper induction: Efficiency and expressiveness[J] . Nicholas Kushmerick.Artificial Intelligence . 2000 (1)
[5]  
A hierarchical approach to wrapper induction .2 MUSLEA I. MINION S,CRAIG A,et al. . 1999