一种基于树结构的Web数据自动抽取方法

被引:19
作者
胡东东
孟小峰
机构
[1] 中国人民大学信息学院
关键词
Web; 抽取; 自动; 树结构; 语义块;
D O I
暂无
中图分类号
TP393 [计算机网络];
学科分类号
081201 ; 1201 ;
摘要
介绍了一种基于树结构的自动从HTML页面中抽取数据的方法 在HTML页面的树形结构之上 ,提出了基于语义块的HTML页面结构模型 :HTML页面中的数据值主要存在于语义块中 ,不同的HTML页面的主要区别在于语义块的区别 基于语义块的结构模型 ,自动抽取通过 4个步骤完成 :通过HTML页面比较发现语义块 ;区分语义块中数据值的角色 ;推导数据模式和推导抽取规则 在实际HTML页面上的实验已经证明 ,这种方法能够达到较高的正确率 ,同时 ,随着文档的增大 ,方法也能够保证线性的时间复杂度
引用
收藏
页码:1607 / 1613
页数:7
相关论文
共 6 条
  • [1] SchemaguidedwrappermaintenanceforWeb dataextraction. MengXF,HuDD,LiC. ProcofACMWIDM’’2003 . 2003
  • [2] Sg wram:Schemaguidedwrappermaintenance. MengXF,WangHY,HuDD ,etal. ProcofICDE’’2003 . 2003
  • [3] Schema guideddataex tractionfromtheWeb. MengXF,LuHJ,WangHY ,etal. JournalofComputerScienceandTechnol ogy . 2002
  • [4] ROADRUNNER :TowardsautomaticdataextractionfromlargeWebsites. VCrescenzi,GMecca,PMerialdo. ProcofVLDB’’2001 . 2001
  • [5] ExtractingstructureddatafromWebpages. AArasu,HGarcia Molina. ProcofACMSIGMOD’’03 . 2003
  • [6] SG WRAP :Aschema guidedwrappergeneratordemonstration. MengXF,LuHJ,WangHY ,etal. ProcofICDE’’2002 . 2002