一种基于树结构的Web数据自动抽取方法

被引：19

作者：

胡东东

孟小峰

机构：

[1] 中国人民大学信息学院

来源：

计算机研究与发展 | 2004年 / 10期

关键词：

Web; 抽取; 自动; 树结构; 语义块;

D O I：

暂无

中图分类号：

TP393 [计算机网络];

学科分类号：

081201 ; 1201 ;

摘要：

介绍了一种基于树结构的自动从HTML页面中抽取数据的方法在HTML页面的树形结构之上 ,提出了基于语义块的HTML页面结构模型 :HTML页面中的数据值主要存在于语义块中 ,不同的HTML页面的主要区别在于语义块的区别基于语义块的结构模型 ,自动抽取通过 4个步骤完成 :通过HTML页面比较发现语义块 ;区分语义块中数据值的角色 ;推导数据模式和推导抽取规则在实际HTML页面上的实验已经证明 ,这种方法能够达到较高的正确率 ,同时 ,随着文档的增大 ,方法也能够保证线性的时间复杂度

引用

页码：1607 / 1613

页数：7

共 6 条

[1] SchemaguidedwrappermaintenanceforWeb dataextraction. MengXF,HuDD,LiC. ProcofACMWIDM’’2003 . 2003
[2] Sg wram:Schemaguidedwrappermaintenance. MengXF,WangHY,HuDD ,etal. ProcofICDE’’2003 . 2003
[3] Schema guideddataex tractionfromtheWeb. MengXF,LuHJ,WangHY ,etal. JournalofComputerScienceandTechnol ogy . 2002
[4] ROADRUNNER :TowardsautomaticdataextractionfromlargeWebsites. VCrescenzi,GMecca,PMerialdo. ProcofVLDB’’2001 . 2001
[5] ExtractingstructureddatafromWebpages. AArasu,HGarcia Molina. ProcofACMSIGMOD’’03 . 2003
[6] SG WRAP :Aschema guidedwrappergeneratordemonstration. MengXF,LuHJ,WangHY ,etal. ProcofICDE’’2002 . 2002

← 1 →