基于DOM的网页主题信息自动提取

被引：77

作者：

王琦

唐世渭

杨冬青

王腾蛟

机构：

[1] 北京大学视觉与听觉信息处理国家重点实验室

[2] 北京大学计算机科学与技术系

来源：

计算机研究与发展 | 2004年 / 10期

关键词：

DOM; 信息提取; 分块; STU; STU树; STUDOM树; 相关度;

D O I：

暂无

中图分类号：

TP393 [计算机网络];

学科分类号：

081201 ; 1201 ;

摘要：

Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中 ,使用户不能迅速获取主题信息 ,限制了Web的可用性 ,信息提取有助于解决这一问题基于DOM规范 ,针对HTML的半结构化特征和缺乏语义描述的不足 ,提出含有语义信息的STU DOM树模型将HTML文档转换为STU DOM树 ,并对其进行基于结构的过滤和基于语义的剪枝 ,能够准确地提取出主题信息方法不依赖于信息源 ,而且不改变源网页的结构和内容 ,是一种自动、可靠和通用的方法具有可观的应用价值 ,可应用于PAD和手机上的Web浏览以及信息检索系统

引用

页码：1786 / 1792

页数：7

共 12 条

[1] Accordionsum marizationforend gamebrowsingonPDAsandcellularphones. OBuyukkokten,HGarciaMolina,APaepcke. ProcofACMConfonHumanFactorsinComputingSystems (CHI 2001) . 2001
[2] VisualWebinformationex tractionwithLixto. RBaumgartner,SFlesca,GGottlob. Procofthe27thInt’’lConfonVeryLargeDataBases . 2001
[3] Ascalablecomparason shoppingagentfortheWorldWideWeb. RDDoorenbos,OEtzioni,DSWeld. ACMAgents’’97 . 1997
[4] Conceptual model baseddataextractionfrommultiple record Web pages. DWEmbley,etal. DataandKnowledgeEngineering . 1999
[5] Factorfiction:Contentclassi ficationfordigitallibraries. AFinn,AKushmerick,BSmyth. The2ndDELOSNetworkofExcel lenceWorkshoponPersonalisationandRecommenderSystemsinDigitalLibraries . 2001
[6] DOM basedcontentex tractionofHTMLdocuments. SGupta,GKaiser,DNeistadt,etal. Procofthe12thInt’’lWorldWideWebConf . 2003
[7] TwoapproachestobringingInternetservicestoWAPdevices. EKaasinen,MAaltonen,JKolari,etal. Procofthe9thInt’’lWorldWideWebConfonComputerNetworks . 2000
[8] CyberNekoHTMLParser. http://www apache org/-andyc/neko/doc/html/index html . 20040610
[9] XWRAP :AnXML enabledwrapperconstructionsystemforWebinformationsources. LiuLing,PuCalton,HanWei. Procofthe16thInt’’lConfonDataEngineering . 2000
[10] COMIIX :TowardseffectiveWEBinformationextraction,integrationandqueryanswering. WangTengjiao,TangShiwei,YangDongqing,etal. ProcofSIGMOD’’02 . 2002

← 1 2 →