基于DOM的网页主题信息自动提取

被引:77
作者
王琦
唐世渭
杨冬青
王腾蛟
机构
[1] 北京大学视觉与听觉信息处理国家重点实验室
[2] 北京大学计算机科学与技术系
关键词
DOM; 信息提取; 分块; STU; STU树; STUDOM树; 相关度;
D O I
暂无
中图分类号
TP393 [计算机网络];
学科分类号
081201 ; 1201 ;
摘要
Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中 ,使用户不能迅速获取主题信息 ,限制了Web的可用性 ,信息提取有助于解决这一问题 基于DOM规范 ,针对HTML的半结构化特征和缺乏语义描述的不足 ,提出含有语义信息的STU DOM树模型 将HTML文档转换为STU DOM树 ,并对其进行基于结构的过滤和基于语义的剪枝 ,能够准确地提取出主题信息 方法不依赖于信息源 ,而且不改变源网页的结构和内容 ,是一种自动、可靠和通用的方法 具有可观的应用价值 ,可应用于PAD和手机上的Web浏览以及信息检索系统
引用
收藏
页码:1786 / 1792
页数:7
相关论文
共 12 条
  • [1] Accordionsum marizationforend gamebrowsingonPDAsandcellularphones. OBuyukkokten,HGarciaMolina,APaepcke. ProcofACMConfonHumanFactorsinComputingSystems (CHI 2001) . 2001
  • [2] VisualWebinformationex tractionwithLixto. RBaumgartner,SFlesca,GGottlob. Procofthe27thInt’’lConfonVeryLargeDataBases . 2001
  • [3] Ascalablecomparason shoppingagentfortheWorldWideWeb. RDDoorenbos,OEtzioni,DSWeld. ACMAgents’’97 . 1997
  • [4] Conceptual model baseddataextractionfrommultiple record Web pages. DWEmbley,etal. DataandKnowledgeEngineering . 1999
  • [5] Factorfiction:Contentclassi ficationfordigitallibraries. AFinn,AKushmerick,BSmyth. The2ndDELOSNetworkofExcel lenceWorkshoponPersonalisationandRecommenderSystemsinDigitalLibraries . 2001
  • [6] DOM basedcontentex tractionofHTMLdocuments. SGupta,GKaiser,DNeistadt,etal. Procofthe12thInt’’lWorldWideWebConf . 2003
  • [7] TwoapproachestobringingInternetservicestoWAPdevices. EKaasinen,MAaltonen,JKolari,etal. Procofthe9thInt’’lWorldWideWebConfonComputerNetworks . 2000
  • [8] CyberNekoHTMLParser. http://www apache org/-andyc/neko/doc/html/index html . 20040610
  • [9] XWRAP :AnXML enabledwrapperconstructionsystemforWebinformationsources. LiuLing,PuCalton,HanWei. Procofthe16thInt’’lConfonDataEngineering . 2000
  • [10] COMIIX :TowardseffectiveWEBinformationextraction,integrationandqueryanswering. WangTengjiao,TangShiwei,YangDongqing,etal. ProcofSIGMOD’’02 . 2002