网页结构模板生成新方法研究

被引:2
作者
冯少卿
都云程
机构
[1] 北京信息工程学院中文信息处理研究中心
关键词
DOM; 结构分析; 网页相似; 样本集; 模板;
D O I
10.16508/j.cnki.11-5866/n.2007.03.013
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性。为了高效地抽取基于模板的网页主题信息,提出了一种新的从HTML网页结构分析入手的模板生成方法。该方法以文档对象模型(DOM)为基础,通过对网页对应的DOM树层次结构进行分析,来判断两个网页是否相似,结构上相似的网页可以作为一个样本集。利用生成的样本集可以比较方便的抽象出网页结构模板,实现高效的信息抽取。实验表明,该方法准确率可达97%。
引用
收藏
页码:15 / 19
页数:5
相关论文
共 4 条
[1]   基于双层决策的新闻网页正文精确抽取 [J].
胡国平 ;
张巍 ;
王仁华 .
中文信息学报, 2006, (06) :1-9+103
[2]   模板化网页主题信息的提取方法 [J].
欧健文 ;
董守斌 ;
蔡斌 .
清华大学学报(自然科学版), 2005, (S1) :1743-1747
[3]  
一种HTML网页净化方法[J]. 张志刚,陈静,李晓明.情报学报. 2004 (04)
[4]  
Document ObjectModel(DOM)Level 3 Core Specification[S/OL] .2 World Wide Web Consortium. ht-tp://www.w3.org/TR/2004/REC-DOM-Level-3-Core-20040407 . 2004