网页结构模板生成新方法研究

被引：2

作者：

冯少卿

都云程

机构：

[1] 北京信息工程学院中文信息处理研究中心

来源：

北京机械工业学院学报 | 2007年 / 03期

关键词：

DOM; 结构分析; 网页相似; 样本集; 模板;

D O I：

10.16508/j.cnki.11-5866/n.2007.03.013

中图分类号：

TP393.092 [];

学科分类号：

080402 ;

摘要：

Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性。为了高效地抽取基于模板的网页主题信息,提出了一种新的从HTML网页结构分析入手的模板生成方法。该方法以文档对象模型(DOM)为基础,通过对网页对应的DOM树层次结构进行分析,来判断两个网页是否相似,结构上相似的网页可以作为一个样本集。利用生成的样本集可以比较方便的抽象出网页结构模板,实现高效的信息抽取。实验表明,该方法准确率可达97%。

引用

页码：15 / 19

页数：5

共 4 条

[1] 基于双层决策的新闻网页正文精确抽取 [J].

胡国平 ;

张巍 ;

王仁华 .

中文信息学报, 2006, (06) :1-9+103

[2] 模板化网页主题信息的提取方法 [J].

欧健文 ;

董守斌 ;

蔡斌 .

清华大学学报(自然科学版), 2005, (S1) :1743-1747

[3]

一种HTML网页净化方法[J]. 张志刚,陈静,李晓明.情报学报. 2004 (04)

[4]

Document ObjectModel(DOM)Level 3 Core Specification[S/OL] .2 World Wide Web Consortium. ht-tp://www.w3.org/TR/2004/REC-DOM-Level-3-Core-20040407 . 2004

← 1 →