基于标记树表示方法的页面结构分析

被引：25

作者：

常育红

姜哲

朱小燕

不详

机构：

[1] 北京九州公司

[2] 清华大学计算机科学与技术系

[3] 清华大学计算机科学与技术系北京清华大学计算机科学与技术系

[4] 北京清华大学智能技术与系统国家重点实验室

[5] 北京

[6] 北京

来源：

计算机工程与应用 | 2004年 / 16期

关键词：

WEB页面布局; 页面结构; 信息抽取;

D O I：

暂无

中图分类号：

TP393.092 [];

学科分类号：

摘要：

页面内容结构分析在WEB信息检索、分类和抽取等方面有重要作用。文章从页面布局和内容之间关系出发,根据WEB文件中标记之间关系,用标记树表示页面文件,采用自底向上的算法,抽取出具有不同语义的页面内容,提出用树形层次结构表示它们之间关系的方法。在此基础上,通过模仿人们浏览页面的习惯,成功地将其应用于页面的计算机屏读系统,实现自动朗读页面主题的功能。

引用

页码：129 / 132

页数：4