基于标记树表示方法的页面结构分析

被引:25
作者
常育红
姜哲
朱小燕
不详
机构
[1] 北京九州公司
[2] 清华大学计算机科学与技术系
[3] 清华大学计算机科学与技术系 北京 清华大学计算机科学与技术系
[4] 北京 清华大学智能技术与系统国家重点实验室
[5] 北京
[6] 北京
关键词
WEB页面布局; 页面结构; 信息抽取;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
页面内容结构分析在WEB信息检索、分类和抽取等方面有重要作用。文章从页面布局和内容之间关系出发,根据WEB文件中标记之间关系,用标记树表示页面文件,采用自底向上的算法,抽取出具有不同语义的页面内容,提出用树形层次结构表示它们之间关系的方法。在此基础上,通过模仿人们浏览页面的习惯,成功地将其应用于页面的计算机屏读系统,实现自动朗读页面主题的功能。
引用
收藏
页码:129 / 132
页数:4
相关论文
共 2 条
[1]  
JAWS .2 http://www.hj.cm .
[2]  
Information retrieval based on structural and semantic information .2 R.H.Song. Computer science and technology of tsinghua university PRC . 2002