基于多种策略的页面内容提取算法

被引:4
作者
高琰
谷士文
谭立球
机构
[1] 中南大学信息科学与工程学院
关键词
VIPS(基于视觉信息的页面分割算法); 内聚度; 最大深度; 内容信息; 结构信息;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
针对W eb页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构树中不同区域内不同分块粒度的要求;根据W eb页面提供的结构信息和内容信息提取块结构树叶子节点中的"主题"块和"主题相关"块;最后,对主题块和主题相关块的内容进行合并,提取页面的主要内容.实验表明,对任意下载、不同内容类型的页面,该算法都能有效地提取页面内容.
引用
收藏
页码:473 / 477
页数:5
相关论文
共 1 条
[1]   基于DOM的网页主题信息自动提取 [J].
王琦 ;
唐世渭 ;
杨冬青 ;
王腾蛟 .
计算机研究与发展, 2004, (10) :1786-1792