共 1 条
基于多种策略的页面内容提取算法
被引:4
作者:
高琰
谷士文
谭立球
机构:
[1] 中南大学信息科学与工程学院
来源:
关键词:
VIPS(基于视觉信息的页面分割算法);
内聚度;
最大深度;
内容信息;
结构信息;
D O I:
暂无
中图分类号:
TP393.092 [];
学科分类号:
080402 ;
摘要:
针对W eb页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法.该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构树中不同区域内不同分块粒度的要求;根据W eb页面提供的结构信息和内容信息提取块结构树叶子节点中的"主题"块和"主题相关"块;最后,对主题块和主题相关块的内容进行合并,提取页面的主要内容.实验表明,对任意下载、不同内容类型的页面,该算法都能有效地提取页面内容.
引用
收藏
页码:473 / 477
页数:5
相关论文