Web页面自顶向下的正文信息定位算法

被引：5

作者：

缪霖

邱会中

机构：

[1] 电子科技大学计算机科学与工程学院

来源：

计算机工程 | 2010年 / 36卷 / 13期

关键词：

正文信息定位; 文字链接率; 最佳正文子树; 标签树;

D O I：

暂无

中图分类号：

TP393.092 [];

学科分类号：

摘要：

正文信息是一个Web网页中除了链接、导航、广告等以外的主题信息。提出并实现一种针对含"正文"的Web页面的信息提取算法。该算法采用自顶向下遍历HTML标签树的方法,通过文字链接率、连续文字长度等统计数据不断筛选、分析,从而定位最佳正文信息域,将文字内容提取出来。实验结果表明,该算法可行性强,具有较高的准确率。

引用

页码：76 / 78

页数：3