基于图文有效信息量的网页正文定位

被引：7

作者：

梁正友

欧杰

俞闽敏

机构：

[1] 广西大学计算机与电子信息学院

来源：

计算机工程 | 2011年 / 37卷 / 23期

关键词：

正文定位; 最小正文子树; 有效信息率; 网页; 图文;

D O I：

暂无

中图分类号：

TP393.092 [];

学科分类号：

摘要：

在现有的网页抽取技术中,正文定位方法仅考虑网页文本信息,当正文图片信息较多、文本信息偏少时,容易出现偏差,且定位准确率较低。针对该问题,从信息论角度出发,结合网页中的文本信息图片信息,设计一种对网页中图片信息量和有效信息量的估算方法,在此基础上,提出一种基于图文信息量的网页正文定位算法。实验结果表明,该算法在不同正文文本量的情况下,均具有较高的定位准确率。

引用

页码：276 / 278

页数：3

共 5 条

[1]

Web页面自顶向下的正文信息定位算法 [J].