基于网页分块的正文信息提取方法

被引：14

作者：

黄玲

陈龙

机构：

[1] 重庆邮电大学计算机科学与技术研究所

来源：

计算机应用 | 2008年 / 28(S2)卷 / S2期

关键词：

Web信息抽取; 主题内容块; 网页正文信息;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字。实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现。

引用

页码：326 / 328

页数：3

共 4 条

[1] 基于页面标签的Web结构化数据抽取 [J].