灵活结构网页的正文提取

被引：4

作者：

殷彬

杨会志

机构：

[1] 电子科技大学中山学院

来源：

计算机技术与发展 | 2011年 / 21卷 / 09期

关键词：

Web数据挖掘; 网页内容提取; 正文节点; 超链接节点; 节点权值; 链接密度;

D O I：

暂无

中图分类号：

TP393.092 [];

学科分类号：

摘要：

在Web数据挖掘中,由于网页大多都含有指向其他页面的超链接等噪音信息,为了减少噪音信息对Web数据挖掘效果的影响,有必要对网页进行净化处理,提取其中的正文,同时,现实中很多网页的代码结构不是特别规范,对此,提出一种对灵活结构网页适用的正文抽取算法。将网页用HTML标签分割成节点形式,找出其中含有正文内容的一个节点,以此节点为基础向前和向后进行余下正文内容的抽取。实验结果表明,本算法的适用性强、正确率较高。

引用

页码：111 / 113+117 +117

页数：4

共 7 条

[1]

网页正文信息抽取新方法 [J].