基于Web挖掘的网页清洗技术

被引：8

作者：

李嘉佑 ^{[1
]}

贾自艳 ^{[2
]}

何清 ^{[2
]}

史忠植 ^{[2
]}

机构：

[1] 中国科技大学

[2] 中国科学院计算技术研究所智能信息处理实验室

来源：

计算机工程与应用 | 2006年 / 25期

关键词：

Web数据; 信息抽取; 噪音数据;

D O I：

暂无

中图分类号：

TP393.092 [];

学科分类号：

080402 ;

摘要：

随着互联网上信息的大量增多,Web挖掘技术越来越重要。而在Web挖掘过程中,基于Web的信息抽取的主要部分是如何去除网页中的噪音数据,它是Web数据的预处理的过程,这个预处理结果影响了Web挖掘的结果。在文中先分析了噪音数据的特点,然后根据实际观察提取规则并且用于模型统计的方法,去除噪音数据,抽取相关可利用的信息。

引用

页码：98 / 101

页数：4