基于Web挖掘的网页清洗技术

被引:8
作者
李嘉佑 [1 ]
贾自艳 [2 ]
何清 [2 ]
史忠植 [2 ]
机构
[1] 中国科技大学
[2] 中国科学院计算技术研究所智能信息处理实验室
关键词
Web数据; 信息抽取; 噪音数据;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
随着互联网上信息的大量增多,Web挖掘技术越来越重要。而在Web挖掘过程中,基于Web的信息抽取的主要部分是如何去除网页中的噪音数据,它是Web数据的预处理的过程,这个预处理结果影响了Web挖掘的结果。在文中先分析了噪音数据的特点,然后根据实际观察提取规则并且用于模型统计的方法,去除噪音数据,抽取相关可利用的信息。
引用
收藏
页码:98 / 101
页数:4
相关论文
共 1 条
[1]   Learning Information Extraction Rules for Semi-Structured and Free Text [J].
Stephen Soderland .
Machine Learning, 1999, 34 :233-272