基于Web的HTML网页清洗技术的研究与实现

被引：0

作者：

刘斌

机构：

[1] 华北电力大学（北京）

关键词：

DOM树; 页面清洗; 格式化; HTML文档;

D O I：

暂无

年度学位：

2007

学位类型：

硕士

导师：

郑玲;

摘要：

随着Internet的发展，越来越多的人开始关注Web页面上的信息，因此基于Web的信息提取技术，成为目前数据挖掘领域的研究热点之一。但是Web页面中包含了很多与主题无关的信息，例如弹出的广告、多余的图片以及一些无关的链接等。这些信息严重影响了对Web中有用信息的提取，因此网页清洗变得十分重要。本文在深入分析、研究了Web页面的数据结构和当前网页清洗技术的基础上，提出了基于DOM(Document Object Model—文档对象模型)树结构的网页清洗技术，并在Eclipse平台上开发了一个网页清洗工具。该工具能够有效地清洗网页中大多数与主题无关的信息，具有很好的实用价值和应用前景。

引用

页数：54

共 7 条

[1]

Innovating web page classification through reducing noise [J].