文本分类和文本聚类是信息处理中的两个重要工作。传统的分类和聚类算法主要针对纯文本文件,随着Internet的迅速发展,半结构化的Web数据慢慢占据了信息处理对象的主体,这使得文本分类和聚类算法得到了进一步的延伸和发展。
本论文主要研究如何利用Web挖掘技术,并结合现有的分类和聚类技术,实现对Web文本数据的高准确率的分类和聚类。论文的出发点是:一个网页在网站拓扑结构中的位置及其它网页对它的链接文本都包含了网站管理者对这个网页的内容及类别的定位;充分利用这些信息,有助于对该网页的分类和聚类。本论文提出通过Web内容挖掘和结构挖掘,提取网页在整个网站中的层次类别信息,通过这些层次类别信息对网页进行分类和聚类。