网站日志的数据挖掘

被引：0

作者：

段晓峰

机构：

[1] 重庆大学

关键词：

数据挖掘; WEB挖掘; WEB使用记录挖掘; Apriori;

D O I：

暂无

年度学位：

2003

学位类型：

硕士

导师：

熊忠阳;

摘要：

随着INTERNET上数据量呈爆炸式的增长，信息数据的有用性变的十分必要。WEB挖掘是将数据挖掘技术应用于互联网，目前在许多研究领域都是热点。作者讨论了WEB挖掘和WEB挖掘的分类。根据挖掘的内容，WEB挖掘可分为三种，WEB使用挖掘，WEB内容挖掘，WEB结构挖掘。对每种挖掘，作者都讨论了与其相关的研究领域，技术和发展方向。WEB使用挖掘是本文主要的研究方向。 WEB使用挖掘是利用数据挖掘技术根据WEB使用数据挖掘用户访问网站的行为模式。网站使用记录挖掘不同与网站内容挖掘和网站结构挖掘，它的挖掘对象不是网上的原始数据，而是记录用户与网站交互的过程的数据。就些数据包括：客户端浏览器日志记录，网站服务器访问记录、代理服务器日志记录、用户注册信息等。WEB使用挖掘分为三个阶段，数据预处理，模式发现，模式分析。作者详细讨论了这三个阶段所遇到的问题和解决办法。许多数据挖掘方法在WEB挖掘上都有很好的应用，作者讨论以下几种在WEB使用记录上常用的方法，统计分析方法，关联规则方法，序列模式方法，聚类方法，分类方法，并着重讨论关联规则方法应用于WEB使用记录的挖掘。关联规则方法在数据挖掘领域被广泛应用，它主要用于发现有用的模式，典型的例子就是购物篮分析。将关联规则应用于WEB使用记录挖掘的关键在于如何构造购物篮。用户点击网站的每一页所产生的动作都被服务器记录在日志中，分析日志文件，并结合网站的拓扑和实际内容，经过数据清理，用户识别，会话识别，事务识别四个数据预处理过程，我们可以获得一个事务集合，从而构造购物篮。作者详细讨论了在构造购物篮的过程中所遇到的问题和解决办法。Apriori 算法是一种著名的关联规则挖掘算法，本文讨论了该算法及其实现，并将其应用到一个典型的网站上。最后，在这些工作的基础上，作者将WEB使用记录挖掘应用到重庆电视台互联网站上，得到了一些有用的模式。

引用

页数：45

共 19 条

[1]

基于Bayes潜在语义模型的半监督Web挖掘 [J].