Internet的快速发展,WWW的广泛应用以及所有客户行为的电子化,使得收集用户的行为数据,深入研究用户行为成为可能。如何利用这些繁琐的数据得到大家都看得懂的、有价值的信息和知识就是我们面临的问题,由此产生Web日志挖掘。
Web日志挖掘是对用户与Web服务器在交互时产生的数据使用数据挖掘技术发现隐含的规律性知识,得到用户访问站点的频繁程度和行为模式,从而改善Web站点结构及页面间的超链接结构,提高站点的服务质量,改进站点性能,同时将一些可疑信息及时反馈给网站管理员以加强网站的安全性。
本篇论文主要从以下几个方面对Web日志挖掘进行系统的分析和研究。首先阐述本篇论文的研究背景及Web日志挖掘的国内外研究现状,并对数据挖掘、Web数据挖掘和Web日志挖掘进行了概述,并给出他们之间的关系;其次对Web日志挖掘中的数据预处理技术进行了分析与研究,详细分析了传统的数据预处理阶段中的各项任务,并在此基础上提出一种简化预处理步骤的算法,实验证明这种算法可以在不降低预处理精度的情况下提高预处理的速度;接着本篇论文对数据挖掘中常用的几种算法进行简单介绍,并重点研究了关联规则算法中的Apriori算法,对Apriori算法常用的几种改进方法作对比,提出采用数字化的方法实现Apriori算法;论文紧接着介绍了Web日志挖掘的具体实现过程,并给出具体实例。最后论文总结本课题的研究成果和工作中尚存的不足,并指出Web日志挖掘的研究方向、应用前景和它所面临的挑战。