网站日志的数据挖掘

被引:0
作者
段晓峰
机构
[1] 重庆大学
关键词
数据挖掘; WEB挖掘; WEB使用记录挖掘; Apriori;
D O I
暂无
年度学位
2003
学位类型
硕士
导师
摘要
随着INTERNET上数据量呈爆炸式的增长,信息数据的有用性变的十分必要。WEB挖掘是将数据挖掘技术应用于互联网,目前在许多研究领域都是热点。作者讨论了WEB挖掘和WEB挖掘的分类。根据挖掘的内容,WEB挖掘可分为三种,WEB使用挖掘,WEB内容挖掘,WEB结构挖掘。对每种挖掘,作者都讨论了与其相关的研究领域,技术和发展方向。WEB使用挖掘是本文主要的研究方向。 WEB使用挖掘是利用数据挖掘技术根据WEB使用数据挖掘用户访问网站的行为模式。网站使用记录挖掘不同与网站内容挖掘和网站结构挖掘,它的挖掘对象不是网上的原始数据,而是记录用户与网站交互的过程的数据。就些数据包括:客户端浏览器日志记录,网站服务器访问记录、代理服务器日志记录、用户注册信息等。WEB使用挖掘分为三个阶段,数据预处理,模式发现,模式分析。作者详细讨论了这三个阶段所遇到的问题和解决办法。 许多数据挖掘方法在WEB挖掘上都有很好的应用,作者讨论以下几种在WEB使用记录上常用的方法,统计分析方法,关联规则方法,序列模式方法,聚类方法,分类方法,并着重讨论关联规则方法应用于WEB使用记录的挖掘。关联规则方法在数据挖掘领域被广泛应用,它主要用于发现有用的模式,典型的例子就是购物篮分析。将关联规则应用于WEB使用记录挖掘的关键在于如何构造购物篮。用户点击网站的每一页所产生的动作都被服务器记录在日志中,分析日志文件,并结合网站的拓扑和实际内容,经过数据清理,用户识别,会话识别,事务识别四个数据预处理过程,我们可以获得一个事务集合,从而构造购物篮。作者详细讨论了在构造购物篮的过程中所遇到的问题和解决办法。Apriori 算法是一种著名的关联规则挖掘算法,本文讨论了该算法及其实现,并将其应用到一个典型的网站上。 最后,在这些工作的基础上,作者将WEB使用记录挖掘应用到重庆电视台互联网站上,得到了一些有用的模式。
引用
收藏
页数:45
共 19 条
[1]
基于Bayes潜在语义模型的半监督Web挖掘 [J].
宫秀军 ;
史忠植 .
软件学报, 2002, (08) :1508-1514
[2]
XML语言在Web数据挖掘中的应用 [J].
左开中 ;
汪伟 .
微机发展, 2002, (03) :59-61
[3]
基于关联规则的Web文档聚类算法 [J].
宋擒豹 ;
沈钧毅 .
软件学报, 2002, (03) :417-423
[4]
网络数据挖掘及其新技术探讨 [J].
万方 ;
尹为民 ;
吴迪 .
信息技术, 2002, (01) :10-11
[5]
基于Web-Log Mining的Web文档聚类 [J].
苏中 ;
马少平 ;
杨强 ;
张宏江 .
软件学报, 2002, (01) :99-104
[6]
基于Web的数据挖掘技术及访问路径模式的研究.[J].袁友伟.株洲工学院学报.2001, 05
[7]
Web数据挖掘技术及工具研究 [J].
邓英 ;
李明 .
计算机工程与应用, 2001, (20) :92-94
[8]
Web数据挖掘的BN实现方案 [J].
钟清流 .
计算机工程, 2001, (06) :46-48
[9]
Web日志中挖掘用户浏览模式的研究 [J].
施建生 ;
伍卫国 ;
陆丽娜 ;
杨怡玲 .
西安交通大学学报, 2001, (06) :621-624
[10]
路径聚类:在Web站点中的知识发现 [J].
王实 ;
高文 ;
李锦涛 ;
谢辉 ;
不详 .
计算机研究与发展 , 2001, (04) :482-486