基于关联规则的Web日志挖掘研究及在电子政务中的应用

被引:0
作者
王军豪
机构
[1] 首都师范大学
关键词
Web日志; 点击流; 数据挖掘; FP-growth算法; 电子政务系统;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
Web日志记录了用户对Web站点访问信息,保存有大量的路径信息,对这类信息的分析有利于网站设计人员掌握用户的喜好和访问习惯,并可以为网站的结构优化和页面重组提供帮助。日志数据的分析可以通过统计数据的形式,比如统计经常被访问的页面集、统计经常需要分析的重要表格数据、分析网站找出一般的访问路径模式等。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理,从而解决上面提出的各种问题。 本文首先对Web数据挖掘和web日志挖掘进行了研究,指出了其具体内容和二者的关系,同时对Web日志的预处理进行了分析研究,描述了面向电子政务的点击流数据预处理方法,设计了相关的数据库表和实施预处理的流程算法。通过对经典FP-growth算法进行分析,提出了FP-growth关联规则挖掘的改进算法,通过性能比较,指出改进算法的性能在时间上得到了提高。论文进一步讨论了在原有先锋电子政务系统的基础上,将数据挖掘中关联规则FP-growth的改进挖掘算法应用到电子政务Web日志挖掘系统中。经过对关联规则算法的研究和改进,采用了改进的FP-growth算法对经过数据预处理的点击流数据进行了挖掘,并分析挖掘结果,指出网站结构的不足,从而对网站结构建设及政务系统的改进提出意见。 在论文总结展望部分,讨论了目前研究工作中需要进一步完善的问题,指出了今后的研究方向。
引用
收藏
页数:70
共 31 条
[1]
关联规则挖掘算法研究及在科技管理信息系统的应用 [D]. 
乔祥源 .
南京理工大学,
2007
[2]
Web日志挖掘技术的研究 [D]. 
李向云 .
大庆石油学院,
2007
[3]
面向Web日志数据挖掘的研究与应用 [D]. 
张建喜 .
山东师范大学,
2006
[4]
点击流数据仓库.[M].(美)MarkSweiger等著;陆昌辉等译;.电子工业出版社.2004,
[5]
数据挖掘原理与技术.[M].张云涛;龚玲著;.电子工业出版社.2004,
[6]
数据仓库与数据挖掘技术.[M]..电子工业出版社.2002,
[7]
数据挖掘.[M].(加)JiaweiHan;(加)MichelineKamber著;范明;孟小峰等译;.机械工业出版社.2001,
[8]
Web日志挖掘的研究与实现..沈音乐;.大连理工大学.2006,
[9]
Data Preparation for Mining World Wide Web Browsing Patterns.[J].Robert Cooley;Bamshad Mobasher;Jaideep Srivastava.Knowledge and Information Systems.1999, 1
[10]
On the complexity of mining quantitative association rules [J].
Wijsen, J ;
Meersman, R .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (03) :263-281