云计算技术在web日志挖掘中的应用研究

被引:0
作者
程苗
机构
[1] 中国科学技术大学
关键词
云计算; web日志挖掘; Hadoop; 浏览偏爱路径;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
如何解决数据挖掘中海量数据处理的问题一直是数据挖掘领域一个非常重要的研究课题。尤其是随着网络技术的迅猛发展,web上的数据正以指数级形式飞速增长,且web上的数据具有海量、多样、异构、动态变化等特点,这使得基于单一节点的集中式数据挖掘平台已经不能满足目前海量数据网络的分析任务了。如何实现快速地从web这个最大的数据集合中提取出有用的信息已成为数据挖掘领域一个备受国内外学者关注的课题。 云计算正是产生于这样的背景之下,它的出现给海量数据的处理和存储带来了曙光。同时,云计算只需要部署在普通的廉价计算机集群上即可运行,但是数据处理能力却很强,因此Web数据挖掘系统在云计算集群框架下的成功实行具有很重要的意义和应用价值。 本文在Hadoop平台上,结合web日志挖掘的特点,给出了一种基于云计算的web日志挖掘系统的设计方案,并对该系统的各个功能模块进行了详细的阐述。同时,针对目前从web日志中挖掘用户偏爱路径的算法注重客观访问频度,而忽略用户对这一频繁访问路径是否感兴趣的不足,结合网站拓扑结构图修正基于频度的用户偏爱路径的衡量标准,提出了有用偏爱度的概念,给出了一个挖掘用户浏览偏爱路径的方法,从而剔除了由于页面放置和链接等因素对挖掘的影响。 最后对本文给出的改进算法的有效性以及云计算平台的高效性进行了实验比较分析。实验结果表明,改进后的挖掘用户偏爱浏览路径的算法更能反映用户的浏览意图。同时,利用云计算平台,通过“云”中多个资源完成原先由一个节点承担的工作,无论是在数据处理还是任务执行上,其效率都高于基于单机集中式环境的web日志挖掘。
引用
收藏
页数:72
共 24 条
[1]
基于云计算的Web结构挖掘算法研究 [D]. 
高勋 .
北京交通大学,
2010
[2]
基于云计算环境的web数据挖掘算法研究 [D]. 
李雪锋 .
北京交通大学,
2010
[3]
云计算技术在中国农村信息化建设中的应用 [D]. 
徐超 .
山东大学,
2010
[4]
云计算及若干数据挖掘算法的MapReduce化研究 [D]. 
李军华 .
电子科技大学,
2010
[5]
一种基于云计算的数据挖掘平台架构设计与实现 [D]. 
纪俊 .
青岛大学,
2009
[6]
基于MapReduce模型的并行计算平台的设计与实现 [D]. 
万至臻 .
浙江大学,
2008
[7]
一种WEB日志数据挖掘系统的设计与实现 [D]. 
任晓霞 .
北京邮电大学,
2008
[8]
云计算.[M].刘鹏; 主编.电子工业出版社.2010,
[9]
Data mining using high performance dataclouds:Experi mental studies using sector and sphere..Robert L G;Gu Y H;.Proc of the 14th ACM SIGKDD International Conference onKnowledge Discovery and Data Mining.2008,
[10]