一种WEB日志数据挖掘系统的设计与实现

被引:0
作者
任晓霞
机构
[1] 北京邮电大学
关键词
WEB日志挖掘; 模式识别; 频繁遍历模式; 聚类分析;
D O I
暂无
年度学位
2008
学位类型
硕士
摘要
随着Internet技术的不断发展和应用,Web站点产生的信息也随之飞速增长,如何开发和利用Web站点提供的丰富信息资源成为人们普遍关注的问题。Web站点提供的丰富信息资源体现在两个层面:一方面,Web站点自身提供了丰富的信息内容;另一方面,人们对Web站点所带来的庞大的访问数据资源、复杂的数据结构和使用者的行为目的产生了更多的构想。如何利用Web站点的现有访问信息提高站点的性能和更好地为用户服务,成为计算机应用领域的热门话题之一。本文以Web目志为特征展开研究,在分析Web访问数据结构的基础上,引入Web数据挖掘方法,针对计算机科学与技术学院的Web站点,设计并实现了一个特定的分析系统,获得了一些有价值的分析结论。 Web数据挖掘是将数据挖掘方法运用于Web数据,提取隐藏其中的、有用的、新颖的模式或知识发现的过程。其中一个主要分支是Web日志挖掘,它旨在从大量访问者的访问历史记录中,挖掘网站的频繁使用模式、用户访问行为模式、具有相似行为的用户群等信息,使人们能够充分了解Web站点的使用情况和使用Web站点的用户行为模式,从而对Web站点优化组织,更好地为用户提供服务,提高Web站点的访问量和性能。 基于以上背景介绍,本文以学院网站Web服务器日志为研究素材,给出了一个Web日志数据挖掘系统的解决方案。通过本系统,不仅可以获得学院网站的基本统计信息,如站点的使用情况和服务器的响应情况,而且可以获得网站用户的访问模式和用户的聚类群信息。本文采用的聚类算法,在总结已有系统开发经验的基础上,从简洁、效率、实用的角度出发,对算法提出了改进的思路,使用会话访问顺序相似度作为聚类度量标准和字典向量存储,保证了聚类的准确度和存储效率。 本文首先介绍了课题产生的背景和国内外研究现状。其次介绍了Web日志挖掘的处理模型和数据预处理各阶段的过程。再次介绍了本课题相关的算法。最后结合本课题的算法,给出了系统的详细设计。并在.NET平台上实现了本系统。
引用
收藏
页数:75
共 13 条
[1]
Web日志数据挖掘中数据预处理模型的研究与建立 [J].
赵莹莹 ;
韩元杰 .
现代电子技术, 2007, (04) :103-105
[2]
一种Web日志会话识别的优化方法 [J].
陈子军 ;
王鑫昱 ;
李伟 .
计算机工程, 2007, (01) :95-97
[3]
基于Web使用挖掘的个性化服务技术研究 [J].
崔林 ;
宋瀚涛 ;
龚永罡 ;
陆玉昌 .
计算机系统应用, 2005, (03) :23-26
[4]
Web日志挖掘技术进展 [J].
陈新中 ;
李岩 ;
杨炳儒 ;
谢永红 ;
张运涛 .
系统工程与电子技术, 2003, (04) :492-495
[5]
Web数据挖掘中的数据预处理 [J].
陈宝树 ;
党齐民 .
计算机工程, 2002, (07) :125-127
[6]
Web日志的高效多能挖掘算法 [J].
宋擒豹 ;
沈钧毅 .
计算机研究与发展, 2001, (03) :328-333
[7]
Web日志挖掘中的序列模式识别 [J].
陆丽娜 ;
魏恒义 ;
杨怡玲 ;
管旭东 .
小型微型计算机系统, 2000, (05) :481-483
[8]
用户访问模式数据挖掘的模型与算法研究 [J].
周斌 ;
吴泉源 ;
高洪奎 ;
不详 .
计算机研究与发展 , 1999, (07)
[9]
Data Preparation for Mining World Wide Web Browsing Patterns.[J].Robert Cooley;Bamshad Mobasher;Jaideep Srivastava.Knowledge and Information Systems.1999, 1
[10]
Discovering Internet marketing intelligence through online analytical web usage mining.[J].Alex G. Büchner;Maurice D. Mulvenna.ACM SIGMOD Record.1998, 4