一种WEB日志数据挖掘系统的设计与实现

被引：0

作者：

任晓霞

机构：

[1] 北京邮电大学

关键词：

WEB日志挖掘; 模式识别; 频繁遍历模式; 聚类分析;

D O I：

暂无

年度学位：

2008

学位类型：

硕士

导师：

邝坚; 房鸣;

摘要：

随着Internet技术的不断发展和应用,Web站点产生的信息也随之飞速增长,如何开发和利用Web站点提供的丰富信息资源成为人们普遍关注的问题。Web站点提供的丰富信息资源体现在两个层面:一方面,Web站点自身提供了丰富的信息内容;另一方面,人们对Web站点所带来的庞大的访问数据资源、复杂的数据结构和使用者的行为目的产生了更多的构想。如何利用Web站点的现有访问信息提高站点的性能和更好地为用户服务,成为计算机应用领域的热门话题之一。本文以Web目志为特征展开研究,在分析Web访问数据结构的基础上,引入Web数据挖掘方法,针对计算机科学与技术学院的Web站点,设计并实现了一个特定的分析系统,获得了一些有价值的分析结论。 Web数据挖掘是将数据挖掘方法运用于Web数据,提取隐藏其中的、有用的、新颖的模式或知识发现的过程。其中一个主要分支是Web日志挖掘,它旨在从大量访问者的访问历史记录中,挖掘网站的频繁使用模式、用户访问行为模式、具有相似行为的用户群等信息,使人们能够充分了解Web站点的使用情况和使用Web站点的用户行为模式,从而对Web站点优化组织,更好地为用户提供服务,提高Web站点的访问量和性能。基于以上背景介绍,本文以学院网站Web服务器日志为研究素材,给出了一个Web日志数据挖掘系统的解决方案。通过本系统,不仅可以获得学院网站的基本统计信息,如站点的使用情况和服务器的响应情况,而且可以获得网站用户的访问模式和用户的聚类群信息。本文采用的聚类算法,在总结已有系统开发经验的基础上,从简洁、效率、实用的角度出发,对算法提出了改进的思路,使用会话访问顺序相似度作为聚类度量标准和字典向量存储,保证了聚类的准确度和存储效率。本文首先介绍了课题产生的背景和国内外研究现状。其次介绍了Web日志挖掘的处理模型和数据预处理各阶段的过程。再次介绍了本课题相关的算法。最后结合本课题的算法,给出了系统的详细设计。并在.NET平台上实现了本系统。

引用

页数：75

共 13 条

[1]

Web日志数据挖掘中数据预处理模型的研究与建立 [J].

赵莹莹 ;

韩元杰 .

现代电子技术, 2007, (04) :103-105

[2]

一种Web日志会话识别的优化方法 [J].

陈子军 ;

王鑫昱 ;

李伟 .

计算机工程, 2007, (01) :95-97

[3]

基于Web使用挖掘的个性化服务技术研究 [J].

崔林 ;

宋瀚涛 ;

龚永罡 ;

陆玉昌 .

计算机系统应用, 2005, (03) :23-26

[4]

Web日志挖掘技术进展 [J].

陈新中 ;

李岩 ;

杨炳儒 ;

谢永红 ;

张运涛 .

系统工程与电子技术, 2003, (04) :492-495

[5]

Web数据挖掘中的数据预处理 [J].

陈宝树 ;

党齐民 .

计算机工程, 2002, (07) :125-127

[6]

Web日志的高效多能挖掘算法 [J].

宋擒豹 ;

沈钧毅 .

计算机研究与发展, 2001, (03) :328-333

[7]

Web日志挖掘中的序列模式识别 [J].

陆丽娜 ;

魏恒义 ;

杨怡玲 ;

管旭东 .

小型微型计算机系统, 2000, (05) :481-483

[8]

用户访问模式数据挖掘的模型与算法研究 [J].

周斌 ;

吴泉源 ;

高洪奎 ;

不详 .

计算机研究与发展 , 1999, (07)

[9]

Data Preparation for Mining World Wide Web Browsing Patterns.[J].Robert Cooley;Bamshad Mobasher;Jaideep Srivastava.Knowledge and Information Systems.1999, 1

[10]

Discovering Internet marketing intelligence through online analytical web usage mining.[J].Alex G. Büchner;Maurice D. Mulvenna.ACM SIGMOD Record.1998, 4

← 1 2 →