基于日志的Web访问信息挖掘

被引:0
作者
王臣钧
机构
[1] 西安理工大学
关键词
Web访问信息挖掘; Web日志; 模糊聚类; 中心初始化; 用户和URL聚类;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
随着Internet应用的迅速发展,网络上信息迅速增长,信息种类也越来越多,人们面对太多的信息无法选择和消化,此种现象称为信息过载。Internet上信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难,也就是所谓的信息迷失。如何从这些繁琐数据中得到大家都看得懂的、有价值的信息和知识是我们面临的问题。所以,出现了数据挖掘在Web站点分析中的应用,即Web挖掘。 基于日志的Web访问信息挖掘是Web挖掘领域中的一个重要应用研究方向。为用户提供一个不仅内容丰富而且方便使用的优秀网站,以吸引大量的用户,这是每个网站所追求的目标。Web站点能否实现个性化,为用户提供个性化的服务,成为衡量站点能否成功的重要因素。通过挖掘Web日志,发现用户的访问模式,对优化站点结构和为用户提供个性化服务具有重要的意义。 本文主要研究了基于Web日志的用户访问模式挖掘,对基于搜索引擎查询日志的协作推荐也进行了一定的研究,主要工作如下: 1.Web访问信息挖掘的方法研究。详细的研究和探讨了Web访问信息挖掘的整个过程,包括:数据收集、数据预处理、模式发现、模式分析及应用。 2.详述了硬K-均值聚类算法和模糊K-均值聚类算法的基本思想和算法步骤,对模糊K-均值聚类算法中的中心初始化问题进行了较为详细的研究,并提出了一种改进的有效性函数运用于中心初始化中,利用该有效性函数可以有效地发现最优中心数目。 3.提出了一种改进的Web用户和URL聚类方法,该算法有效地综合了用户浏览时间和访问次数,并且利用服务器日志进行了实验,证实了该算法的有效性。 4.详述了Web搜索引擎推荐中的主题关注度推荐思想。探讨了利用查询日志进行查询关键字的聚类分析,提出了一种改进的相似度函数,并利用人工数据进行了实验验证,证实该相似度函数可以更加准确地运用于关键字凝聚过程。 最后,对所做的工作进行了归纳与总结,探讨了将来进一步的研究方向。
引用
收藏
页数:60
共 12 条
[1]
搜索引擎查询日志中的聚类算法研究 [J].
勾海波 ;
欧阳为民 ;
徐春荣 .
计算机应用与软件, 2007, (03) :145-147
[2]
基于Web-Log Mining的Web文档聚类 [J].
苏中 ;
马少平 ;
杨强 ;
张宏江 .
软件学报, 2002, (01) :99-104
[3]
基于归纳化会话的网络用户的聚类 [J].
黄松 ;
刘晓明 ;
宋自林 .
计算机研究与发展, 2001, (10) :1224-1228
[4]
路径聚类:在Web站点中的知识发现 [J].
王实 ;
高文 ;
李锦涛 ;
谢辉 ;
不详 .
计算机研究与发展 , 2001, (04) :482-486
[5]
Internet上的文本数据挖掘 [J].
王伟强 ;
高文 ;
段立娟 .
计算机科学, 2000, (04) :32-36
[6]
专题式Web信息检索系统的设计与实现.[J].丁国良;王嘉祯;.军械工程学院学报.2000, 01
[7]
数据挖掘中聚类若干问题研究 [D]. 
赵恒 .
西安电子科技大学,
2005
[8]
A study of some fuzzy cluster validity indices, genetic clustering and application to pixel classification [J].
Pakhira, MK ;
Bandyopadhyay, S ;
Maulik, U .
FUZZY SETS AND SYSTEMS, 2005, 155 (02) :191-214
[9]
Correlation-Based Web Document Clustering for Adaptive Web Interface Design [J].
Zhong Su ;
Qiang Yang ;
Hongjiang Zhang ;
Xiaowei Xu ;
Yu-Hen Hu ;
Shaoping Ma .
Knowledge and Information Systems, 2002, 4 (2) :151-167
[10]
Personalized, interactive news on the Web [J].
Bharat, K ;
Kamba, T ;
Albers, M .
MULTIMEDIA SYSTEMS, 1998, 6 (05) :349-358