基于日志的Web访问信息挖掘

被引：0

作者：

王臣钧

机构：

[1] 西安理工大学

关键词：

Web访问信息挖掘; Web日志; 模糊聚类; 中心初始化; 用户和URL聚类;

D O I：

暂无

年度学位：

2008

学位类型：

硕士

导师：

王林;

摘要：

随着Internet应用的迅速发展,网络上信息迅速增长,信息种类也越来越多,人们面对太多的信息无法选择和消化,此种现象称为信息过载。Internet上信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难,也就是所谓的信息迷失。如何从这些繁琐数据中得到大家都看得懂的、有价值的信息和知识是我们面临的问题。所以,出现了数据挖掘在Web站点分析中的应用,即Web挖掘。基于日志的Web访问信息挖掘是Web挖掘领域中的一个重要应用研究方向。为用户提供一个不仅内容丰富而且方便使用的优秀网站,以吸引大量的用户,这是每个网站所追求的目标。Web站点能否实现个性化,为用户提供个性化的服务,成为衡量站点能否成功的重要因素。通过挖掘Web日志,发现用户的访问模式,对优化站点结构和为用户提供个性化服务具有重要的意义。本文主要研究了基于Web日志的用户访问模式挖掘,对基于搜索引擎查询日志的协作推荐也进行了一定的研究,主要工作如下: 1.Web访问信息挖掘的方法研究。详细的研究和探讨了Web访问信息挖掘的整个过程,包括:数据收集、数据预处理、模式发现、模式分析及应用。 2.详述了硬K-均值聚类算法和模糊K-均值聚类算法的基本思想和算法步骤,对模糊K-均值聚类算法中的中心初始化问题进行了较为详细的研究,并提出了一种改进的有效性函数运用于中心初始化中,利用该有效性函数可以有效地发现最优中心数目。 3.提出了一种改进的Web用户和URL聚类方法,该算法有效地综合了用户浏览时间和访问次数,并且利用服务器日志进行了实验,证实了该算法的有效性。 4.详述了Web搜索引擎推荐中的主题关注度推荐思想。探讨了利用查询日志进行查询关键字的聚类分析,提出了一种改进的相似度函数,并利用人工数据进行了实验验证,证实该相似度函数可以更加准确地运用于关键字凝聚过程。最后,对所做的工作进行了归纳与总结,探讨了将来进一步的研究方向。

引用

页数：60

共 12 条

[1]

搜索引擎查询日志中的聚类算法研究 [J].