基于Web日志挖掘的个性化推荐研究

被引：0

作者：

张海鹏

机构：

[1] 重庆大学

关键词：

Web日志挖掘; 个性化推荐; 数据预处理; 兴趣度; 兴趣聚类;

D O I：

暂无

年度学位：

2007

学位类型：

硕士

导师：

李烈彪;

摘要：

随着Internet应用的迅速发展,网上信息迅速增长,信息种类也越来越多,人们面对太多的信息无法选择和消化,此种现象称为信息过载。Internet上信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难,也就是所谓的信息迷失。当前主要采用搜索引擎来检索Web上的信息,大多数搜索引擎缺乏主动性,未考虑个体用户的兴趣偏好,因而未能有效地解决信息过载和信息迷失的问题。为了有效地解决信息过载和信息迷失给人们带来的种种困扰。最近研究者们提出了一种被认为能有效解决这些问题的技术-Web个性化服务技术。 Web日志挖掘是将数据挖掘技术作用于Web服务器日志文件等获得有关用户访问行为的知识。这些知识可以服务于Web站点的服务提供方和访问者,进而改进Web站点设计以方便用户使用,提高Web服务器的性能,增加个性化服务等。基于Web日志挖掘的个性化服务是目前Web个性化服务中应用和研究的关键技术,主要是利用Web日志挖掘的相关技术为不同的用户采取不同的服务策略,提供不同的服务内容,开展个性化服务。本论文在较为系统地分析Web日志挖掘中数据处理方法的基础上,针对用户访问兴趣度表示的不足,提出一种基于用户浏览时间和浏览页面关键字的度量方法,能较好的表示用户访问兴趣。提出基于兴趣聚类的个性化网页推荐方法。对比K-path聚类,兴趣聚类提出了更有效的路径相似度函数,采用了竞争凝聚思想,能够自动确定最佳的聚类数目。并对推荐算法中的相似度函数进行改进;利用关联规则发现得到页面推荐集,设计一个基于该算法的个性化推荐系统模型。通过实验表明本文的预处理算法可以很好的识别用户的访问情况,兴趣聚类算法在时间复杂度上优于K-path算法,改进的推荐算法可以提高推荐正确率,推荐准确率在87%左右,具有较高的准确性。本文的主要研究内容如下: ①Web日志挖掘中数据预处理方法的研究。详细研究和探讨了Web日志挖掘中数据预处理的整个过程及方法。包括:数据清洗、用户识别、会话识别、路径填充、事务识别等。 ②对用户访问兴趣的表示和度量进行了研究。分析了已有的度量用户访问兴趣方式的不足之处。提出一种基于用户浏览时间和浏览页面关键字的度量方法。 ③提出了一种基于用户访问兴趣的聚类算法(CCCA),并针对以往推荐方法的不足进行相应的改进。首先针对K-paths聚类算法的不足,提出更有效的路径相似度函数,采用竞争聚类思想,能够自动确定最佳的聚类数目。对推荐算法中的相似度函数进行改进,采用关联规则发现得到页面推荐集。 ④提出基于兴趣聚类的个性化推荐系统模型。系统分为离线和在线两个模块,能够为用户提供实时的个性化服务。 ⑤通过实验验证论文中日志数据预处理方法的正确性,兴趣聚类和个性化推荐方法优于改进前的方法。最后,对所做的工作进行了归纳于总结,展望将来进一步的研究工作。

引用

页数：68

共 12 条

[1]

Efficient Approximations for the Marginal Likelihood of Bayesian Networks with Hidden Variables [J].

David Maxwell Chickering ;

David Heckerman .

Machine Learning, 1997, 29 :181-212

[2]

Feature Weighting and Instance Selection for Collaborative Filtering: An Information-Theoretic Approach* [J].

Kai Yu ;

Xiaowei Xu ;

Martin Ester ;

Hans-Peter Kriegel .

Knowledge and Information Systems, 2003, 5 (2) :201-224

[3]

Discovery and evaluation of aggregate usage profiles for web personalization [J].

Mobasher, B ;

Dai, H ;

Luo, T ;

Nakagawa, M .

DATA MINING AND KNOWLEDGE DISCOVERY, 2002, 6 (01) :61-82

[4]

Automatic personalization based on Web usage mining.[J].Bamshad Mobasher;Robert Cooley;Jaideep Srivastava.Communications of the ACM.2000, 8

[5]

A framework for the evaluation of session reconstruction heuristics in web-usage analysis [J].

Spiliopoulou, M ;

Mobasher, B ;

Berendt, B ;

Nakagawa, M .

INFORMS JOURNAL ON COMPUTING, 2003, 15 (02) :171-190

[6]

Extensions to the k-means algorithm for clustering large data sets with categorical values [J].

Huang, ZX .

DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (03) :283-304

[7]

数据挖掘导论.[M].(美)Pang-NingTan;(美)MichaelSteinbach;(美)VipinKumar著;范明;范宏建等译;.人民邮电出版社.2006,

[8]

Horting Hatches an Egg: A New Graph-theoretic Approach to Collaborative Filtering..Wofl J;Aggarwal C;Wu K-L;and Yu P;.Proceedings of ACM SIGMOD International Conference on Knowledge Discovery & Data Mining.1999,

[9]

《计算机研究与发展》各类参考文献的著录格式及示例.[J]..计算机研究与发展.2004, 10

[10]

个性化服务技术综述 [J].

曾春 ;

邢春晓 ;

周立柱 .

软件学报, 2002, (10) :1952-1961

← 1 2 →