基于Web日志挖掘的个性化推荐研究

被引:0
作者
张海鹏
机构
[1] 重庆大学
关键词
Web日志挖掘; 个性化推荐; 数据预处理; 兴趣度; 兴趣聚类;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
随着Internet应用的迅速发展,网上信息迅速增长,信息种类也越来越多,人们面对太多的信息无法选择和消化,此种现象称为信息过载。Internet上信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难,也就是所谓的信息迷失。当前主要采用搜索引擎来检索Web上的信息,大多数搜索引擎缺乏主动性,未考虑个体用户的兴趣偏好,因而未能有效地解决信息过载和信息迷失的问题。为了有效地解决信息过载和信息迷失给人们带来的种种困扰。最近研究者们提出了一种被认为能有效解决这些问题的技术-Web个性化服务技术。 Web日志挖掘是将数据挖掘技术作用于Web服务器日志文件等获得有关用户访问行为的知识。这些知识可以服务于Web站点的服务提供方和访问者,进而改进Web站点设计以方便用户使用,提高Web服务器的性能,增加个性化服务等。基于Web日志挖掘的个性化服务是目前Web个性化服务中应用和研究的关键技术,主要是利用Web日志挖掘的相关技术为不同的用户采取不同的服务策略,提供不同的服务内容,开展个性化服务。 本论文在较为系统地分析Web日志挖掘中数据处理方法的基础上,针对用户访问兴趣度表示的不足,提出一种基于用户浏览时间和浏览页面关键字的度量方法,能较好的表示用户访问兴趣。提出基于兴趣聚类的个性化网页推荐方法。对比K-path聚类,兴趣聚类提出了更有效的路径相似度函数,采用了竞争凝聚思想,能够自动确定最佳的聚类数目。并对推荐算法中的相似度函数进行改进;利用关联规则发现得到页面推荐集,设计一个基于该算法的个性化推荐系统模型。通过实验表明本文的预处理算法可以很好的识别用户的访问情况,兴趣聚类算法在时间复杂度上优于K-path算法,改进的推荐算法可以提高推荐正确率,推荐准确率在87%左右,具有较高的准确性。 本文的主要研究内容如下: ①Web日志挖掘中数据预处理方法的研究。详细研究和探讨了Web日志挖掘中数据预处理的整个过程及方法。包括:数据清洗、用户识别、会话识别、路径填充、事务识别等。 ②对用户访问兴趣的表示和度量进行了研究。分析了已有的度量用户访问兴趣方式的不足之处。提出一种基于用户浏览时间和浏览页面关键字的度量方法。 ③提出了一种基于用户访问兴趣的聚类算法(CCCA),并针对以往推荐方法的不足进行相应的改进。首先针对K-paths聚类算法的不足,提出更有效的路径相似度函数,采用竞争聚类思想,能够自动确定最佳的聚类数目。对推荐算法中的相似度函数进行改进,采用关联规则发现得到页面推荐集。 ④提出基于兴趣聚类的个性化推荐系统模型。系统分为离线和在线两个模块,能够为用户提供实时的个性化服务。 ⑤通过实验验证论文中日志数据预处理方法的正确性,兴趣聚类和个性化推荐方法优于改进前的方法。 最后,对所做的工作进行了归纳于总结,展望将来进一步的研究工作。
引用
收藏
页数:68
共 12 条
[1]
Efficient Approximations for the Marginal Likelihood of Bayesian Networks with Hidden Variables [J].
David Maxwell Chickering ;
David Heckerman .
Machine Learning, 1997, 29 :181-212
[2]
Feature Weighting and Instance Selection for Collaborative Filtering: An Information-Theoretic Approach* [J].
Kai Yu ;
Xiaowei Xu ;
Martin Ester ;
Hans-Peter Kriegel .
Knowledge and Information Systems, 2003, 5 (2) :201-224
[3]
Discovery and evaluation of aggregate usage profiles for web personalization [J].
Mobasher, B ;
Dai, H ;
Luo, T ;
Nakagawa, M .
DATA MINING AND KNOWLEDGE DISCOVERY, 2002, 6 (01) :61-82
[4]
Automatic personalization based on Web usage mining.[J].Bamshad Mobasher;Robert Cooley;Jaideep Srivastava.Communications of the ACM.2000, 8
[5]
A framework for the evaluation of session reconstruction heuristics in web-usage analysis [J].
Spiliopoulou, M ;
Mobasher, B ;
Berendt, B ;
Nakagawa, M .
INFORMS JOURNAL ON COMPUTING, 2003, 15 (02) :171-190
[6]
Extensions to the k-means algorithm for clustering large data sets with categorical values [J].
Huang, ZX .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (03) :283-304
[7]
数据挖掘导论.[M].(美)Pang-NingTan;(美)MichaelSteinbach;(美)VipinKumar著;范明;范宏建等译;.人民邮电出版社.2006,
[8]
Horting Hatches an Egg: A New Graph-theoretic Approach to Collaborative Filtering..Wofl J;Aggarwal C;Wu K-L;and Yu P;.Proceedings of ACM SIGMOD International Conference on Knowledge Discovery & Data Mining.1999,
[9]
《计算机研究与发展》各类参考文献的著录格式及示例.[J]..计算机研究与发展.2004, 10
[10]
个性化服务技术综述 [J].
曾春 ;
邢春晓 ;
周立柱 .
软件学报, 2002, (10) :1952-1961