基于用户浏览内容的Web用户浏览行为个性化研究

被引:0
作者
潘延军
机构
[1] 天津大学
关键词
文本聚类; 用户兴趣模型; 数据挖掘; Web挖掘; 向量空间模型; 个性化服务;
D O I
暂无
年度学位
2005
学位类型
硕士
导师
摘要
互联网与WWW以惊人的速度迅猛发展,使得设计与维护Web站点的工作变得尤为重要。摆在研究人员面前的新课题是如何管理WWW上的大量信息,以满足用户不断增长的个性化的信息需求。个性化服务技术已经成为当前信息服务领域的研究热点之一。所谓个性化服务就是指对不同的用户采取不同的服务策略,提供不同的服务内容,其关键在于必须知道用户的兴趣,并准确地建立用户兴趣模型。 本文首先对数据挖掘技术进行了阐述,进而分析了当前主要的Web挖掘技术和用户兴趣建模技术,提出了以Web用户浏览内容分析为主和以浏览行为分析为辅的用户兴趣挖掘过程模型。然后,初步研究和探讨了对文本页面的表示技术,包括:文本的向量空间模型表示、特征项的选择和抽取算法,将文本页面表示为结构化的向量空间模型格式。 接着,本文重点探讨了文本页面的聚类分析和用户兴趣模型的建立两个方面。通过文本之间的相似度计算,对文本集进行聚类分析。在比较了现有聚类算法和实际应用环境后,提出了将层次凝聚法(agglomerative algorithm)和平面划分法(K-means algorithm)相结合的新算法。在聚类结果的基础上,采用二层树状用户兴趣模型以加权矢量格式来表示每一个用户的兴趣。为了便于用户兴趣模型的使用和更新,每一兴趣类也采用向量空间模型来表示,内容页面与兴趣类的比较就可以采用常用的相似性函数来进行相似度计算。最后进行了模拟试验,使理论直观化了,具体化了。 通过试验也表明了本文所改进的聚类算法实现简单,准确率较高;提出的用户兴趣模型能较准确地描述用户兴趣所在,在个性化推荐服务中具有实际应用价值。
引用
收藏
页数:65
共 18 条
[1]
基于Web挖掘的个性化技术研究 [J].
冯是聪 ;
单松巍 ;
张志刚 ;
龚笔宏 ;
李晓明 .
计算机工程与设计, 2004, (01) :4-6
[2]
基于向量空间模型的中文信息检索技术研究 [J].
杨小平 ;
丁浩 ;
黄都培 ;
不详 .
计算机工程与应用 , 2003, (15) :109-111
[3]
信息过滤技术和个性化信息服务 [J].
徐小琳 ;
阙喜戎 ;
程时端 ;
不详 .
计算机工程与应用 , 2003, (09) :182-184
[4]
基于词频统计的个性化信息过滤技术 [J].
张国印 ;
陈先 ;
皮鹏 .
哈尔滨工程大学学报, 2003, (01) :63-67
[5]
基于粗糙集的数据概化算法 [J].
翁宜慧 ;
孙志挥 ;
赵传申 .
计算机工程, 2003, (04) :169-170+172
[6]
基于智能Agent的用户兴趣发现和更新 [J].
白丽君 ;
张永奎 ;
李荣陆 .
计算机工程, 2003, (02) :236-237
[7]
一种基于群体智能的Web文档聚类算法 [J].
吴斌 ;
傅伟鹏 ;
郑毅 ;
刘少辉 ;
史忠植 .
计算机研究与发展, 2002, (11) :1429-1435
[8]
数据挖掘在客户关系管理(CRM)中的应用 [J].
李宝东 ;
宋瀚涛 .
计算机应用研究, 2002, (10) :71-74
[9]
多信息块Web页面的信息抽取 [J].
王庆一 ;
王继成 ;
周源远 ;
袁春风 .
计算机应用研究, 2002, (10) :23-26
[10]
个性化服务技术综述 [J].
曾春 ;
邢春晓 ;
周立柱 .
软件学报, 2002, (10) :1952-1961