Web访问信息挖掘若干关键技术的研究

被引:0
作者
余轶军
机构
[1] 浙江大学
关键词
Web访问信息挖掘; 会话识别; 聚类度; 投票选举策略; 用户空间模型; 用户群; 兴趣度; 相关反馈; 反馈空间模型; 混合马尔可夫模型; 兴趣聚类; 竞争凝聚; 路径相似度; 个性化网页推荐; 站点自适应;
D O I
暂无
年度学位
2006
学位类型
博士
导师
摘要
当前,World Wide Web(简称WWW)正在从深度和广度方面飞速发展着。Internet在前所未有地改变我们的生活。而与此同时,WWW上的一些主要工作,例如Web站点设计、Web服务设计等工作也正变得越来越复杂和繁重。 WWW上存在着海量的Web访问信息。通过对Web访问信息进行有效的数据挖掘,可以获得有关用户访问行为的知识。这些知识可以服务于Web站点的服务提供方和访问者,进而改进Web站点设计以方便用户使用,提高Web服务器的性能,增加个性化服务等。总之,挖掘Web访问信息可以获取非常有价值的潜在信息。 目前,Web访问信息挖掘已经成为国际上一个新兴的重要研究领域,其研究工作具有非常重要的现实意义。 本文首先对Web访问信息的特性进行了系统、全面地归纳与分析,并对当前国内外的相关研究进行了分析与总结。然后在此基础上,对Web访问信息挖掘中的群体性及个性化两个领域进行了研究,主要研究成果为: 1.面向大量用户的群体性领域: 挖掘Web用户访问行为,把具有相似访问倾向的用户分类,提出用户空间模型,其元素为用户群。提出投票选举策略的模糊聚类算法并引入聚类度的概念,基于算法建立了用户空间模型。算法对比模糊C均值聚类算法,不仅在无监督给出类数方面具有较好的鲁棒性,而且得到的收敛中心更稳定,得到的聚类结果与实际需要更相符。用户空间模型是本文对用户群体特性研究的基础。 对群体用户在Web页面上的访问兴趣展开研究,提出混合马尔可夫模型,并将该模型引入到兴趣导航模式发现中,拓展了马尔可夫模型的应用领域。提出基于混合马尔可夫模型的用户群兴趣导航模式发现方法。方法解决了现有的用户导航模式发现方法发现的导航模式只代表了用户通过路径的访问次数,不能反映用户通过路径的访问时间,因此不能更真实地反映用户访问兴趣等问题。基于该模型的兴趣导航模式发现比采用传统马尔可夫模型可以获得更高的预测准确率以及预测覆盖率,能有效地提高用户访问网站的效率。 基于群体用户的访问特性,提出基于用户群的站点自适应模型。在模型中,提出基于放置策略和后退策略的自适应过程,并通过关联规则发现算法发现关联访问集合,将导航页面合理地变成导航访问页面,从而实现站点根据群体用户的访问情况进行自适应。模型的建立可以有效地减少用户的冗余访问。
引用
收藏
页数:133
共 18 条
[1]
Web multimedia information retrieval using improved Bayesian algorithm [J].
Yi-jun Yu ;
Chun Chen ;
Yi-min Yu ;
Huai-zhong Lin .
Journal of Zhejiang University-SCIENCE A, 2003, 4 (4) :415-420
[2]
Distributions of surfers' paths through the World Wide Web: Empirical characterizations.[J].Peter L.T. Pirolli;James E. Pitkow.World Wide Web.1999, 1
[3]
Discovery and evaluation of aggregate usage profiles for web personalization [J].
Mobasher, B ;
Dai, H ;
Luo, T ;
Nakagawa, M .
DATA MINING AND KNOWLEDGE DISCOVERY, 2002, 6 (01) :61-82
[4]
Extensions to the k-means algorithm for clustering large data sets with categorical values [J].
Huang, ZX .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (03) :283-304
[5]
基于新型的竞争型神经网络的Web日志挖掘 [J].
董一鸿 ;
庄越挺 .
计算机研究与发展, 2003, (05) :661-667
[6]
Web用户访问模式挖掘研究 [J].
陈新中 ;
李岩 ;
杨炳儒 .
计算机科学, 2003, (03) :27-29+43
[7]
数据挖掘的聚类方法 [J].
行小帅 ;
焦李成 .
电路与系统学报, 2003, (01) :59-67
[8]
文本聚类中权重计算的对偶性策略 [J].
卜东波 ;
白硕 ;
李国杰 .
软件学报, 2002, (11) :2083-2089
[9]
基于分类方法的Web站点实时个性化推荐 [J].
王实 ;
高文 ;
李锦涛 .
计算机学报, 2002, (08) :845-852
[10]
基于页面内容和站点结构的页面聚类挖掘算法 [J].
杨怡玲 ;
管旭东 ;
尤晋元 .
软件学报, 2002, (03) :467-469