基于Web日志的用户访问模式挖掘

被引:0
作者
赵伟
机构
[1] 天津大学
关键词
日志挖掘; 聚类; 序列模式; 用户访问模式;
D O I
暂无
年度学位
2004
学位类型
硕士
导师
摘要
在Web数据挖掘研究领域中,Web日志挖掘是最重要的应用研究方向之一。Web日志挖掘的目的是找出网站用户的访问模式,这一过程主要包含四个步骤:数据采集、日志预处理、模式识别和模式分析。 我们从原始的访问日志中提取出自己所需要的信息,插入到数据库中;并根据特定的启发式规则确定用户,提取出每一个用户的访问序列;然后应用聚类技术中的DBSCAN算法将用户访问过的网页聚类;再将对某一类网页或者某几类网页感兴趣的所有访问用户聚成一类。这样,就实现了对用户的聚类。接下来,我们根据序列模式挖掘理论,应用GSP算法挖掘出每一类用户的访问模式。 通过对每一类用户的访问模式进行分析,我们可以调整网站的拓扑结构,提高网站的访问量;构造自适应网站;改善页面缓冲和预取的策略,提高访问速度;还可以用于监视非法登录等。
引用
收藏
页数:52
共 6 条
[1]
Web用户访问模式挖掘研究 [J].
陈新中 ;
李岩 ;
杨炳儒 .
计算机科学, 2003, (03) :27-29+43
[2]
Web用户模式 [J].
严彩梅 .
扬州大学学报(自然科学版), 2002, (03) :53-56
[3]
基于Web使用挖掘的个性化服务系统 [J].
石晶 ;
龚震宇 ;
裘杭萍 .
电子科技大学学报, 2002, (04) :399-403
[4]
Web数据挖掘 [J].
王实 ;
高文 ;
李锦涛 .
计算机科学, 2000, (04) :28-31+41
[5]
SPADE: An efficient algorithm for mining frequent sequences [J].
Zaki, MJ .
MACHINE LEARNING, 2001, 42 (1-2) :31-60
[6]
Discovery of frequent episodes in event sequences [J].
Mannila, H ;
Toivonen, H ;
Verkamo, AI .
DATA MINING AND KNOWLEDGE DISCOVERY, 1997, 1 (03) :259-289