Web日志挖掘中的会话识别算法

被引:12
作者
蔡浩
贾宇波
黄成伟
黄志强
机构
[1] 浙江理工大学信息电子学院
关键词
Web挖掘; 数据预处理; 会话识别; 时间阈值;
D O I
10.16208/j.issn1000-7024.2009.06.048
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确。针对Web日志挖掘中的会话识别问题,在最常用的Timeout方法的基础上,提出了一种改进的基于平均时间阈值的识别方法。通过动态计算会话中请求记录间的平均时间间隔,个性化地调整页面的时间阈值,相对于传统的对所有用户页面使用单一的先验阈值,该方法能够更准确地识别出长对话。最后对生成的侯选会话集进行二次识别,使识别出的会话更为合理有效。实验结果表明,会话质量得到了提高。
引用
收藏
页码:1321 / 1323+1390 +1390
页数:4
相关论文
共 6 条
[1]   Web日志预处理中会话识别的优化附视频 [J].
朱晋华 ;
陈俊杰 .
太原理工大学学报, 2008, (02) :111-114+122
[2]   一种基于引用日志文件的启发式会话识别算法 [J].
张海强 ;
胡学龙 .
扬州大学学报(自然科学版), 2007, (03) :57-61
[3]   一种Web日志会话识别的优化方法 [J].
陈子军 ;
王鑫昱 ;
李伟 .
计算机工程, 2007, (01) :95-97
[4]   Web使用挖掘数据预处理中的会话构造 [J].
欧阳一鸣 ;
汪曦东 ;
郭骏 ;
刘红樱 ;
不详 .
计算机工程与应用 , 2005, (25) :148-151
[5]   Web使用数据挖掘中数据预处理的研究 [J].
易敏昕 ;
汪胜 ;
张有仁 ;
陈宝树 .
计算机工程与应用, 2003, (24) :154-157
[6]   Web挖掘研究 [J].
韩家炜 ;
孟小峰 ;
王静 ;
李盛恩 ;
不详 .
计算机研究与发展 , 2001, (04) :405-414