网络日志挖掘中基于时间间隔的会话切分

被引:24
作者
庄力可
寇忠宝
张长水
机构
[1] 清华大学自动化系
关键词
数据库理论; 网络日志挖掘; 会话切分; 时间间隔; 频率矢量;
D O I
10.16511/j.cnki.qhdxxb.2005.01.030
中图分类号
TP393.02 [];
学科分类号
摘要
针对网络日志挖掘中的会话切分问题,提出了一种基于时间间隔的方法。该方法在相邻页面访问时间间隔超出某阈值时切分会话,针对特定IP的阈值根据其频率矢量来定义。实验表明:代理服务器IP和单用户IP的频率矢量具有不同特性,代理服务器IP的频率矢量具有Power-law的特点,而单用户IP的频率矢量具有Gauss分布的特点,在此基础上提出一种基于Gauss假设的方法来设定不同单用户IP的阈值。与传统的对所有IP地址使用单一的先验阈值进行切分的方法相比,该方法更为合理有效。
引用
收藏
页码:115 / 118
页数:4
相关论文
共 1 条
[1]  
The nature of markets in the World Wide Web .2 Huberman B A,Adamic L A. Q uarterly J Economic Commerce . 2000