一种改进的Web访问日志数据预处理算法

被引:2
作者
林源泽
林世平
机构
[1] 福州大学 数学与计算机科学学院
关键词
Web使用挖掘; 数据预处理; 用户识别; 会话识别; 路径补充; 主题规约;
D O I
暂无
中图分类号
TP393.08 [];
学科分类号
0839 ; 1402 ;
摘要
数据预处理是Web使用挖掘的一个关键环节,其结果直接影响到后续的事务识别、路径分析、关联规则挖掘和序列模式挖掘的结果。提出了一种用户识别的通用算法、路径补充的启发式策略和基于主题规约的方法,并用实验证明了其高效性。
引用
收藏
页码:101 / 104
页数:4
相关论文
共 7 条
[1]  
Characterizing Browsing Behaviors on the World Wide Web. L Catledge,J Pitkow. Computer Networks . 1995
[2]  
The Impact of Site Structure and User Environment on Session Reconstruction in Web Usage Analysis. B Berendt,B Mobasher,M Nakagawa,et al. Proceedings of the 4th WebKDD 2002 Workshop,at the ACM-SIGKDD Conference on Knowledge Discovery in Databases(KDD‘2000) . 2002
[3]  
Capturing User Access Patterns in the Web for Data Mining. I Y Lin,X M Huang,M S Chen. Proceedings of the 11th IEEE International Conference Tools with Artificial Intelligence . 1999
[4]  
In Search of Reliable Usage Data on the WWW. J Pitkow. Pro-ceedings of the Sixth International WWW Confemce . 1997
[5]  
Data Preparation for Mining World Wide Web Browsing Pattems. R Cooley,B Mobasher,J Srivastava. Knowledge and Information Systems . 1999
[6]  
The common log file format. http://www.w3.org/TR/WD-log-file.html .
[7]  
Advanced data preprocessing for intersites web usage mining. D Tanasa ,,B Trousse. IEEE Intelligent Systems . 2004