Web数据挖掘中的数据预处理

被引:22
作者
陈宝树
党齐民
机构
[1] 华东理工大学计算机信息科学与工程学院
关键词
使用者; 会话; 自适应; 个性化; Cookie; Web; 数据挖掘;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
WLP数据挖掘是分析网络应用的主要手段。其数据源一般是网络服务器日志,然而日志记录的是杂乱的、不完整的、不准确的并且Web是非结构化的数据,必须进行数据预处理。文章将预处理过程分为个阶段—数据清洗、区分使用者、会话识别,并提出了一个高效的3Web数据挖掘预处理结构和相应的算法。
引用
收藏
页码:125 / 127
页数:3
相关论文
共 4 条
[1]  
Data Preparation for Mining World Wide Web Browing Patterns. Cooley R,Mobasher B,Srivastava J. Journal of Knowledge and Information Systems . 1999
[2]  
DetectingSessionBoundaries fromWebUserLogs. HeD,GokerA. Proceedings of the22ndAnnualColloquim ofIR Research(IRSG2000) . 2000
[3]  
Measuring theAccuracy ofSessionizers forWebUsageAnalysis. BerendtB,MobasherB,SpiliopoulouM,et al. Int.SIAM Workshop onWebMining . 2001
[4]  
CharacterizingBrowsingStrategies in theWorldWideWeb. CatledgeL,PitkowJ. . 1995