Web数据挖掘中的数据预处理

被引：22

作者：

陈宝树

党齐民

机构：

[1] 华东理工大学计算机信息科学与工程学院

来源：

关键词：

使用者; 会话; 自适应; 个性化; Cookie; Web; 数据挖掘;

D O I：

暂无

中图分类号：

TP393.09 [];

学科分类号：

080402 ;

摘要：

WLP数据挖掘是分析网络应用的主要手段。其数据源一般是网络服务器日志,然而日志记录的是杂乱的、不完整的、不准确的并且Web是非结构化的数据,必须进行数据预处理。文章将预处理过程分为个阶段—数据清洗、区分使用者、会话识别,并提出了一个高效的3Web数据挖掘预处理结构和相应的算法。

引用

页码：125 / 127

页数：3

共 4 条

[1]

Data Preparation for Mining World Wide Web Browing Patterns. Cooley R,Mobasher B,Srivastava J. Journal of Knowledge and Information Systems . 1999

[2]

DetectingSessionBoundaries fromWebUserLogs. HeD,GokerA. Proceedings of the22ndAnnualColloquim ofIR Research(IRSG2000) . 2000

[3]

Measuring theAccuracy ofSessionizers forWebUsageAnalysis. BerendtB,MobasherB,SpiliopoulouM,et al. Int.SIAM Workshop onWebMining . 2001

[4]

CharacterizingBrowsingStrategies in theWorldWideWeb. CatledgeL,PitkowJ. . 1995