Web日志的高效多能挖掘算法

被引:104
作者
宋擒豹
沈钧毅
机构
[1] 西安交通大学计算机科学与技术系!西安
关键词
客户群体聚类; Web页面聚类; 频繁访问路径; Web日志挖掘; 电子商务;
D O I
暂无
中图分类号
TP393 [计算机网络];
学科分类号
081201 ; 1201 ;
摘要
通过对 Web服务器日志文件和客户交易数据进行分析 ,可以发现相似客户群体、相关 Web页面和频繁访问路径 .提出了一种新颖的 Web日志挖掘算法 .在该算法中 ,首先以 Web站点 URL 为行、以 User ID为列建立URL- User ID关联矩阵 ,元素值为用户的访问次数 ,然后 ,对列向量进行相似性分析得到相似客户群体 ,对行向量进行相似性度量获得相关 Web页面 ,对后者再进一步处理还可以发现频繁访问路径 .实验结果表明了算法的有效性
引用
收藏
页码:328 / 333
页数:6
相关论文
共 7 条
[1]  
Grouping Web page references into transactions for mining World Wide Web browsing patterns. Cooley R,Mobasher B,Srivastava J. . 1997
[2]  
Net analysis desktop. Net Genesis Corp. http://www.netgen.com . 1996
[3]  
Open market Web reporter. Open Market Inc. http://www.openmarket.com . 1996
[4]  
Web Mining: Pattern Discovery From World Wide Web Transaction. Mobasher B,Jain N,Han E,et al. Technical Report TR-96050 . 1996
[5]  
Discovering Web Access Patterns and Trends by Applying OLAP and Data Mining Technology on Web Logs. Zaiane OR,Xin M,Han J. Proceedings of Advances in Digital Libraries Conference (ADL’98) . 1998
[6]  
Webtrends. Software Inc. http://www.webtrends.com . 1995
[7]  
Data mining for path Traversal patterns in a Web environment. Chen M S,Park J S,Yu P S. Proceedings of the 16th International Conference on Distributed Computing Systems . 1996