基于Web-Log Mining的Web文档聚类

被引:27
作者
苏中
马少平
杨强
张宏江
机构
[1] 清华大学计算机科学与技术系
[2] Simon Fraser大学
[3] 微软中国研究院 北京 清华大学智能技术与系统国家重点实验室
[4] 北京
[5] 北京 清华大学智能技术与系统国家重点实验室
[6] 加拿大
关键词
数据库; 聚类; Webmining; 数据挖掘;
D O I
10.13328/j.cnki.jos.2002.01.014
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
速度和效果是聚类算法面临的两大问题.DBSCAN(density based spatial clustering of applications with noise)是典型的基于密度的一种聚类方法,对于大型数据库的聚类实验显示了它在速度上的优越性.提出了一种基于密度的递归聚类算法(recursive density based clustering algorithm,简称RDBC),此算法可以智能地、动态地修改其密度参数.RDBC是基于DBSCAN的一种改进算法,其运算复杂度和DBSCAN相同.通过在Web文档上的聚类实验,结果表明,RDBC不但保留了DBSCAN高速度的优点,而且聚类效果大大优于DBSCAN.
引用
收藏
页码:99 / 104
页数:6
相关论文
共 6 条
[1]  
SLINK: an optimally efficient algorithm for the single-link cluster method. Sibson,R. TheComputerJournal . 1973
[2]  
Finding Groups in Data: An Introduction to Cluster Analysis. Kaufman L,Rousseeuw P. J. . 1990
[3]  
Efficient and effective clustering methods for data mining. Ng,R,Han,J. Proceedings of the1994InternationalConference onVeryLargeDataBases (VLDB94) . 1994
[4]  
A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. Martin Ester,Hans-Peter Kriegel el. Proceedings of 2nd international conference on knowledge discovery and data mining . 1996
[5]  
Implementing agglomerative hierarchical clustering algorithms for use in document retrieval. Voorhees,E.M. InformationProcessing andManagement . 1986
[6]  
On-Line clustering. Bouguettaya,A. IEEE Transactions onKnowledge andDataEngineering . 1996