一种新的Web日志聚类算法的研究与实现

被引:2
作者
王羽婷
徐维祥
张翼
李华华
机构
[1] 北京交通大学交通运输学院
关键词
相异度; 凝聚聚类算法; 自适应聚类算法; 用户会话;
D O I
10.16652/j.issn.1004-373x.2007.24.053
中图分类号
TP301.6 [算法理论];
学科分类号
080201 [机械制造及其自动化];
摘要
传统的用于Web日志聚类的算法大都需要用户指定聚类个数。提出了一种新的自适应聚类算法并对Web日志用户会话进行聚类。该算法基于凝聚聚类思想和划分聚类思想,用初始数据集中每2个会话之间的相异度作为距离的度量,合并距离小于一定阈值的两个会话以产生初始聚类,再根据一定的规则动态地合并距离最小的会话类或会话,算法的结果是产生自然的聚类。最后,通过比较会话聚类的内部距离和类间距离来验证算法的有效性。这种聚类算法的最大优点在于,他能够产生自动的聚类,而不需要用户事先指定需要产生的聚类个数,并且能有效识别孤立点。实验表明,这种聚类能够产生较高质量的聚类效果。
引用
收藏
页码:139 / 142
页数:4
相关论文
共 2 条
[1]
CHARACTERIZING BROWSING STRATEGIES IN THE WORLD-WIDE-WEB [J].
CATLEDGE, LD ;
PITKOW, JE .
COMPUTER NETWORKS AND ISDN SYSTEMS, 1995, 27 (06) :1065-1073
[2]
数据挖掘原理.[M].(英) 汉德 (Hand;D.) ; 著.机械工业出版社.2003,