一种基于后缀树的中文网页层次聚类方法

被引:10
作者
史庆伟 [1 ]
赵政 [1 ]
朝柯 [2 ]
机构
[1] 天津大学计算机学院
[2] 阜新市气象局
关键词
Web挖掘; 层次聚类; Web搜索; 后缀树;
D O I
暂无
中图分类号
TP393.092 []; TP301.6 [算法理论];
学科分类号
摘要
为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比,聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。
引用
收藏
页码:890 / 892
页数:3
相关论文
共 1 条
[1]   一种基于划分的聚类算法分析与改进 [J].
郭伟 ;
唐晓君 ;
刘万军 .
辽宁工程技术大学学报, 2004, (06) :826-828