共 1 条
一种基于后缀树的中文网页层次聚类方法
被引:10
作者:
史庆伟
[1
]
赵政
[1
]
朝柯
[2
]
机构:
[1] 天津大学计算机学院
[2] 阜新市气象局
来源:
关键词:
Web挖掘;
层次聚类;
Web搜索;
后缀树;
D O I:
暂无
中图分类号:
TP393.092 [];
TP301.6 [算法理论];
学科分类号:
摘要:
为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比,聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。
引用
收藏
页码:890 / 892
页数:3
相关论文