一种基于语料特性的聚类算法

被引:8
作者
曾依灵 [1 ,2 ]
许洪波 [1 ]
吴高巍 [1 ]
白硕 [1 ]
机构
[1] 中国科学院计算技术研究所网络重点实验室
[2] 中国科学院研究生院
关键词
CADIC(clustering algorithm based on the distributions of intrinsic clusters); 文本聚类; 模型不匹配; 重标度; 信息检索;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
为寻求模型不匹配问题的一种恰当的解决途径,提出了基于语料分布特性的CADIC(clustering algorithm based on the distributions of intrinsic clusters)聚类算法.CADIC以重标度的形式隐式地将语料特性融入算法框架,从而使算法模型具备更灵活的适应能力.在聚类过程中,CADIC选择一组具有良好区分度的方向构建CADIC坐标系,在该坐标系下统计固有簇的分布特性,以构造各个坐标轴的重标度函数,并以重标度的形式对语料分布进行隐式的归一化,从而提高聚类决策的有效性.CADIC以迭代的方式收敛到最终解,其时间复杂度与K-means保持在同一量级.在国际知名评测语料上的实验结果表明,CADIC算法的基本框架是合理的,其聚类性能与当前领先水平的聚类算法相当.
引用
收藏
页码:2802 / 2813
页数:12
相关论文
共 1 条
  • [1] 文本聚类分析效果评价及文本表示研究.[D].周昭涛.中国科学院研究生院(计算技术研究所).2005, 02