大规模短文本的不完全聚类

被引:93
作者
彭泽映 [1 ]
俞晓明 [1 ]
许洪波 [1 ]
刘春阳 [2 ]
机构
[1] 中国科学院计算技术研究所
[2] 国家计算机网络应急技术处理协调中心
关键词
短文本; 聚类分析; 不完全聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
聚类分析是数据挖掘的一个重要手段,人们可以通过聚类发现信息中潜在的热点或规律。至今,已经有大量聚类算法被研究和提出。随着互联网的日益普及,查询日志、Twitter等短文本信息逐渐在人们生活中起着越来越重要的作用。这类短文本信息数量巨大,通常可达到千万乃至亿级,现有的聚类算法在对这类大规模短文本信息进行聚类分析时往往显得异常无力。该文通过对实际应用中的短文本信息进行实验分析,发现了这类数据类别所具有的"长尾现象",并由此提出了不完全聚类思想,可以有效地提高这类短文本信息的聚类性能。
引用
收藏
页码:54 / 59
页数:6
相关论文
共 3 条
[1]
基于免疫的中文网络短文本聚类算法.[J].贺涛;曹先彬;谭辉;.自动化学报.2009, 07
[2]
面向变异短文本的快速聚类算法 [J].
黄永光 ;
刘挺 ;
车万翔 ;
胡晓光 .
中文信息学报, 2007, (02) :63-68
[3]
Data clustering.[J].A. K. Jain;M. N. Murty;P. J. Flynn.ACM Computing Surveys (CSUR).1999, 3