基于COSA算法的中文文本聚类

被引：17

作者：

谷波 ^{[1
]}

李济洪 ^{[2
]}

刘开瑛 ^{[1
]}

机构：

[1] 山西大学计算机与信息技术学院

[2] 山西大学计算中心

来源：

中文信息学报 | 2007年 / 06期

关键词：

计算机应用; 中文信息处理; 文本聚类; COSA算法; K-means算法;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

传统聚类算法在计算两个对象间的距离时,每个属性对距离的贡献相同。COSA(Clustering On Subsets of Attributes)算法[1]认为在不同的分组中,每个属性对计算距离所起的作用可能并不相等,因为不同分组中的对象可能在不同的属性子集上聚集。文献[1]在此基础上定义了新的距离,并提出了两种COSA算法:COSA1算法是一种分割的聚类算法;COSA2算法是一种层次聚类算法。为了对比COSA距离和传统的欧氏距离在文本聚类中的表现,本文对中文文本进行了分割聚类和层次聚类的实验。实验结果显示出COSA算法较基于欧氏距离的聚类算法有更好的性能,而且对于属性数的变化,COSA算法更加稳定。

引用

页码：65 / 70

页数：6