一种文本聚类算法

被引：2

作者：

李向军

徐国华

刘立平

机构：

[1] 西安电子科技大学机电工程学院

[2] 东莞理工学院计算机科学与技术系

来源：

西北大学学报(自然科学版) | 2005年 / 02期

关键词：

文本聚类; 数据挖掘; 簇; 相似度; 密度;

D O I：

10.16152/j.cnki.xdxbzr.2005.02.008

中图分类号：

TP301.6 [算法理论];

学科分类号：

摘要：

目的通过对现有聚类常用算法的研究,给出一种适用于大规模中文文本数据集聚类的算法DBTC(density basedtextclustering)。方法采用在DBSCAN算法基础上改进提出的DBTC算法,对中文文本数据集进行聚类。结果DBTC算法可以发现任意形状的簇,对中文文本聚类的准确率高达80%以上。结论经过分析和实验证明DBTC算法比基本的DBSCAN算法更适合于大规模数据集。

引用

页码：155 / 158

页数：4