一种文本聚类算法

被引:2
作者
李向军
徐国华
刘立平
机构
[1] 西安电子科技大学机电工程学院
[2] 东莞理工学院计算机科学与技术系
关键词
文本聚类; 数据挖掘; 簇; 相似度; 密度;
D O I
10.16152/j.cnki.xdxbzr.2005.02.008
中图分类号
TP301.6 [算法理论];
学科分类号
摘要
目的通过对现有聚类常用算法的研究,给出一种适用于大规模中文文本数据集聚类的算法DBTC(density basedtextclustering)。方法采用在DBSCAN算法基础上改进提出的DBTC算法,对中文文本数据集进行聚类。结果DBTC算法可以发现任意形状的簇,对中文文本聚类的准确率高达80%以上。结论经过分析和实验证明DBTC算法比基本的DBSCAN算法更适合于大规模数据集。
引用
收藏
页码:155 / 158
页数:4
相关论文
共 3 条
[1]   数据库中的知识发现 [J].
陈莉 .
西北大学学报(自然科学版), 1999, (01) :9-11
[2]  
关联规则挖掘算法研究.[D].高飞.西安电子科技大学.2001, 01
[3]  
数据挖掘.[M].朱明编著;.中国科学技术大学出版社.2002,