一种改进的密度偏差抽样算法

被引:6
作者
张建锦 [1 ]
吴渝 [1 ]
刘小霞 [2 ]
机构
[1] 重庆邮电大学计算机科学与技术研究所
[2] 北京邮电大学计算机科学与技术学院
关键词
数据挖掘; 偏差抽样; 聚类; 数据约简; 海量数据;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
随机抽样技术已经广泛应用于数据挖掘的各类算法中,它在处理分布均匀的数据集时非常有效,但在处理分布比较倾斜的数据集时容易丢失小的聚类。为此提出基于网格的密度偏差抽样算法,仅需要扫描一遍数据集就可以得到近似的密度偏差抽样。经实验测试分析表明,该算法不仅提高了聚类的正确性,而且抗噪声能力强、效率高,是解决海量数据挖掘的一种有效途径。
引用
收藏
页码:1695 / 1698
页数:4
相关论文
共 1 条
[1]  
Efficient biased sampling for approximate clustering and outlier detection in large datasets. KOLLIOS G,GUMOPULOS D,KOUDAS N,et al. IEEE Transactions on Knowledge and Data Engineer-ing . 2003