改进的数据预处理算法及其应用

被引:6
作者
许必宵
陈升波
韩重阳
马梦环
宫婧
机构
[1] 南京邮电大学理学院
关键词
数据预处理; SNM算法; 层次聚类; 聚类分析;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
聚类分析是数据挖掘领域一项重要的课题。针对重复数据与孤立数据的预处理可以优化聚类结果。重复数据处理方面,文中在传统的重复数据查找算法SNM的基础上加入了伸缩窗口与变化移动速度的思想,提高了查找的准确率与效率;孤立数据方面,文中提出基于层次聚类分簇搜寻算法,算法利用层次聚类将数据分成独立的簇再依次搜寻孤立点提高了查询速率,并加入恢复检验的部分恢复被误删的非孤立点提高查找的准确率。实验仿真中,首先抽取部分数据验证了改进后的数据预处理算法的准确性,然后将数据预处理算法用于处理移动用户消费数据后再对数据进行聚类分析,从而达到对客户的归属地信息识别的目的。实验结果表明,文中提出的预处理算法具有很高的准确率与效率。
引用
收藏
页码:143 / 146+151 +151
页数:5
相关论文
共 10 条
[1]   基于层次聚类的离群点分析方法 [J].
张俊溪 ;
杨海粟 .
计算机技术与发展, 2014, 24 (08) :80-83
[2]   一种基于层次聚类的机场噪声数据挖掘方法 [J].
徐涛 ;
谢继文 ;
杨国庆 .
南京航空航天大学学报, 2013, 45 (05) :715-721
[3]   基于伸缩窗口和等级调整的SNM改进方法 [J].
陈爽 ;
刁兴春 ;
宋金玉 ;
曹建军 ;
丁晨路 .
计算机应用研究, 2013, 30 (09) :2736-2739
[4]   基于频数的孤立点检测研究 [J].
朱东生 ;
吴庆波 ;
谭郁松 .
计算机技术与发展, 2013, 23 (05) :10-13
[5]   基于层次聚类识别数据集前n个全局孤立点 [J].
梁斌梅 .
计算机工程与应用, 2012, (09) :101-103+107
[6]   对基于SNM数据清洗算法的优化 [J].
张建中 ;
方正 ;
熊拥军 ;
袁小一 .
中南大学学报(自然科学版), 2010, 41 (06) :2240-2245
[7]  
数据挖掘原理与算法.[M].毛国君等编著;.清华大学出版社.2005,
[8]  
模式识别.[M].边肇祺等编著;.清华大学出版社.2000,
[9]   The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis [J].
Huang, NE ;
Shen, Z ;
Long, SR ;
Wu, MLC ;
Shih, HH ;
Zheng, QN ;
Yen, NC ;
Tung, CC ;
Liu, HH .
PROCEEDINGS OF THE ROYAL SOCIETY A-MATHEMATICAL PHYSICAL AND ENGINEERING SCIENCES, 1998, 454 (1971) :903-995
[10]   Real-world data is dirty: Data cleansing and the merge/purge problem [J].
Hernandez, MA ;
Stolfo, SJ .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (01) :9-37