一种非均匀分布数据的非线性标准化方法

被引:7
作者
梁路
黎剑
霍颖翔
滕少华
机构
[1] 广东工业大学计算机学院
基金
广东省自然科学基金;
关键词
非均匀分布; 非线性标准化; 数据预处理;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
传统的数据标准化处理通常采用的是线性的变换方法,其在处理非均匀分布的数据集时,容易因局部区间内数据点间距过小导致后续的数据挖掘(尤其是基于距离的挖掘)结果不够精确。因此,为非均匀分布数据提出一种基于数据拟合的非线性变换标准化方法,该方法能够在不改变数据整体分布规律的前提下,依据统计找出对应的非线性变换函数,根据函数对各数据点的取值进行非线性放缩,将数据稠密的区间进行扩大的同时将数据稀疏的区间进行压缩,让挖掘的结果更加精确。实验采用BP(Back Propagation)神经网络、支持向量机(Support Vector Machine,SVM)、最近邻分类(K-Nearest Neighbor,KNN)3种经典分类算法结合不同的数据集进行了挖掘,结果表明,分类的错误率有不同程度的下降,同时F1度量有所提高。
引用
收藏
页码:264 / 269
页数:6
相关论文
共 4 条
  • [1] 信息抽取研究综述
    郭喜跃
    何婷婷
    [J]. 计算机科学, 2015, 42 (02) : 14 - 17+38
  • [2] 龙格现象难题破解之系数与阶次双确定方法
    张雨浓
    李名鸣
    陈锦浩
    劳稳超
    吴华荣
    [J]. 计算机工程与应用, 2013, 49 (03) : 44 - 49
  • [3] Data preprocessing techniques for classification without discrimination
    Kamiran, Faisal
    Calders, Toon
    [J]. KNOWLEDGE AND INFORMATION SYSTEMS, 2012, 33 (01) : 1 - 33
  • [4] Developing an Appropriate Data Normalization Method .2 B. Uragun,R. Rajan. 201110thInternational Conference on Machine Learning and Applications . 2011