基于不完备数据聚类的缺失数据填补方法

被引:63
作者
武森 [1 ]
冯小东 [1 ]
单志广 [2 ]
机构
[1] 北京科技大学东凌经济管理学院管理科学与工程系
[2] 国家信息中心信息化研究部
关键词
数据填补; 不完备数据; 聚类; 约束容差集合差异度;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
缺失数据的处理是数据挖掘领域进行数据预处理的一个重要问题.传统的缺失数据填补方法大部分是基于概率分布等一些统计假设,对于大数据集的数据挖掘不一定是最适合的方法.受不完备数据分析(ROUSTIDA)未采用传统的概率统计学方法启发,提出基于不完备数据聚类的缺失数据填补方法(MIBOI),针对分类变量不完备数据集定义约束容差集合差异度,直接计算不完备数据对象集合内所有对象的总体相异程度,以不完备数据聚类的结果为基础进行缺失数据的填补.采用UCI机器学习基准数据集进行实验表明,MIBOI对缺失数据的填补是有效可行的.
引用
收藏
页码:1726 / 1738
页数:13
相关论文
共 12 条
[1]   基于动态概率路径事件模型的RFID数据填补算法 [J].
谷峪 ;
于戈 ;
李晓静 ;
王义 .
软件学报, 2010, 21 (03) :438-451
[2]   一种基于Rough集理论的不完备数据分析方法 [J].
张伟 ;
廖晓峰 ;
吴中福 .
模式识别与人工智能, 2003, 16 (02) :158-163
[3]  
Rough集理论与知识获取[M]. 西安交通大学出版社 , 王国胤编著, 2001
[4]   Latent class based multiple imputation approach for missing categorical data [J].
Gebregziabher, Mulugeta ;
DeSantis, Stacia M. .
JOURNAL OF STATISTICAL PLANNING AND INFERENCE, 2010, 140 (11) :3252-3262
[5]  
K nearest neighbours with mutual information for simultaneous classification and missing data imputation[J] . Pedro J. García-Laencina,José-Luis Sancho-Gómez,Aníbal R. Figueiras-Vidal,Michel Verleysen.Neurocomputing . 2009 (7)
[6]  
Rough set extensions in incomplete information systems[J] . Guoyin Wang,Lihe Guan,Feng Hu.Frontiers of Electrical and Electronic Engineering in China . 2008 (4)
[7]  
Missing inaction: the dangers of ignoring missing data[J] . Shinichi Nakagawa,Robert P. Freckleton.Trends in Ecology & Evolution . 2008 (11)
[8]   Good methods for coping with missing data in decision trees [J].
Twala, B. E. T. H. ;
Jones, M. C. ;
Hand, D. J. .
PATTERN RECOGNITION LETTERS, 2008, 29 (07) :950-956
[9]  
Estimating Missing Values from the General Social Survey: An Application of Multiple Imputation[J] . David A.Penn.Social Science Quarterly . 2007 (2)
[10]  
Review: A gentle introduction to imputation of missing values[J] . A. Rogier T. Donders,Geert J.M.G. van der Heijden,Theo Stijnen,Karel G.M. Moons.Journal of Clinical Epidemiology . 2006 (10)