大数据环境下多决策表的区间值全局近似约简

被引:23
作者
徐菲菲 [1 ]
雷景生 [1 ]
毕忠勤 [1 ]
苗夺谦 [2 ]
杜海舟 [1 ]
机构
[1] 上海电力学院计算机科学与技术学院
[2] 同济大学电子与信息工程学院
基金
上海市自然科学基金;
关键词
大数据; 区间值; 近似约简; 多决策表; 全局约简;
D O I
10.13328/j.cnki.jos.004640
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
在电力大数据中,很多具体的应用如负荷预测、故障诊断都需要依据一段时间内的数据变化来判断所属类别,对某一条数据进行类别判定是毫无意义的.基于此,将区间值粗糙集引入到大数据分类问题中,分别从代数观和信息观提出了基于属性依赖度和基于互信息的区间值启发式约简相关定义和性质证明,并给出相应算法,丰富和发展了区间值粗糙集理论,同时为大数据的分析研究提供了思路.针对大数据的分布式存储架构,又提出了多决策表的区间值全局约简概念和性质证明,进一步给出多决策表的区间值全局约简算法.为了使得算法在实际应用中取得更好的效果,将近似约简概念引入所提的3种算法中,通过对2012上半年某电厂一台600MW的机组运行数据进行稳态判定,验证所提算法的有效性.实验结果表明,所提的3种算法均能在保持较高分类准确率的条件下从对象和属性个数两方面对数据集进行大幅度缩减,从而为大数据的进一步分析处理提供支撑.
引用
收藏
页码:2119 / 2135
页数:17
相关论文
共 21 条
[1]   大数据流式计算:关键技术及系统实例 [J].
孙大为 ;
张广艳 ;
郑纬民 .
软件学报, 2014, 25 (04) :839-862
[2]   网络大数据:现状与展望 [J].
王元卓 ;
靳小龙 ;
程学旗 .
计算机学报, 2013, 36 (06) :1125-1138
[3]   大数据的一个重要方面:数据可用性 [J].
李建中 ;
刘显敏 .
计算机研究与发展, 2013, 50 (06) :1147-1162
[4]   支持大数据管理的NoSQL系统研究综述 [J].
申德荣 ;
于戈 ;
王习特 ;
聂铁铮 ;
寇月 .
软件学报, 2013, 24 (08) :1786-1803
[5]   一种基于模糊聚类的区间值属性约简算法 [J].
郭庆 ;
刘文军 ;
焦贤发 ;
吴磊 .
模糊系统与数学, 2013, 27 (01) :149-153
[6]   大数据管理:概念、技术与挑战 [J].
孟小峰 ;
慈祥 .
计算机研究与发展, 2013, 50 (01) :146-169
[7]   大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考 [J].
李国杰 ;
程学旗 .
中国科学院院刊, 2012, 27 (06) :647-657
[8]   MapReduce框架下并行知识约简算法模型研究 [J].
钱进 ;
苗夺谦 ;
张泽华 ;
张志飞 .
计算机科学与探索, 2013, 7 (01) :35-45
[9]   架构大数据:挑战、现状与展望 [J].
王珊 ;
王会举 ;
覃雄派 ;
周烜 .
计算机学报, 2011, 34 (10) :1741-1752
[10]   基于模糊区分矩阵的区间值信息系统属性约简 [J].
龚伟林 ;
李德玉 ;
王素格 ;
程利涛 .
山西大学学报(自然科学版), 2011, 34 (03) :381-387