智能化数据预处理系统的研究与实现

被引:0
作者
魏霞
机构
[1] 华南理工大学
关键词
智能化; 数据预处理; 离散化; 知识库; 粗糙集; 主体;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
信息技术的研究与应用的高速发展,推动了数据挖掘技术的研究。目前关于数据预处理的研究已经取得了很多成果,在数据预处理不同阶段、不同问题的研究也涌现出了很多优秀的预处理工具和相应的预处理算法。在实际应用中,数据挖掘预处理工具的多样性、不可扩展性、预处理过程的复杂性和众多的预处理算法常常让数据挖掘使用者感到困惑,越来越庞大而杂乱的数据和越来越多可供选择的数据预处理技术要求终端用户掌握大量的数据挖掘知识和业务知识,这给用户造成很大的负担,并且会因为用户对挖掘知识的掌握程度的不同而产生偏差。针对这些问题,本文对数据预处理的智能推荐应用做了一定的研究。智能化主要体现在两个方面:预处理过程的智能化和预处理过程中算法选择的智能化。 针对这两个方面,论文的主要工作和创新点如下: 1、研究了数据挖掘中数据预处理过程中的不同技术,分析具体预处理算法的特点并得到相应的智能推荐方案; 2、构造一个多agent架构的数据预处理整体框架,解决现有的数据预处理系统通用性差、不易扩展和对资源调度不够充分的问题。框架将预处理算法、用户交互、系统调度等功能集成在整个系统中;系统中还设计了不同算法的推荐知识库,该知识库不断完善,使该框架具有开放性和可扩充性,可为不同背景下的预处理任务提供支持; 3、针对数据预处理系统的智能化问题,引入多Agent技术,提出了一个基于Agent的知识发现模型,用Agent来描述数据预处理过程的各个部分,整个预处理过程即是一个多Agent系统; 4、引入智能化推荐模型,用知识库方式为用户提供一个科学的算法推荐方案,通过粗糙集理论对知识的分类能力,可以实现算法的智能推荐。 5、设计并实现了一个基于以上框架的系统原型,系统采用agent架构,并实现了离散化智能推荐功能。
引用
收藏
页数:74
共 27 条
[1]
数据挖掘中的数据预处理 [D]. 
关大伟 .
吉林大学,
2006
[2]
基于多Agent的分布式信息审计平台的设计与实现 [D]. 
王强 .
南京航空航天大学,
2006
[3]
面向主体的软件开发.[M].毛新军编著;.清华大学出版社.2005,
[4]
数据挖掘原理与算法.[M].毛国君等编著;.清华大学出版社.2005,
[5]
Knowledge reduction based on the equivalence relations defined on attribute set and its power set [J].
Wei, Ling ;
Li, Hong-Ru ;
Zhang, Wen-Xiu .
INFORMATION SCIENCES, 2007, 177 (15) :3178-3185
[6]
A new approach to attribute reduction of consistent and inconsistent covering decision systems with covering rough sets [J].
Chen Degang ;
Wang Changzhong ;
Hu Qinghua .
INFORMATION SCIENCES, 2007, 177 (17) :3500-3518
[7]
A comparative study of algebra viewpoint and information viewpoint in attribute reduction [J].
Wang, GY ;
Zhao, J ;
An, JJ ;
Wu, Y .
FUNDAMENTA INFORMATICAE, 2005, 68 (03) :289-301
[8]
Distributed data mining and agents [J].
da Silva, JC ;
Giannella, C ;
Bhargava, R ;
Kargupta, H ;
Klusch, M .
ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE, 2005, 18 (07) :791-807
[9]
Discretization: An enabling technique [J].
Liu, H ;
Hussain, F ;
Tan, CL ;
Dash, M .
DATA MINING AND KNOWLEDGE DISCOVERY, 2002, 6 (04) :393-423
[10]
ROUGH SETS [J].
PAWLAK, Z .
INTERNATIONAL JOURNAL OF COMPUTER & INFORMATION SCIENCES, 1982, 11 (05) :341-356