学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于决策树的分类方法研究
被引:0
作者
:
论文数:
引用数:
h-index:
机构:
戴南
机构
:
[1]
南京师范大学
关键词
:
数据挖掘;
分类规则;
决策树;
分布式数据挖掘;
D O I
:
暂无
年度学位
:
2003
学位类型
:
硕士
导师
:
朱玉龙;
摘要
:
数据挖掘,又称数据库中的知识发现,是指从大型数据库或数据仓库中提取具有潜在应用价值的知识或模式。模式按其作用可分为两类:描述型模式和预测型模式。分类模式是一种重要的预测型模式。挖掘分类模式的方法有多种,如决策树方法、贝叶斯网络、遗传算法、基于关联的分类方法、粗糙集和k-最临近方法等等。 本文研究如何用决策树方法进行分类模式挖掘。文中详细阐述了几种极具代表性的决策树算法:包括使用信息熵原理分割样本集的ID3算法;可以处理连续属性和属性值空缺样本的C4.5算法;依据GINI系数寻找最佳分割并生成二叉决策树的CART算法;将树剪枝融入到建树过程中的PUBLIC算法;在决策树生成过程中加入人工智能和人为干预的基于人机交互的决策树生成方法;以及突破主存容量限制,具有良好的伸缩性和并行性的SLIQ和SPRINT算法。对这些算法的特点作了详细的分析和比较,指出了它们各自的优势和不足。文中对分布式环境下的决策树分类方法进行了描述,提出了分布式ID3算法。该算法在传统的ID3算法的基础上引进了新的数据结构:属性按类别分布表,使得算法具有可伸缩性和并行性。最后着重介绍了作者独立完成的一个决策树分类器。它使用的核心算法为可伸缩的ID3算法,分类器使用Microsoft Visual C++6.0开发。实验结果表明作者开发的分类器可以有效地生成决策树,建树时间随样本集个数呈线性增长,具有可伸缩性。
引用
收藏
页数:43
共 9 条
[1]
决策树算法的并行性研究
[J].
论文数:
引用数:
h-index:
机构:
郭景峰
;
米浦波
论文数:
0
引用数:
0
h-index:
0
机构:
燕山大学计算机科学系,燕山大学计算机科学系,燕山大学计算机科学系秦皇岛,秦皇岛,秦皇岛
米浦波
;
论文数:
引用数:
h-index:
机构:
刘国华
.
计算机工程,
2002,
(08)
:77
-78
[2]
数据挖掘中的数据分类算法综述
[J].
论文数:
引用数:
h-index:
机构:
刘红岩
;
论文数:
引用数:
h-index:
机构:
陈剑
;
论文数:
引用数:
h-index:
机构:
陈国青
.
清华大学学报(自然科学版),
2002,
(06)
:727
-730
[3]
基于信息增益的最佳属性集发现方法
[J].
钟宁
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学计算机软件新技术国家重点实验室,南京大学计算机软件新技术国家重点实验室,南京大学计算机软件新技术国家重点实验室江苏南京,江苏南京,江苏南京
钟宁
;
论文数:
引用数:
h-index:
机构:
尹旭日
;
论文数:
引用数:
h-index:
机构:
陈世福
.
小型微型计算机系统,
2002,
(04)
:444
-446
[4]
分布式并行数据挖掘系统的研究与实现
[J].
张学明
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学飞行器制造系
张学明
;
施法中
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学飞行器制造系
施法中
.
计算机工程与应用,
2002,
(04)
:198
-200
[5]
并行决策树算法的研究
[J].
田金兰
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系软件所
田金兰
;
赵庆玉
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系软件所
赵庆玉
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系软件所
不详
.
计算机工程与应用 ,
2001,
(20)
:112
-114+140
[6]
数据挖掘中决策树算法的探讨
[J].
唐华松
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学计算机系!广东广州,华南理工大学计算机系!广东广州
唐华松
;
论文数:
引用数:
h-index:
机构:
姚耀文
.
计算机应用研究,
2001,
(08)
:18
-19+22
[7]
决策树的优化算法
[J].
论文数:
引用数:
h-index:
机构:
刘小虎
;
论文数:
引用数:
h-index:
机构:
李生
.
软件学报,
1998,
(10)
[8]
PUBLIC: A decision tree classifier that integrates building and pruning
[J].
Rastogi, R
论文数:
0
引用数:
0
h-index:
0
机构:
Bell Labs, Murray Hill, NJ 07974 USA
Rastogi, R
;
Shim, K
论文数:
0
引用数:
0
h-index:
0
机构:
Bell Labs, Murray Hill, NJ 07974 USA
Shim, K
.
DATA MINING AND KNOWLEDGE DISCOVERY,
2000,
4
(04)
:315
-344
[9]
Induction of decision trees.[J].J. R. Quinlan.Machine Learning.1986, 1
←
1
→
共 9 条
[1]
决策树算法的并行性研究
[J].
论文数:
引用数:
h-index:
机构:
郭景峰
;
米浦波
论文数:
0
引用数:
0
h-index:
0
机构:
燕山大学计算机科学系,燕山大学计算机科学系,燕山大学计算机科学系秦皇岛,秦皇岛,秦皇岛
米浦波
;
论文数:
引用数:
h-index:
机构:
刘国华
.
计算机工程,
2002,
(08)
:77
-78
[2]
数据挖掘中的数据分类算法综述
[J].
论文数:
引用数:
h-index:
机构:
刘红岩
;
论文数:
引用数:
h-index:
机构:
陈剑
;
论文数:
引用数:
h-index:
机构:
陈国青
.
清华大学学报(自然科学版),
2002,
(06)
:727
-730
[3]
基于信息增益的最佳属性集发现方法
[J].
钟宁
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学计算机软件新技术国家重点实验室,南京大学计算机软件新技术国家重点实验室,南京大学计算机软件新技术国家重点实验室江苏南京,江苏南京,江苏南京
钟宁
;
论文数:
引用数:
h-index:
机构:
尹旭日
;
论文数:
引用数:
h-index:
机构:
陈世福
.
小型微型计算机系统,
2002,
(04)
:444
-446
[4]
分布式并行数据挖掘系统的研究与实现
[J].
张学明
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学飞行器制造系
张学明
;
施法中
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学飞行器制造系
施法中
.
计算机工程与应用,
2002,
(04)
:198
-200
[5]
并行决策树算法的研究
[J].
田金兰
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系软件所
田金兰
;
赵庆玉
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系软件所
赵庆玉
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系软件所
不详
.
计算机工程与应用 ,
2001,
(20)
:112
-114+140
[6]
数据挖掘中决策树算法的探讨
[J].
唐华松
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学计算机系!广东广州,华南理工大学计算机系!广东广州
唐华松
;
论文数:
引用数:
h-index:
机构:
姚耀文
.
计算机应用研究,
2001,
(08)
:18
-19+22
[7]
决策树的优化算法
[J].
论文数:
引用数:
h-index:
机构:
刘小虎
;
论文数:
引用数:
h-index:
机构:
李生
.
软件学报,
1998,
(10)
[8]
PUBLIC: A decision tree classifier that integrates building and pruning
[J].
Rastogi, R
论文数:
0
引用数:
0
h-index:
0
机构:
Bell Labs, Murray Hill, NJ 07974 USA
Rastogi, R
;
Shim, K
论文数:
0
引用数:
0
h-index:
0
机构:
Bell Labs, Murray Hill, NJ 07974 USA
Shim, K
.
DATA MINING AND KNOWLEDGE DISCOVERY,
2000,
4
(04)
:315
-344
[9]
Induction of decision trees.[J].J. R. Quinlan.Machine Learning.1986, 1
←
1
→