基于排序熵的有序决策树高效算法研究

被引:0
作者
陈建凯
机构
[1] 河北大学
关键词
有序分类; 有序决策树; 排序熵; 非平衡割点; 并行;
D O I
暂无
年度学位
2014
学位类型
硕士
导师
摘要
基于排序熵的有序决策树归纳在选择扩展属性时,需要计算每个条件属性的每个割点的排序互信息,并通过比较这些排序互信息的大小来选择扩展属性,计算复杂度高,特别是在处理海量数据时,计算时间复杂度高会成为该算法的应用瓶颈。 针对以上问题,本文研究了如何提高有序决策树的计算效率,主要工作包括以下两个方面: 1.在选取扩展属性时,将割点分为平衡割点和非平衡割点两部分,建立了一个数学模型,从理论上证明了排序互信息最大值不会在平衡割点处达到,而只能在非平衡割点处达到。这个结果意味着算法在计算排序互信息时只需遍历非平衡割点,而无需计算平衡割点处的值,这样可提高有序决策树归纳的计算效率。 2.针对海量数据的有序分类问题,论文探讨了几种基于排序熵的有序决策树并行策略,并给出了基于MapReduce的有序决策树算法并行化方法,可使选择扩展属性的时间降低、算法的效率提高。 分别在人工数据集和实际数据集上进行了实验,实验结果表明本文提出的方法可提高有序决策树归纳的计算效率。
引用
收藏
页数:51
共 7 条
[1]
基于有序决策树的故障程度诊断研究 [D]. 
车勋建 .
哈尔滨工业大学,
2011
[2]
机器学习方法.[M].蒋艳凰; 赵强利; 编著.电子工业出版社.2009,
[3]
数据挖掘中的新方法.[M].邓乃扬;田英杰著;.科学出版社.2004,
[4]
支持向量机导论.[M].(英)NelloCristianini;(英)JohnShawe-Taylor著;李国正等译;.电子工业出版社.2004,
[5]
Information entropy for ordinal classification.[J]..Science China(Information Sciences).2010, 06
[6]
基于密度的增量式网格聚类算法(英文) [J].
陈宁 ;
陈安 ;
周龙骧 .
软件学报, 2002, (01) :1-7
[7]
Learning and classification of monotonic ordinal concepts..A. Ben-David;L. Sterling;Y. H. Pao;.Computational Intelligence.1989, 01