数据挖掘中的决策树方法及其在客户分类中的应用

被引:0
作者
孙弢
机构
[1] 大连理工大学
关键词
数据挖掘; 决策树; 客户分类; 信息熵; 信息增益; 信息增益度;
D O I
暂无
年度学位
2004
学位类型
硕士
导师
摘要
针对性地收集客户资源,对客户资源的有效维护和使用,是直销企业管理中的核心问题。我国加入WTO后,开放直销市场的日期日益临近,2004年10月1日我国的直销法即将出台,外资直销企业和国外的直销产品将陆续进入中国,对我国的直销市场形成强烈冲击。在这种情况下,我国的直销企业如何快速构建完善的管理基础,特别是客户资源管理体系是当务之急。 本文以典型的直销企业大连理工领先生物工程有限公司业务中的客户资源管理为对象,利用决策树方法对客户资源进行客户分类,挖掘出理想客户。 决策树方法的核心算法是ID3算法。它的缺陷是易偏向于取值较多的属性,而取值较多的属性却不总是最优的属性。本文在利用ID3算法建立决策树的过程中,提出了信息增益度优化算法,在一定程度上克服了ID3算法取值偏向问题,得到了较为理想的决策树分类模型。 另外在对数值连续型数据离散化,即对数据进行二元分裂时,本文用分类准确率替代了原来的信息增益,使计算大大简化。
引用
收藏
页数:48
共 5 条
[1]
Induction of decision trees.[J].J. R. Quinlan.Machine Learning.1986, 1
[2]
AE1 - AN EXTENSION MATRIX APPROXIMATE METHOD FOR THE GENERAL COVERING PROBLEM [J].
HONG, JR .
INTERNATIONAL JOURNAL OF COMPUTER & INFORMATION SCIENCES, 1985, 14 (06) :421-437
[3]
数据挖掘与OLAP理论与实务.[M].林杰斌等编著;.清华大学出版社.2003,
[4]
知识发现.[M].史忠植著;.清华大学出版社.2002,
[5]
计算机密码学.[M].卢开澄编著;.清华大学出版社.1998,