数据挖掘在糖尿病数据中的应用研究

被引：0

作者：

成华

机构：

[1] 中国科学院研究生院（软件研究所）

关键词：

数据挖掘; 知识发现; II型糖尿病; 生物信息学; 决策树; C4.5;

D O I：

暂无

年度学位：

2003

学位类型：

硕士

导师：

顾毓清;

摘要：

随着社会经济的进步与发展，威胁人类健康的疾病谱正在变化。慢性非传染性疾病对国民、尤其是老年人群的健康的威胁越来越大，最为明显的是2型糖尿病在全球范围内的几近流行的上升趋势。2型糖尿病的隐匿起病、患病率随年龄增大而增加等特点表明这一疾病发展为一渐进型糖尿病，对发病进行控制首先涉及对这一疾病的了解。了解这一疾病发生发展的规律，针对重要途径、重点人群入手，才能达到理想的预防和诊断效果。探讨2型糖尿病发病规律是控制其发生的重要、基础的一步。对控制糖尿病这类非传染性疾病的传统研究用的是线性还原式的研究方法，但这种方法现在看来，存在着相当的局限性。针对传统研究的局限性，本文尝试用生物信息学的思想来发现规律。数据挖掘是生物信息学的一个主要技术，本文将数据挖掘算法引入2型糖尿病的发病规律研究中，希望从大量的糖尿病数据中学习2型糖尿病的发病规律的知识，挖掘出我们需要的数据和规则，构造糖尿病的分类和预测系统。糖尿病的原始数据来源于对患者和随机人群的健康调查。健康调查表的内容经过适当的转换存入数据库作为原始数据。针对这些数据的不完整性、有噪声性和不一致性，本文用数据清理、数据变换、数据归约等数据挖掘的预处理技术处理这些原始数据。本文数据挖掘的任务是从众多的糖尿病数据中挖掘出致病规律，为糖尿病的预防，诊断和预测构造决策系统。由挖掘任务的分类性和对挖掘算法的要求，本文选用了决策树方法来进行数据挖掘。同时，由于糖尿病数据的连续性，选用了决策树方法中的C4．5算法作为数据挖掘算法。在实现C4．5算法的基础上，本文在糖尿病数据上进行了发病规律的学习和规则提取，在预处理过的糖尿病数据的基础上生成了一组糖尿病的诊断与预测规则。并用分类法的保持评判方法评判其正确率。针对上述决策树对患病人群的正确率不够理想的情况，提出了以训练集的比例因子变量为参数，试验了患病人群的正确率和正确率均值随比例因子变量的变化关系，给出了一个经过改进的分类器和判定患病人群的解决方案。

引用

页数：79

共 8 条

[1]

A WEIGHTED NEAREST NEIGHBOR ALGORITHM FOR LEARNING WITH SYMBOLIC FEATURES [J].