数据归约的统计方法研究及应用

被引:0
作者
刘云霞
机构
[1] 厦门大学
关键词
数据归约; 数据挖掘; 统计学;
D O I
暂无
年度学位
2007
学位类型
博士
导师
摘要
数据归约是数据挖掘过程的关键环节,因此对数据归约技术的研究具有重要的意义。当前已有的数据归约方法多偏重于有监督学习,而无监督情形下归约方法的研究还相对不够丰富。鉴于这种情况,本论文的重点内容是尝试对无监督数据归约的统计方法及其应用进行研究。 在本论文第一章中,首先阐述了选题的研究背景和研究意义。之后,在概述相关背景知识和总结国内外数据归约研究方法现状的基础上,明确了本论文的研究内容及创新之处。 数据归约两项重要的基础工作--缺失值填补和异常值探测是第二章探讨的内容。在本章,根据对统计学中常用的各种缺失值填补和异常值探测方法的分析,总结出了一些适合数据挖掘使用的方法。此外,通过将几种异常值探测方法应用在某地区移动通讯用户缴费数据库上,对手机用户的消费行为进行了实证分析。 数据归约包括元组的归约和属性的归约。本文在第三章探讨了元组归约的两种主要方法--连续属性离散化和概念分层。在对当前的离散化方法和概念分层中面向属性归纳方法综述的基础上,提出了两种从独立性角度考虑的连续属性离散化方法,分别是基于可辨识矩阵的离散化方法和基于似然比假设检验的离散化方法。并通过在Iris样本集上对这两种方法进行模拟,验证了它们的有效性。 属性重要性排序以及属性的提取和属性子集的选择是属性归约的两类方法。本文在第四章探讨了属性重要性的排序问题。数据挖掘中目前常见的排序问题是有监督属性的排序,本章首先对它们作了介绍和比较。然后在无监督属性重要性的排序方面,提出了单向有序列联资料的属性排序方法-改进秩和法和基于因子分析的无监督属性排序方法,这两种方法分别在一份调查问卷的列联资料和全国居民人均消费支出样本集的模拟中,取得了较为满意的结果。 第五章探讨的是属性的提取和属性子集的选择问题。首先对目前在数据挖掘中用于属性线性提取的几种统计学和其他学科的方法作了介绍和评价。然后是本章的重点内容-属性子集的选择,在对属性子集选择的基本知识及目前已有的研究成果详细阐述和分析之后,提出了逐步向前的无监督属性选择方法,并通过实例验证了该方法的有效性。 第六章对全文的主要工作进行了总结,并指出了有待进一步改进和完善的地方。 本文的创新之处主要有以下四个方面: (1)提出了分别基于可辨识矩阵和基于似然比假设检验的两种连续属性离散化方法。 (2)提出了单向有序列联资料属性排序的方法--改进秩和法。 (3)提出了基于因子分析的无监督属性重要性的排序方法。 (4)提出了逐步向前的无监督属性选择方法。
引用
收藏
页数:116
共 55 条
[1]
特征选择方法综述 [J].
王娟 ;
慈林林 ;
姚康泽 .
计算机工程与科学, 2005, (12)
[2]
基于神经网络的安全评价指标重要度判定方法及应用 [J].
王志军 ;
郭忠平 ;
李勇 .
中国安全科学学报, 2005, (12) :21-24+137
[3]
基于马氏距离的缺失值填充算法 [J].
杨涛 ;
骆嘉伟 ;
王艳 ;
吴君浩 .
计算机应用, 2005, (12)
[4]
一种基于进化算法的连续属性离散化方法 [J].
姚望舒 ;
商琳 ;
陈兆乾 .
计算机应用与软件, 2005, (03) :37-39+85
[5]
基于K-均值聚类的无监督的特征选择方法 [J].
张莉 ;
孙钢 ;
郭军 .
计算机应用研究, 2005, (03) :23-24+42
[6]
基于粗糙集理论的目标特征选择方法 [J].
詹艳梅 ;
曾向阳 ;
孙进才 .
自然科学进展, 2004, (12)
[7]
信息系统的属性重要性度量及知识约简算法比较 [J].
韩伟 ;
沈霄凤 ;
王云 .
华东师范大学学报(自然科学版), 2004, (03) :131-134
[8]
基于粗糙集的两种离散化算法的研究 [J].
吴山产 ;
毛锋 ;
王文渊 ;
卓晴 .
计算机工程与应用, 2004, (26) :68-69+159
[9]
缺失数据处理中相关问题的探讨 [J].
庞新生 .
统计与信息论坛, 2004, (05) :29-32
[10]
从问卷调查数据中可以得到什么? [J].
吴喜之 ;
骆鹏 ;
罗玉波 .
统计研究, 2004, (08) :61-64