学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于K-距离的孤立点和聚类算法研究
被引:0
作者
:
论文数:
引用数:
h-index:
机构:
贾晨科
机构
:
[1]
郑州大学
关键词
:
数据挖掘;
聚类算法;
孤立点检测;
p的k-距离;
k-距离邻居;
D O I
:
暂无
年度学位
:
2006
学位类型
:
硕士
导师
:
邱保志;
摘要
:
从大型数据集中发现有趣的,有用的且预先未知的知识的过程被称为数据挖掘。数据挖掘又称数据库中的知识发现,是数据库研究最活跃的领域之一。通过数据挖掘可以从大型数据集中提取可信、新颖、有效并易于理解的知识、规律或高层信息。这给人们在信息时代所积累的海量数据赋予了新的意义。随着数据挖掘技术的迅速发展,作为其重要组成部分,聚类分析和孤立点检测技术已经广泛应用于模式识别、数据分析、图象处理、市场研究等许多领域。聚类及孤立点检测算法研究已经成为数据挖掘研究领域中非常活跃的一个研究课题。 本文介绍了数据挖掘理论,对聚类及孤立点检测算法进行了深入地分析研究。在分析了基于密度的聚类算法和基于密度的孤立点算法的基础上,提出了基于局部孤立系数的孤立点检测和基于局部孤立系数的聚类算法;基于K-距离因子和增强的K-距离因子的孤立点检测算法。 本文使用Visual C++6.0实现了基于局部孤立系数的聚类算法、基于局部孤立系数的孤立点算法、基于K-距离因子的孤立点算法、增强的K-距离因子的孤立点算法、LOF算法、RDBKNN算法。在综合数据集上和真实数据集上做了大量的对比实验来验证孤立点算法的正确性,在综合数据集上验证孤立点算法的效率;在综合数据集上、真实数据集上和多密度数据集上验证基于局部孤立系数的聚类算法的正确性,在综合数据集上验证聚类算法的效率。 实验结果表明,基于局部孤立系数的聚类、基于局部孤立系数的孤立点、基于K-距离因子的孤立点、增强的K-距离因子的孤立点算法能够准确、有效的发现聚类和孤立点。聚类和孤立点检测算法在执行效率、聚类及孤立点检测效果等方面有一定的优越性。 总之,基于局部孤立系数的聚类算法不仅适合于均匀密度的数据集,而且对多密度数据集上也适合。该算法能有效的识别出各种形状的聚类,而且也能有效的识别出孤立点或噪声,在和RDBKNN算法对比中显示出了一定的优越性。最后,实验结果表明,无论是聚类算法还是孤立点检测算法都比原来的算法效率高。
引用
收藏
页数:71
共 10 条
[1]
一种增强的局部异常挖掘方法
[J].
蒋盛益
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学计算机科学与技术学院
蒋盛益
;
李庆华
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学计算机科学与技术学院
李庆华
;
王卉
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学计算机科学与技术学院
王卉
;
孟中楼
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学计算机科学与技术学院
孟中楼
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学计算机科学与技术学院
不详
.
计算机研究与发展 ,
2005,
(02)
:210
-216
[2]
一种有效的基于网格和密度的聚类分析算法
[J].
胡泱
论文数:
0
引用数:
0
h-index:
0
机构:
浙江大学计算机科学与技术学院,浙江大学计算机科学与技术学院浙江杭州,浙江杭州
胡泱
;
论文数:
引用数:
h-index:
机构:
陈刚
.
计算机应用,
2003,
(12)
:64
-67
[3]
Kmeans聚类分析算法中一个新的确定聚类个数有效性的指标
[J].
李双虎
论文数:
0
引用数:
0
h-index:
0
机构:
河北省科学院应用数学研究所
李双虎
;
论文数:
引用数:
h-index:
机构:
王铁洪
.
河北省科学院学报,
2003,
(04)
:199
-202
[4]
聚类方法在图像识别中的应用
[J].
沈建平
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与工程系,同济大学计算机科学与工程系,同济大学计算机科学与工程系,同济大学计算机科学与工程系上海,上海,上海,上海
沈建平
;
论文数:
引用数:
h-index:
机构:
沈介文
;
论文数:
引用数:
h-index:
机构:
朱宏明
;
夏炯贤
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与工程系,同济大学计算机科学与工程系,同济大学计算机科学与工程系,同济大学计算机科学与工程系上海,上海,上海,上海
夏炯贤
.
计算机应用,
2003,
(10)
:51
-52
[5]
基于网格上近似的大规模数据集离群点检测算法GROUT
[J].
李存华
论文数:
0
引用数:
0
h-index:
0
机构:
淮海工学院计算机科学系,东南大学计算机科学与工程系,东南大学计算机科学与工程系江苏连云港,江苏南京,江苏南京
李存华
;
论文数:
引用数:
h-index:
机构:
孙志挥
;
论文数:
引用数:
h-index:
机构:
陈耿
.
计算机应用研究,
2003,
(09)
:134
-136
[6]
一种改进的K-means算法
[J].
论文数:
引用数:
h-index:
机构:
张玉芳
;
毛嘉莉
论文数:
0
引用数:
0
h-index:
0
机构:
重庆大学计算机学院,重庆大学计算机学院,重庆大学计算机学院重庆,重庆,重庆
毛嘉莉
;
论文数:
引用数:
h-index:
机构:
熊忠阳
.
计算机应用,
2003,
(08)
:31
-33+60
[7]
一种基于中心对称性的聚类算法
[J].
论文数:
引用数:
h-index:
机构:
许剑峰
;
林嘉宜
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学计算机科学与工程学院,华南理工大学计算机科学与工程学院,华南理工大学计算机科学与工程学院广东广州,广东广州,广东广州
林嘉宜
;
论文数:
引用数:
h-index:
机构:
黎绍发
.
计算机工程与设计,
2003,
(05)
:94
-96
[8]
数据挖掘的聚类方法
[J].
行小帅
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学雷达信号处理国家重点实验室
行小帅
;
焦李成
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学雷达信号处理国家重点实验室
焦李成
.
电路与系统学报,
2003,
(01)
:59
-67
[9]
On clustering validation techniques
[J].
Halkidi, M
论文数:
0
引用数:
0
h-index:
0
机构:
Athens Univ Econ & Business, Dept Informat, Athens 10434, Greece
Athens Univ Econ & Business, Dept Informat, Athens 10434, Greece
Halkidi, M
;
论文数:
引用数:
h-index:
机构:
Batistakis, Y
;
Vazirgiannis, M
论文数:
0
引用数:
0
h-index:
0
机构:
Athens Univ Econ & Business, Dept Informat, Athens 10434, Greece
Athens Univ Econ & Business, Dept Informat, Athens 10434, Greece
Vazirgiannis, M
.
JOURNAL OF INTELLIGENT INFORMATION SYSTEMS,
2001,
17
(2-3)
:107
-145
[10]
Distance-based outliers: algorithms and applications
[J].
Knorr, EM
论文数:
0
引用数:
0
h-index:
0
机构:
Univ British Columbia, Dept Comp Sci, Vancouver, BC V6T 1Z4, Canada
Univ British Columbia, Dept Comp Sci, Vancouver, BC V6T 1Z4, Canada
Knorr, EM
;
Ng, RT
论文数:
0
引用数:
0
h-index:
0
机构:
Univ British Columbia, Dept Comp Sci, Vancouver, BC V6T 1Z4, Canada
Ng, RT
;
Tucakov, V
论文数:
0
引用数:
0
h-index:
0
机构:
Univ British Columbia, Dept Comp Sci, Vancouver, BC V6T 1Z4, Canada
Tucakov, V
.
VLDB JOURNAL,
2000,
8
(3-4)
:237
-253
←
1
→
共 10 条
[1]
一种增强的局部异常挖掘方法
[J].
蒋盛益
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学计算机科学与技术学院
蒋盛益
;
李庆华
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学计算机科学与技术学院
李庆华
;
王卉
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学计算机科学与技术学院
王卉
;
孟中楼
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学计算机科学与技术学院
孟中楼
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学计算机科学与技术学院
不详
.
计算机研究与发展 ,
2005,
(02)
:210
-216
[2]
一种有效的基于网格和密度的聚类分析算法
[J].
胡泱
论文数:
0
引用数:
0
h-index:
0
机构:
浙江大学计算机科学与技术学院,浙江大学计算机科学与技术学院浙江杭州,浙江杭州
胡泱
;
论文数:
引用数:
h-index:
机构:
陈刚
.
计算机应用,
2003,
(12)
:64
-67
[3]
Kmeans聚类分析算法中一个新的确定聚类个数有效性的指标
[J].
李双虎
论文数:
0
引用数:
0
h-index:
0
机构:
河北省科学院应用数学研究所
李双虎
;
论文数:
引用数:
h-index:
机构:
王铁洪
.
河北省科学院学报,
2003,
(04)
:199
-202
[4]
聚类方法在图像识别中的应用
[J].
沈建平
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与工程系,同济大学计算机科学与工程系,同济大学计算机科学与工程系,同济大学计算机科学与工程系上海,上海,上海,上海
沈建平
;
论文数:
引用数:
h-index:
机构:
沈介文
;
论文数:
引用数:
h-index:
机构:
朱宏明
;
夏炯贤
论文数:
0
引用数:
0
h-index:
0
机构:
同济大学计算机科学与工程系,同济大学计算机科学与工程系,同济大学计算机科学与工程系,同济大学计算机科学与工程系上海,上海,上海,上海
夏炯贤
.
计算机应用,
2003,
(10)
:51
-52
[5]
基于网格上近似的大规模数据集离群点检测算法GROUT
[J].
李存华
论文数:
0
引用数:
0
h-index:
0
机构:
淮海工学院计算机科学系,东南大学计算机科学与工程系,东南大学计算机科学与工程系江苏连云港,江苏南京,江苏南京
李存华
;
论文数:
引用数:
h-index:
机构:
孙志挥
;
论文数:
引用数:
h-index:
机构:
陈耿
.
计算机应用研究,
2003,
(09)
:134
-136
[6]
一种改进的K-means算法
[J].
论文数:
引用数:
h-index:
机构:
张玉芳
;
毛嘉莉
论文数:
0
引用数:
0
h-index:
0
机构:
重庆大学计算机学院,重庆大学计算机学院,重庆大学计算机学院重庆,重庆,重庆
毛嘉莉
;
论文数:
引用数:
h-index:
机构:
熊忠阳
.
计算机应用,
2003,
(08)
:31
-33+60
[7]
一种基于中心对称性的聚类算法
[J].
论文数:
引用数:
h-index:
机构:
许剑峰
;
林嘉宜
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学计算机科学与工程学院,华南理工大学计算机科学与工程学院,华南理工大学计算机科学与工程学院广东广州,广东广州,广东广州
林嘉宜
;
论文数:
引用数:
h-index:
机构:
黎绍发
.
计算机工程与设计,
2003,
(05)
:94
-96
[8]
数据挖掘的聚类方法
[J].
行小帅
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学雷达信号处理国家重点实验室
行小帅
;
焦李成
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学雷达信号处理国家重点实验室
焦李成
.
电路与系统学报,
2003,
(01)
:59
-67
[9]
On clustering validation techniques
[J].
Halkidi, M
论文数:
0
引用数:
0
h-index:
0
机构:
Athens Univ Econ & Business, Dept Informat, Athens 10434, Greece
Athens Univ Econ & Business, Dept Informat, Athens 10434, Greece
Halkidi, M
;
论文数:
引用数:
h-index:
机构:
Batistakis, Y
;
Vazirgiannis, M
论文数:
0
引用数:
0
h-index:
0
机构:
Athens Univ Econ & Business, Dept Informat, Athens 10434, Greece
Athens Univ Econ & Business, Dept Informat, Athens 10434, Greece
Vazirgiannis, M
.
JOURNAL OF INTELLIGENT INFORMATION SYSTEMS,
2001,
17
(2-3)
:107
-145
[10]
Distance-based outliers: algorithms and applications
[J].
Knorr, EM
论文数:
0
引用数:
0
h-index:
0
机构:
Univ British Columbia, Dept Comp Sci, Vancouver, BC V6T 1Z4, Canada
Univ British Columbia, Dept Comp Sci, Vancouver, BC V6T 1Z4, Canada
Knorr, EM
;
Ng, RT
论文数:
0
引用数:
0
h-index:
0
机构:
Univ British Columbia, Dept Comp Sci, Vancouver, BC V6T 1Z4, Canada
Ng, RT
;
Tucakov, V
论文数:
0
引用数:
0
h-index:
0
机构:
Univ British Columbia, Dept Comp Sci, Vancouver, BC V6T 1Z4, Canada
Tucakov, V
.
VLDB JOURNAL,
2000,
8
(3-4)
:237
-253
←
1
→