并行K-Means聚类方法及其在简历数据中的应用研究

被引:0
作者
冯丽娜
机构
[1] 云南大学
关键词
数据挖掘; 聚类分析; K-Means; 并行计算; MPI; 简历数据;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
随着各领域技术的飞速发展,数据量也在急剧的增加。面对海量的数据,数据挖掘技术中传统K-Means聚类算法面临挑战,因此对如何提高传统K-Means聚类算法效率的研究,有助于更好的认识和利用数据信息。当前,网络招聘成为了各企业单位进行招聘的主要手段,但是每天大量的简历筛选使工作人员工作效率低下,人力物力耗费严重。将K-Means并行聚类算法应用在简历数据的处理过程中,有助于节省人力资源,同时能够帮助各用人单位更迅速的招聘到合适的人才。 论文主要从以下三个方面开展工作: 首先,为了提高传统K-Means聚类算法的效率,论文提出了一种并行K-Means聚类算法,该算法能在一定程度上减少通信量和计算量。论文在MPI消息传递编程环境下,采用Master/Slave编程模式对所提算法予以实现。论文基于算法复杂度和加速比等评价标准对所提算法进行评价,并通过实验与传统K-Means算法做了比较。实验结果表明,本文所提算法是正确有效的。 其次,论文对简历数据的特点进行了分析,研究了简历数据的特征提取方法,使得简历数据能用较少维度的特征进行描述。为了验证所提特征的有效性,论文使用传统K-Means聚类算法对简历数据进行聚类。实验结果表明,本文所提取的特征能够有效反映简历信息,对简历数据进行聚类分析确实能够迅速挖掘到具有代表性的简历信息。 最后,论文将本文所提的并行K-Means聚类算法应用到简历数据的处理过程中,并将聚类结果与传统K-Means聚类算法的实验结果进行比较。结果表明了并行K-Means聚类算法在简历数据处理过程中的正确性和有效性。 综上所述,论文由实际问题出发,从理论分析和实际应用两个方面对传统K-Means聚类算法进行研究,提高了该算法的执行效率,并扩大了该算法的应用领域。
引用
收藏
页数:63
共 15 条
[1]
基于聚类算法的并行化研究 [J].
彭厚文 ;
杨爽 ;
何凤成 .
电脑知识与技术, 2009, 5 (24) :7010-7012
[2]
并行聚类分析算法(英文) [J].
阎仲璞 ;
邵秀丽 ;
张峰 .
南开大学学报(自然科学版), 2008, (04) :106-112
[3]
基于集群环境的K-Means聚类算法的并行化 [J].
王辉 ;
张望 ;
范明 .
河南科技大学学报(自然科学版), 2008, (04) :42-45+116
[4]
个性化服务中的并行K-Means聚类算法 [J].
张望 ;
王辉 .
微电子学与计算机, 2007, (10) :65-67+70
[5]
文本分类的特征提取方法比较与改进 [J].
申红 ;
吕宝粮 ;
内山将夫 ;
井佐原均 .
计算机仿真, 2006, (03) :222-224
[6]
数据挖掘导论.[M].(美)Pang-NingTan;(美)MichaelSteinbach;(美)VipinKumar著;范明;范宏建等译;.人民邮电出版社.2006,
[7]
并行计算导论.[M].张林波[等]编著;.清华大学出版社.2006,
[8]
并行算法及其应用.[M].孙世新等编著;.机械工业出版社.2005,
[9]
数据仓库与数据挖掘原理及应用.[M].王丽珍等编著;.科学出版社.2005,
[10]
并行计算.[M].陈国良编著;.高等教育出版社.2003,