不同距离测度的K-Means文本聚类研究

被引:43
作者
陈磊磊
机构
[1] 北京邮电大学计算机学院
关键词
文本聚类; K-Means; 测度距离; 聚类质量;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
近年来,互联网和电子商务企业堆积了海量文本文档类型的数据,如何通过有效的手段对这些数据进行整理,并进行真正有质量的数据挖掘已经成为计算机科学关注的焦点。本文对文本数据之间的相似性进行了研究,并采用VSM技术和TF-IDF加权策略对文本文档进行了预处理。然后,采用不同测度距离作为相似性度量对数据进行了K-Means聚类实验,并对实验结果进行分析和总结。最后基于之前的结论,在改善文本聚类质量方面,做出了一定的探索。
引用
收藏
页码:56 / 61
页数:6
相关论文
共 31 条
[1]   基于标签聚类的多标签分类算法 [J].
申超波 ;
王志海 ;
孙艳歌 .
软件, 2014, 35 (08) :16-21
[2]   自组织神经网络和K-means聚类算法的比较分析 [J].
徐步云 ;
倪禾 .
新型工业化, 2014, 4 (07) :63-69
[3]   基于引力原理的聚类问题一个新算法 [J].
陈华 ;
陈伟旭 ;
雷衍 ;
王亚伟 .
新型工业化, 2014, 4 (06) :67-71
[4]   浅谈计算机网络技术在教学应用中的作用和发展趋势 [J].
乜大伟 .
软件, 2014, 35 (02) :146-147+152
[5]   基于半监督LDA的文本分类应用研究 [J].
郑世卓 ;
崔晓燕 .
软件, 2014, 35 (01) :46-48
[6]   利用word2vec对中文词进行聚类的研究 [J].
郑文超 ;
徐鹏 .
软件, 2013, 34 (12) :160-162
[7]   社交网络技术在科研教学环境中的应用研究 [J].
迟爽 ;
徐鹏 .
软件, 2013, 34 (12) :178-182
[8]   利用测试模态数据识别结构有限元模型误差源的一种新方法 [J].
臧朝平 ;
马双超 .
新型工业化, 2013, 3 (08) :1-9
[9]   基于近邻评分预测的协同过滤推荐算法 [J].
颜龙杰 .
软件, 2013, 34 (08) :63-66
[10]   基于网页平台的移动文本编辑器的设计 [J].
姜福成 .
软件, 2013, 34 (05) :12-15