共 31 条
不同距离测度的K-Means文本聚类研究
被引:43
作者:
陈磊磊
机构:
[1] 北京邮电大学计算机学院
来源:
关键词:
文本聚类;
K-Means;
测度距离;
聚类质量;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
近年来,互联网和电子商务企业堆积了海量文本文档类型的数据,如何通过有效的手段对这些数据进行整理,并进行真正有质量的数据挖掘已经成为计算机科学关注的焦点。本文对文本数据之间的相似性进行了研究,并采用VSM技术和TF-IDF加权策略对文本文档进行了预处理。然后,采用不同测度距离作为相似性度量对数据进行了K-Means聚类实验,并对实验结果进行分析和总结。最后基于之前的结论,在改善文本聚类质量方面,做出了一定的探索。
引用
收藏
页码:56 / 61
页数:6
相关论文