基于WEKA平台的文本聚类研究与实现

被引:1
作者
陈嘉勇
机构
[1] 北京科技大学经济管理学院
关键词
文本挖掘; 文本聚类; 向量空间模型; WEKA;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本聚类是文本挖掘领域的一个重要研究分支,是聚类方法在文本处理领域的应用。本文首先对基于空间向量模型的文本聚类过程做了较深入的讨论和总结。另外,本文回顾了现有的文本聚类算法,以及常用的文本聚类效果评价指标。在研究了已有成果的基础上,本文利用20Newsgroup文本语料库,针对向量空间表示模型,在开源的数据挖掘平台WEKA上实现了文本预处理和k-means聚类算法,并根据实际聚类效果,就文本表示、特征选择、特征降维等方面提出优化方案。
引用
收藏
页码:9 / 12
页数:4
相关论文
共 1 条
[1]  
聚类分析在文本挖掘中的应用与研究[D]. 郭建永.江南大学. 2008