基于文本挖掘的聚类算法研究

被引:7
作者
徐东亮
董开坤
李斌
王研芬
机构
[1] 哈尔滨工业大学(威海)网络与信息安全技术研究中心
关键词
文本挖掘; K-means; K-medoids; 准确率; 召回率;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
随着网络中数据信息的大量积累,如何从海量文本数据中有效提取所需要的信息成为当前文本挖掘的重要内容。本文主要研究K-means和K-medoids两种聚类算法在文本挖掘中的应用,并通过实验利用基于人工判定的指标对两类算法在聚类文档的准确率和召回率方面进行了性能比较。实验结果表明,与K-means算法相比,K-medoids算法无论在准确率还是召回率方面都要高出5个百分点以上,且后者在处理异常数据和噪声数据方面更为鲁棒。
引用
收藏
页码:168 / 169+65 +65
页数:3
相关论文
共 3 条
[1]   优化初始值的K均值中文文本聚类 [J].
焦慧 ;
刘迁 ;
王玉英 ;
贾惠波 .
微计算机信息, 2009, 25 (21) :142-144
[2]  
Data clustering[J] . A. K. Jain,M. N. Murty,P. J. Flynn.ACM Computing Surveys (CSUR) . 1999 (3)
[3]  
Efficient search approaches for k-medoids-based algorithms. Shu-Chuan Chu,Roddick.J.F,Tsong-Yi Chen,Jeng-Shyang Pan. TENCON ‘02.Proceedings.2002 IEEE Region 10 Conference on Computers.Communications.Control and Power Engineering .