基于高权重词集的增量聚类算法研究

被引:1
作者
王丹
张兆心
宋颖慧
机构
[1] 哈尔滨工业大学网络与信息安全技术研究中心
关键词
文本聚类; 高权重词集; 层次聚类; 增量聚类;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
081202 ;
摘要
文本聚类作为一种无监督的机器学习方法,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。本文以网络论坛的话题发现和追踪为背景,通过对论坛中的帖子进行聚类分析而获取话题。本文以层次聚类算法为基础,进行改进,提出高权重词集的概念,基于此设计并实现了增量聚类算法,通过实验验证了该算法适应动态数据以及时间、空间复杂性上的优越性,证明了系统在设计的时候采用的系统架构的合理性及必要性。
引用
收藏
页码:170 / 172
页数:3
相关论文
共 5 条
[1]  
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11
[2]  
中文Web文本挖掘的若干关键技术研究及其实现.[D].苏芳仲.福州大学.2006, 12
[3]   优化初始值的K均值中文文本聚类 [J].
焦慧 ;
刘迁 ;
王玉英 ;
贾惠波 .
微计算机信息, 2009, 25 (21) :142-144
[4]   用于信息检索的文本聚类技术 [J].
门国尊 .
今日科苑, 2008, (20) :165-165
[5]   文档聚类综述 [J].
刘远超 ;
王晓龙 ;
徐志明 ;
关毅 .
中文信息学报, 2006, (03) :55-62