一种基于群体智能的Web文档聚类算法

被引:41
作者
吴斌
傅伟鹏
郑毅
刘少辉
史忠植
机构
[1] 中国科学院计算技术研究所智能信息处理开放重点实验室
基金
北京市自然科学基金;
关键词
群体智能; 文档聚类; 自组织聚类; 群体相似度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
将群体智能聚类模型运用于文档聚类 ,提出了一种基于群体智能的 Web文档聚类算法 .首先运用向量空间模型表示 Web文档信息 ,采用常规方法如消除无用词和特征词条约简法则得到文本特征集 ,然后将文档向量随机分布到一个平面上 ,运用基于群体智能的聚类方法进行文档聚类 ,最后从平面上采用递归算法收集聚类结果 .为了改善算法的实用性 ,将原算法与 k均值算法相结合提出一种混合聚类算法 .通过实验比较 ,结果表明基于群体智能的 Web文档聚类算法具有较好的聚类特性 ,它能将与一个主题相关的 Web文档较完全而准确地聚成一类 .
引用
收藏
页码:1429 / 1435
页数:7
相关论文
共 3 条
[1]   一种基于蚁群算法的TSP问题分段求解算法 [J].
吴斌 ;
史忠植 .
计算机学报, 2001, (12) :1328-1333
[2]   PCCS部分聚类分类:一种快速的Web文档聚类方法 [J].
王爱华 ;
张铭 ;
杨冬青 ;
唐世渭 ;
不详 .
计算机研究与发展 , 2001, (04) :415-421
[3]  
Swarm Intelligence: From Natural to Artificial Systems .2 E.Bonabeau,MDorigo,GTheraulaz. NewYork:OxfordUni-versityPress . 1999