投影寻踪模型在文本聚类算法中的应用研究

被引:0
作者
陆鹏
机构
[1] 上海海事大学
关键词
文本聚类; 特征降维; 投影寻踪; 遗传算法; 可视化;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
快速、高效的文本聚类算法有助于从大量非结构化的文本源中发现和挖掘其所蕴含的巨大潜在知识。文本数据以向量空间模型表示成特征向量,往往呈现出高维特征。 利用投影寻踪模型实现文本特征降维,把高维文本特征投影到二维或三维的可视化空间当中,不仅可以表现出文本的结构特征,还可以大大简化文本聚类算法的计算复杂性,提高算法效率和精度。利用投影寻踪模型对文本特征向量进行降维的过程中,关键是最优投影方向的搜索。 本文提出两种改进的基于遗传算法的投影寻踪文本聚类算法,结合遗传算法来确定最优投影方向,将高维文本特征向量投影到二维和三维空间上,实现文本特征降维,使得文本的结构特征在可视的空间中凸现出来,从而能够直观地观察文本集的结构分布情况,直观地确定文本类数目。实验表明,这种方法可以得到较好的聚类结果。
引用
收藏
页数:74
共 23 条
[1]
关联规则挖掘算法研究 [D]. 
高飞 .
西安电子科技大学,
2001
[2]
基于LSA降维的RPCL文本聚类算法 [J].
高茂庭 ;
王正欧 .
计算机工程与应用 , 2006, (23) :138-140
[3]
基于遗传算法和k-medoids算法的聚类新算法 [J].
郝占刚 ;
王正欧 .
现代图书情报技术, 2006, (05) :44-46+57
[4]
一种基于小生境遗传算法的中文文本聚类新方法 [J].
赵亚琴 ;
周献中 .
计算机工程, 2006, (06) :206-208
[5]
改进遗传算法在模糊文本聚类中的应用研究 [J].
时念云 ;
蒋红芬 ;
徐九韵 .
科学技术与工程, 2005, (24) :1898-1902
[6]
R-means:以关联规则为簇中心的文本聚类 [J].
龙昊 ;
冯剑琳 ;
李曲 .
计算机科学, 2005, (09) :156-159
[7]
一种文本聚类算法 [J].
李向军 ;
徐国华 ;
刘立平 .
西北大学学报(自然科学版), 2005, (02) :155-158
[8]
基于LSI和自组织神经网络的高效文本聚类方法 [J].
徐建锁 ;
王正欧 .
天津大学学报, 2004, (11) :1026-1030
[9]
数据挖掘中基于模型的聚类分析方法研究 [J].
张剑飞 ;
王辉 .
克山师专学报, 2004, (03) :87-89
[10]
基于SOM网络的随机映射文本降维方法 [J].
钱晓东 ;
王正欧 .
计算机应用, 2004, (05) :56-58+61