基于LSI和自组织神经网络的高效文本聚类方法

被引:8
作者
徐建锁
王正欧
机构
[1] 天津大学系统工程研究所
[2] 天津大学系统工程研究所 天津
[3] 天津
关键词
文本聚类; 隐含语义索引; 奇异值分解; 自组织神经网络; 向量空间模型;
D O I
暂无
中图分类号
TP391.41 [];
学科分类号
080203 ;
摘要
根据隐含语义索引(LSI)理论和动态自组织映射神经网络理论,提出了一种文本聚类的新方法.应用动态自组织映射神经网络来实现文本聚类,不必预先给定聚类个数,可以在任意合适的位置生成一个新的类,具有聚类灵活和精度高等特点,对于高维的文本特征向量来说,聚类速度很低;该方法应用LSI理论来建立文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的"噪声"因素,从而更加突出了词和文本之间的语义关系.通过奇异值分解(SVD),有效地降低了向量空间的维数,克服了自组织神经网络的聚类缺陷,提高了文本聚类的精度和速度.
引用
收藏
页码:1026 / 1030
页数:5
相关论文
共 3 条
[1]   一种基于向量空间模型的多层次文本分类方法 [J].
刘少辉 ;
董明楷 ;
张海俊 ;
李蓉 ;
史忠植 .
中文信息学报, 2002, (03) :8-14+26
[2]   文本聚类中的贝叶斯后验模型选择方法 [J].
姜宁 ;
史忠植 .
计算机研究与发展, 2002, (05) :580-587
[3]  
一种基于自组织神经网络的中文文本聚类新方法[J]. 徐建锁,王正欧,王莉.情报学报. 2003 (06)