基于改进的潜在语义分析的文本聚类

被引:12
作者
宋涛
施水才
房祥
吕学强
机构
[1] 北京信息科技大学计算机学院
基金
北京市自然科学基金;
关键词
潜在语义分析; 权重计算; 奇异值分解; K-means; 文本聚类;
D O I
10.16508/j.cnki.11-5866/n.2012.03.009
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
文本聚类中不同文本表示方法获得的聚类效果不尽相同。引入潜在语义分析模型对文本进行表示,重新给出了针对潜在语义分析的特征权重计算方法,并提出了截断奇异值分解中K值的选取方法,达到了"词-文本"空间的降维去噪目的。鉴于K-means算法中初始聚类中心选取具有一定的随机性,应用相似性初始聚类中心选取方法确定了K-means的初始聚类中心,避免了随机选取聚类中心对聚类效果的影响。基于改进的潜在语义分析方法极大的降低了文本空间的维度,经实验证明改进后的方法在聚类问题中聚类效果显著。
引用
收藏
页码:21 / 25
页数:5
相关论文
共 8 条
[1]
Simple Semantics in Topic Detection and Tracking [J].
Juha Makkonen ;
Helena Ahonen-Myka ;
Marko Salmenkivi .
Information Retrieval, 2004, 7 :347-368
[2]
数据库系统全书.[M].(美)HectorGarcia-Molina等著;岳丽华等译;.机械工业出版社.2003,
[3]
基于相似度的文本聚类算法研究及应用 [D]. 
马素琴 .
江苏大学,
2010
[4]
基于潜在语义分析的智能检索系统 [D]. 
翟琳琳 .
上海师范大学,
2007
[5]
基于潜在语义分析的构件聚类改进方法 [J].
任姚鹏 ;
陈立潮 ;
张英俊 ;
谢斌红 .
计算机工程, 2011, 37 (04) :67-69
[6]
一种改进的文本聚类方法 [J].
高宏宾 ;
杨海振 ;
张小彬 .
自动化技术与应用, 2008, (09) :30-32
[7]
神经网络模糊聚类方法在故障诊断中的应用 [J].
张胜 ;
许宝杰 .
北京机械工业学院学报, 2001, (02) :1-4
[8]
文档中词语权重计算方法的改进 [J].
鲁松 ;
李晓黎 ;
白硕 ;
王实 .
中文信息学报, 2000, (06) :8-13+20