基于改进的潜在语义分析的文本聚类

被引：12

作者：

宋涛

施水才

房祥

吕学强

机构：

[1] 北京信息科技大学计算机学院

来源：

北京信息科技大学学报(自然科学版) | 2012年 / 27卷 / 03期

基金：

北京市自然科学基金;

关键词：

潜在语义分析; 权重计算; 奇异值分解; K-means; 文本聚类;

D O I：

10.16508/j.cnki.11-5866/n.2012.03.009

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

文本聚类中不同文本表示方法获得的聚类效果不尽相同。引入潜在语义分析模型对文本进行表示,重新给出了针对潜在语义分析的特征权重计算方法,并提出了截断奇异值分解中K值的选取方法,达到了"词-文本"空间的降维去噪目的。鉴于K-means算法中初始聚类中心选取具有一定的随机性,应用相似性初始聚类中心选取方法确定了K-means的初始聚类中心,避免了随机选取聚类中心对聚类效果的影响。基于改进的潜在语义分析方法极大的降低了文本空间的维度,经实验证明改进后的方法在聚类问题中聚类效果显著。

引用

页码：21 / 25

页数：5

共 8 条

[1]

Simple Semantics in Topic Detection and Tracking [J].