学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于改进的潜在语义分析的文本聚类
被引:12
作者
:
论文数:
引用数:
h-index:
机构:
宋涛
论文数:
引用数:
h-index:
机构:
施水才
论文数:
引用数:
h-index:
机构:
房祥
论文数:
引用数:
h-index:
机构:
吕学强
机构
:
[1]
北京信息科技大学计算机学院
来源
:
北京信息科技大学学报(自然科学版)
|
2012年
/ 27卷
/ 03期
基金
:
北京市自然科学基金;
关键词
:
潜在语义分析;
权重计算;
奇异值分解;
K-means;
文本聚类;
D O I
:
10.16508/j.cnki.11-5866/n.2012.03.009
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
文本聚类中不同文本表示方法获得的聚类效果不尽相同。引入潜在语义分析模型对文本进行表示,重新给出了针对潜在语义分析的特征权重计算方法,并提出了截断奇异值分解中K值的选取方法,达到了"词-文本"空间的降维去噪目的。鉴于K-means算法中初始聚类中心选取具有一定的随机性,应用相似性初始聚类中心选取方法确定了K-means的初始聚类中心,避免了随机选取聚类中心对聚类效果的影响。基于改进的潜在语义分析方法极大的降低了文本空间的维度,经实验证明改进后的方法在聚类问题中聚类效果显著。
引用
收藏
页码:21 / 25
页数:5
相关论文
共 8 条
[1]
Simple Semantics in Topic Detection and Tracking
[J].
Juha Makkonen
论文数:
0
引用数:
0
h-index:
0
机构:
University of Helsinki,Department of Computer Science
Juha Makkonen
;
论文数:
引用数:
h-index:
机构:
Helena Ahonen-Myka
;
Marko Salmenkivi
论文数:
0
引用数:
0
h-index:
0
机构:
University of Helsinki,Department of Computer Science
Marko Salmenkivi
.
Information Retrieval,
2004,
7
:347
-368
[2]
数据库系统全书.[M].(美)HectorGarcia-Molina等著;岳丽华等译;.机械工业出版社.2003,
[3]
基于相似度的文本聚类算法研究及应用
[D].
论文数:
引用数:
h-index:
机构:
马素琴
.
江苏大学,
2010
[4]
基于潜在语义分析的智能检索系统
[D].
翟琳琳
论文数:
0
引用数:
0
h-index:
0
机构:
上海师范大学
上海师范大学
翟琳琳
.
上海师范大学,
2007
[5]
基于潜在语义分析的构件聚类改进方法
[J].
论文数:
引用数:
h-index:
机构:
任姚鹏
;
论文数:
引用数:
h-index:
机构:
陈立潮
;
论文数:
引用数:
h-index:
机构:
张英俊
;
论文数:
引用数:
h-index:
机构:
谢斌红
.
计算机工程,
2011,
37
(04)
:67
-69
[6]
一种改进的文本聚类方法
[J].
高宏宾
论文数:
0
引用数:
0
h-index:
0
机构:
五邑大学
高宏宾
;
杨海振
论文数:
0
引用数:
0
h-index:
0
机构:
五邑大学
杨海振
;
张小彬
论文数:
0
引用数:
0
h-index:
0
机构:
五邑大学
张小彬
.
自动化技术与应用,
2008,
(09)
:30
-32
[7]
神经网络模糊聚类方法在故障诊断中的应用
[J].
张胜
论文数:
0
引用数:
0
h-index:
0
机构:
北京机械工业学院机械工程系!北京
张胜
;
许宝杰
论文数:
0
引用数:
0
h-index:
0
机构:
北京机械工业学院机械工程系!北京
许宝杰
.
北京机械工业学院学报,
2001,
(02)
:1
-4
[8]
文档中词语权重计算方法的改进
[J].
论文数:
引用数:
h-index:
机构:
鲁松
;
论文数:
引用数:
h-index:
机构:
李晓黎
;
论文数:
引用数:
h-index:
机构:
白硕
;
论文数:
引用数:
h-index:
机构:
王实
.
中文信息学报,
2000,
(06)
:8
-13+20
←
1
→
共 8 条
[1]
Simple Semantics in Topic Detection and Tracking
[J].
Juha Makkonen
论文数:
0
引用数:
0
h-index:
0
机构:
University of Helsinki,Department of Computer Science
Juha Makkonen
;
论文数:
引用数:
h-index:
机构:
Helena Ahonen-Myka
;
Marko Salmenkivi
论文数:
0
引用数:
0
h-index:
0
机构:
University of Helsinki,Department of Computer Science
Marko Salmenkivi
.
Information Retrieval,
2004,
7
:347
-368
[2]
数据库系统全书.[M].(美)HectorGarcia-Molina等著;岳丽华等译;.机械工业出版社.2003,
[3]
基于相似度的文本聚类算法研究及应用
[D].
论文数:
引用数:
h-index:
机构:
马素琴
.
江苏大学,
2010
[4]
基于潜在语义分析的智能检索系统
[D].
翟琳琳
论文数:
0
引用数:
0
h-index:
0
机构:
上海师范大学
上海师范大学
翟琳琳
.
上海师范大学,
2007
[5]
基于潜在语义分析的构件聚类改进方法
[J].
论文数:
引用数:
h-index:
机构:
任姚鹏
;
论文数:
引用数:
h-index:
机构:
陈立潮
;
论文数:
引用数:
h-index:
机构:
张英俊
;
论文数:
引用数:
h-index:
机构:
谢斌红
.
计算机工程,
2011,
37
(04)
:67
-69
[6]
一种改进的文本聚类方法
[J].
高宏宾
论文数:
0
引用数:
0
h-index:
0
机构:
五邑大学
高宏宾
;
杨海振
论文数:
0
引用数:
0
h-index:
0
机构:
五邑大学
杨海振
;
张小彬
论文数:
0
引用数:
0
h-index:
0
机构:
五邑大学
张小彬
.
自动化技术与应用,
2008,
(09)
:30
-32
[7]
神经网络模糊聚类方法在故障诊断中的应用
[J].
张胜
论文数:
0
引用数:
0
h-index:
0
机构:
北京机械工业学院机械工程系!北京
张胜
;
许宝杰
论文数:
0
引用数:
0
h-index:
0
机构:
北京机械工业学院机械工程系!北京
许宝杰
.
北京机械工业学院学报,
2001,
(02)
:1
-4
[8]
文档中词语权重计算方法的改进
[J].
论文数:
引用数:
h-index:
机构:
鲁松
;
论文数:
引用数:
h-index:
机构:
李晓黎
;
论文数:
引用数:
h-index:
机构:
白硕
;
论文数:
引用数:
h-index:
机构:
王实
.
中文信息学报,
2000,
(06)
:8
-13+20
←
1
→