学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于LSI和自组织神经网络的高效文本聚类方法
被引:8
作者
:
徐建锁
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学系统工程研究所
徐建锁
王正欧
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学系统工程研究所
王正欧
机构
:
[1]
天津大学系统工程研究所
[2]
天津大学系统工程研究所 天津
[3]
天津
来源
:
天津大学学报
|
2004年
/ 11期
关键词
:
文本聚类;
隐含语义索引;
奇异值分解;
自组织神经网络;
向量空间模型;
D O I
:
暂无
中图分类号
:
TP391.41 [];
学科分类号
:
080203 ;
摘要
:
根据隐含语义索引(LSI)理论和动态自组织映射神经网络理论,提出了一种文本聚类的新方法.应用动态自组织映射神经网络来实现文本聚类,不必预先给定聚类个数,可以在任意合适的位置生成一个新的类,具有聚类灵活和精度高等特点,对于高维的文本特征向量来说,聚类速度很低;该方法应用LSI理论来建立文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的"噪声"因素,从而更加突出了词和文本之间的语义关系.通过奇异值分解(SVD),有效地降低了向量空间的维数,克服了自组织神经网络的聚类缺陷,提高了文本聚类的精度和速度.
引用
收藏
页码:1026 / 1030
页数:5
相关论文
共 3 条
[1]
一种基于向量空间模型的多层次文本分类方法
[J].
刘少辉
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理重点实验室
刘少辉
;
董明楷
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理重点实验室
董明楷
;
张海俊
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理重点实验室
张海俊
;
李蓉
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理重点实验室
李蓉
;
史忠植
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理重点实验室
史忠植
.
中文信息学报,
2002,
(03)
:8
-14+26
[2]
文本聚类中的贝叶斯后验模型选择方法
[J].
姜宁
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院计算机学部,中国科学院计算技术研究所北京,北京
姜宁
;
史忠植
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院计算机学部,中国科学院计算技术研究所北京,北京
史忠植
.
计算机研究与发展,
2002,
(05)
:580
-587
[3]
一种基于自组织神经网络的中文文本聚类新方法[J]. 徐建锁,王正欧,王莉.情报学报. 2003 (06)
←
1
→
共 3 条
[1]
一种基于向量空间模型的多层次文本分类方法
[J].
刘少辉
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理重点实验室
刘少辉
;
董明楷
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理重点实验室
董明楷
;
张海俊
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理重点实验室
张海俊
;
李蓉
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理重点实验室
李蓉
;
史忠植
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理重点实验室
史忠植
.
中文信息学报,
2002,
(03)
:8
-14+26
[2]
文本聚类中的贝叶斯后验模型选择方法
[J].
姜宁
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院计算机学部,中国科学院计算技术研究所北京,北京
姜宁
;
史忠植
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院计算机学部,中国科学院计算技术研究所北京,北京
史忠植
.
计算机研究与发展,
2002,
(05)
:580
-587
[3]
一种基于自组织神经网络的中文文本聚类新方法[J]. 徐建锁,王正欧,王莉.情报学报. 2003 (06)
←
1
→