学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
投影寻踪模型在文本聚类算法中的应用研究
被引:0
作者
:
陆鹏
论文数:
0
引用数:
0
h-index:
0
机构:
上海海事大学
上海海事大学
陆鹏
机构
:
[1]
上海海事大学
关键词
:
文本聚类;
特征降维;
投影寻踪;
遗传算法;
可视化;
D O I
:
暂无
年度学位
:
2007
学位类型
:
硕士
导师
:
高茂庭;
摘要
:
快速、高效的文本聚类算法有助于从大量非结构化的文本源中发现和挖掘其所蕴含的巨大潜在知识。文本数据以向量空间模型表示成特征向量,往往呈现出高维特征。 利用投影寻踪模型实现文本特征降维,把高维文本特征投影到二维或三维的可视化空间当中,不仅可以表现出文本的结构特征,还可以大大简化文本聚类算法的计算复杂性,提高算法效率和精度。利用投影寻踪模型对文本特征向量进行降维的过程中,关键是最优投影方向的搜索。 本文提出两种改进的基于遗传算法的投影寻踪文本聚类算法,结合遗传算法来确定最优投影方向,将高维文本特征向量投影到二维和三维空间上,实现文本特征降维,使得文本的结构特征在可视的空间中凸现出来,从而能够直观地观察文本集的结构分布情况,直观地确定文本类数目。实验表明,这种方法可以得到较好的聚类结果。
引用
收藏
页数:74
共 23 条
[1]
关联规则挖掘算法研究
[D].
论文数:
引用数:
h-index:
机构:
高飞
.
西安电子科技大学,
2001
[2]
基于LSA降维的RPCL文本聚类算法
[J].
高茂庭
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学系统工程研究所
高茂庭
;
论文数:
引用数:
h-index:
机构:
王正欧
.
计算机工程与应用 ,
2006,
(23)
:138
-140
[3]
基于遗传算法和k-medoids算法的聚类新算法
[J].
郝占刚
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学系统工程研究所
郝占刚
;
论文数:
引用数:
h-index:
机构:
王正欧
.
现代图书情报技术,
2006,
(05)
:44
-46+57
[4]
一种基于小生境遗传算法的中文文本聚类新方法
[J].
论文数:
引用数:
h-index:
机构:
赵亚琴
;
论文数:
引用数:
h-index:
机构:
周献中
.
计算机工程,
2006,
(06)
:206
-208
[5]
改进遗传算法在模糊文本聚类中的应用研究
[J].
论文数:
引用数:
h-index:
机构:
时念云
;
蒋红芬
论文数:
0
引用数:
0
h-index:
0
机构:
中国石油大学(华东)计算机与通信工程学院
蒋红芬
;
论文数:
引用数:
h-index:
机构:
徐九韵
.
科学技术与工程,
2005,
(24)
:1898
-1902
[6]
R-means:以关联规则为簇中心的文本聚类
[J].
龙昊
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学计算机科学与技术系,华中科技大学计算机科学与技术系,华中科技大学计算机科学与技术系武汉,武汉,武汉
龙昊
;
论文数:
引用数:
h-index:
机构:
冯剑琳
;
李曲
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学计算机科学与技术系,华中科技大学计算机科学与技术系,华中科技大学计算机科学与技术系武汉,武汉,武汉
李曲
.
计算机科学,
2005,
(09)
:156
-159
[7]
一种文本聚类算法
[J].
李向军
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学机电工程学院,西安电子科技大学机电工程学院,东莞理工学院计算机科学与技术系陕西西安西安文理学院计算机科学系,陕西西安,陕西西安,广东东莞
李向军
;
徐国华
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学机电工程学院,西安电子科技大学机电工程学院,东莞理工学院计算机科学与技术系陕西西安西安文理学院计算机科学系,陕西西安,陕西西安,广东东莞
徐国华
;
刘立平
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学机电工程学院,西安电子科技大学机电工程学院,东莞理工学院计算机科学与技术系陕西西安西安文理学院计算机科学系,陕西西安,陕西西安,广东东莞
刘立平
.
西北大学学报(自然科学版),
2005,
(02)
:155
-158
[8]
基于LSI和自组织神经网络的高效文本聚类方法
[J].
论文数:
引用数:
h-index:
机构:
徐建锁
;
论文数:
引用数:
h-index:
机构:
王正欧
.
天津大学学报,
2004,
(11)
:1026
-1030
[9]
数据挖掘中基于模型的聚类分析方法研究
[J].
张剑飞
论文数:
0
引用数:
0
h-index:
0
机构:
东北师范大学计算机学院
张剑飞
;
王辉
论文数:
0
引用数:
0
h-index:
0
机构:
东北师范大学计算机学院
王辉
.
克山师专学报,
2004,
(03)
:87
-89
[10]
基于SOM网络的随机映射文本降维方法
[J].
论文数:
引用数:
h-index:
机构:
钱晓东
;
论文数:
引用数:
h-index:
机构:
王正欧
.
计算机应用,
2004,
(05)
:56
-58+61
←
1
2
3
→
共 23 条
[1]
关联规则挖掘算法研究
[D].
论文数:
引用数:
h-index:
机构:
高飞
.
西安电子科技大学,
2001
[2]
基于LSA降维的RPCL文本聚类算法
[J].
高茂庭
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学系统工程研究所
高茂庭
;
论文数:
引用数:
h-index:
机构:
王正欧
.
计算机工程与应用 ,
2006,
(23)
:138
-140
[3]
基于遗传算法和k-medoids算法的聚类新算法
[J].
郝占刚
论文数:
0
引用数:
0
h-index:
0
机构:
天津大学系统工程研究所
郝占刚
;
论文数:
引用数:
h-index:
机构:
王正欧
.
现代图书情报技术,
2006,
(05)
:44
-46+57
[4]
一种基于小生境遗传算法的中文文本聚类新方法
[J].
论文数:
引用数:
h-index:
机构:
赵亚琴
;
论文数:
引用数:
h-index:
机构:
周献中
.
计算机工程,
2006,
(06)
:206
-208
[5]
改进遗传算法在模糊文本聚类中的应用研究
[J].
论文数:
引用数:
h-index:
机构:
时念云
;
蒋红芬
论文数:
0
引用数:
0
h-index:
0
机构:
中国石油大学(华东)计算机与通信工程学院
蒋红芬
;
论文数:
引用数:
h-index:
机构:
徐九韵
.
科学技术与工程,
2005,
(24)
:1898
-1902
[6]
R-means:以关联规则为簇中心的文本聚类
[J].
龙昊
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学计算机科学与技术系,华中科技大学计算机科学与技术系,华中科技大学计算机科学与技术系武汉,武汉,武汉
龙昊
;
论文数:
引用数:
h-index:
机构:
冯剑琳
;
李曲
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学计算机科学与技术系,华中科技大学计算机科学与技术系,华中科技大学计算机科学与技术系武汉,武汉,武汉
李曲
.
计算机科学,
2005,
(09)
:156
-159
[7]
一种文本聚类算法
[J].
李向军
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学机电工程学院,西安电子科技大学机电工程学院,东莞理工学院计算机科学与技术系陕西西安西安文理学院计算机科学系,陕西西安,陕西西安,广东东莞
李向军
;
徐国华
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学机电工程学院,西安电子科技大学机电工程学院,东莞理工学院计算机科学与技术系陕西西安西安文理学院计算机科学系,陕西西安,陕西西安,广东东莞
徐国华
;
刘立平
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学机电工程学院,西安电子科技大学机电工程学院,东莞理工学院计算机科学与技术系陕西西安西安文理学院计算机科学系,陕西西安,陕西西安,广东东莞
刘立平
.
西北大学学报(自然科学版),
2005,
(02)
:155
-158
[8]
基于LSI和自组织神经网络的高效文本聚类方法
[J].
论文数:
引用数:
h-index:
机构:
徐建锁
;
论文数:
引用数:
h-index:
机构:
王正欧
.
天津大学学报,
2004,
(11)
:1026
-1030
[9]
数据挖掘中基于模型的聚类分析方法研究
[J].
张剑飞
论文数:
0
引用数:
0
h-index:
0
机构:
东北师范大学计算机学院
张剑飞
;
王辉
论文数:
0
引用数:
0
h-index:
0
机构:
东北师范大学计算机学院
王辉
.
克山师专学报,
2004,
(03)
:87
-89
[10]
基于SOM网络的随机映射文本降维方法
[J].
论文数:
引用数:
h-index:
机构:
钱晓东
;
论文数:
引用数:
h-index:
机构:
王正欧
.
计算机应用,
2004,
(05)
:56
-58+61
←
1
2
3
→