学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于参考区域的k-means文本聚类算法
被引:8
作者
:
论文数:
引用数:
h-index:
机构:
索红光
王玉伟
论文数:
0
引用数:
0
h-index:
0
机构:
中国石油大学计算机与通信工程学院
王玉伟
机构
:
[1]
中国石油大学计算机与通信工程学院
来源
:
计算机工程与设计
|
2009年
/ 30卷
/ 02期
关键词
:
文本聚类;
k-means;
CURD;
向量空间模型;
参考区域;
D O I
:
10.16208/j.issn1000-7024.2009.02.029
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
k-means是目前常用的文本聚类算法,该算法的主要缺点需要人工指定聚类的最终个数k及相应的初始中心点。针对这些缺点,提出一种基于参考区域的初始化方法,自动生成k-means的初始化分区,并且在参考区域的生成过程中,设计一种求最大斜率(绝对值)的方法确定自动阈值。理论分析和实验结果表明,该改进算法能有效的提高文本聚类的精度,且具有可行的效率。
引用
收藏
页码:401 / 403+407 +407
页数:4
相关论文
共 6 条
[1]
数据结构.[M].严蔚敏;吴伟民编著;.清华大学出版社.2002,
[2]
文档聚类综述
[J].
刘远超
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
刘远超
;
论文数:
引用数:
h-index:
机构:
王晓龙
;
徐志明
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
徐志明
;
论文数:
引用数:
h-index:
机构:
关毅
.
中文信息学报,
2006,
(03)
:55
-62
[3]
一种基于自动阈值发现的文本聚类方法
[J].
张猛
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院,东北大学信息科学与工程学院,东北大学信息科学与工程学院沈阳,沈阳,沈阳
张猛
;
王大玲
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院,东北大学信息科学与工程学院,东北大学信息科学与工程学院沈阳,沈阳,沈阳
王大玲
;
论文数:
引用数:
h-index:
机构:
于戈
.
计算机研究与发展,
2004,
(10)
:1748
-1753
[4]
一种基于参考点和密度的快速聚类算法
[J].
马帅
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
马帅
;
王腾蛟
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
王腾蛟
;
论文数:
引用数:
h-index:
机构:
唐世渭
;
杨冬青
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
杨冬青
;
高军
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
高军
.
软件学报,
2003,
(06)
:1089
-1095
[5]
基于免疫规划的K-means聚类算法
[J].
行小帅
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学雷达信号处理国家重点实验室,西安通信学院计算机与信息工程系,西安电子科技大学雷达信号处理国家重点实验室西安,山西师范大学物理与信息工程学院,临汾,西安,西安
行小帅
;
论文数:
引用数:
h-index:
机构:
潘进
;
焦李成
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学雷达信号处理国家重点实验室,西安通信学院计算机与信息工程系,西安电子科技大学雷达信号处理国家重点实验室西安,山西师范大学物理与信息工程学院,临汾,西安,西安
焦李成
.
计算机学报,
2003,
(05)
:605
-610
[6]
Concept decompositions for large sparse text data using clustering
[J].
Dhillon, IS
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Texas, Dept Comp Sci, Austin, TX 78712 USA
Univ Texas, Dept Comp Sci, Austin, TX 78712 USA
Dhillon, IS
;
Modha, DS
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Texas, Dept Comp Sci, Austin, TX 78712 USA
Modha, DS
.
MACHINE LEARNING,
2001,
42
(1-2)
:143
-175
←
1
→
共 6 条
[1]
数据结构.[M].严蔚敏;吴伟民编著;.清华大学出版社.2002,
[2]
文档聚类综述
[J].
刘远超
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
刘远超
;
论文数:
引用数:
h-index:
机构:
王晓龙
;
徐志明
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
徐志明
;
论文数:
引用数:
h-index:
机构:
关毅
.
中文信息学报,
2006,
(03)
:55
-62
[3]
一种基于自动阈值发现的文本聚类方法
[J].
张猛
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院,东北大学信息科学与工程学院,东北大学信息科学与工程学院沈阳,沈阳,沈阳
张猛
;
王大玲
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院,东北大学信息科学与工程学院,东北大学信息科学与工程学院沈阳,沈阳,沈阳
王大玲
;
论文数:
引用数:
h-index:
机构:
于戈
.
计算机研究与发展,
2004,
(10)
:1748
-1753
[4]
一种基于参考点和密度的快速聚类算法
[J].
马帅
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
马帅
;
王腾蛟
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
王腾蛟
;
论文数:
引用数:
h-index:
机构:
唐世渭
;
杨冬青
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
杨冬青
;
高军
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学技术系
高军
.
软件学报,
2003,
(06)
:1089
-1095
[5]
基于免疫规划的K-means聚类算法
[J].
行小帅
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学雷达信号处理国家重点实验室,西安通信学院计算机与信息工程系,西安电子科技大学雷达信号处理国家重点实验室西安,山西师范大学物理与信息工程学院,临汾,西安,西安
行小帅
;
论文数:
引用数:
h-index:
机构:
潘进
;
焦李成
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学雷达信号处理国家重点实验室,西安通信学院计算机与信息工程系,西安电子科技大学雷达信号处理国家重点实验室西安,山西师范大学物理与信息工程学院,临汾,西安,西安
焦李成
.
计算机学报,
2003,
(05)
:605
-610
[6]
Concept decompositions for large sparse text data using clustering
[J].
Dhillon, IS
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Texas, Dept Comp Sci, Austin, TX 78712 USA
Univ Texas, Dept Comp Sci, Austin, TX 78712 USA
Dhillon, IS
;
Modha, DS
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Texas, Dept Comp Sci, Austin, TX 78712 USA
Modha, DS
.
MACHINE LEARNING,
2001,
42
(1-2)
:143
-175
←
1
→