学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
结合语义与统计的特征降维短文本聚类
被引:15
作者
:
论文数:
引用数:
h-index:
机构:
杨婉霞
[
1
,
2
]
论文数:
引用数:
h-index:
机构:
孙理和
[
3
]
论文数:
引用数:
h-index:
机构:
黄永峰
[
2
]
机构
:
[1]
甘肃农业大学工学院
[2]
清华大学电子工程系
[3]
西北师范大学外国语学院
来源
:
计算机工程
|
2012年
/ 38卷
/ 22期
关键词
:
特征选择;
聚类;
短文本;
向量空间模型;
语义;
降维;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
为解决文本聚类时文本的高维稀疏性问题,提出一种语义和统计特征相结合的短文本聚类算法。该算法通过语义词典对词汇的语义相关性分析实现一次降维,结合统计方法进行特征选择实现二次降维,并融合二次降维特征实现短文本聚类。实验结果表明,该算法具有较好的短文本聚类效果和效率。
引用
收藏
页码:171 / 175
页数:5
相关论文
共 7 条
[1]
文本分类中特征选择技术的研究
[D].
论文数:
引用数:
h-index:
机构:
王博
.
国防科学技术大学,
2009
[2]
SVM based adaptive learning method for text classification from positive and unlabeled documents
[J].
论文数:
引用数:
h-index:
机构:
Peng, Tao
;
论文数:
引用数:
h-index:
机构:
Zuo, Wanli
;
论文数:
引用数:
h-index:
机构:
He, Fengling
.
KNOWLEDGE AND INFORMATION SYSTEMS,
2008,
16
(03)
:281
-301
[3]
基于同义词词林的文本特征选择与加权研究
[J].
吕震宇
论文数:
0
引用数:
0
h-index:
0
机构:
河北理工大学经济管理学院
河北理工大学经济管理学院
吕震宇
;
林永民
论文数:
0
引用数:
0
h-index:
0
机构:
河北理工大学经济管理学院
河北理工大学经济管理学院
林永民
;
赵爽
论文数:
0
引用数:
0
h-index:
0
机构:
河北理工大学经济管理学院
河北理工大学经济管理学院
赵爽
;
朱卫东
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学计算机与信息技术学院
河北理工大学经济管理学院
朱卫东
.
情报杂志,
2008,
(05)
:130
-132
[4]
基于特征选择的轻量级入侵检测系统
[J].
论文数:
引用数:
h-index:
机构:
陈友
;
论文数:
引用数:
h-index:
机构:
程学旗
;
论文数:
引用数:
h-index:
机构:
李洋
;
论文数:
引用数:
h-index:
机构:
戴磊
.
软件学报,
2007,
(07)
:1639
-1651
[5]
一种基于语义和统计特征的中文文本特征表示方法
[J].
论文数:
引用数:
h-index:
机构:
赵鹏
;
论文数:
引用数:
h-index:
机构:
耿焕同
;
论文数:
引用数:
h-index:
机构:
蔡庆生
.
小型微型计算机系统,
2007,
(07)
:1311
-1313
[6]
基于领域词典的文本特征表示
[J].
论文数:
引用数:
h-index:
机构:
陈文亮
;
论文数:
引用数:
h-index:
机构:
朱靖波
;
论文数:
引用数:
h-index:
机构:
朱慕华
;
论文数:
引用数:
h-index:
机构:
姚天顺
.
计算机研究与发展,
2005,
(12)
:2155
-2160
[7]
最优特征子集选择问题
[J].
论文数:
引用数:
h-index:
机构:
陈彬
;
论文数:
引用数:
h-index:
机构:
洪家荣
;
论文数:
引用数:
h-index:
机构:
王亚东
.
计算机学报,
1997,
(02)
←
1
→
共 7 条
[1]
文本分类中特征选择技术的研究
[D].
论文数:
引用数:
h-index:
机构:
王博
.
国防科学技术大学,
2009
[2]
SVM based adaptive learning method for text classification from positive and unlabeled documents
[J].
论文数:
引用数:
h-index:
机构:
Peng, Tao
;
论文数:
引用数:
h-index:
机构:
Zuo, Wanli
;
论文数:
引用数:
h-index:
机构:
He, Fengling
.
KNOWLEDGE AND INFORMATION SYSTEMS,
2008,
16
(03)
:281
-301
[3]
基于同义词词林的文本特征选择与加权研究
[J].
吕震宇
论文数:
0
引用数:
0
h-index:
0
机构:
河北理工大学经济管理学院
河北理工大学经济管理学院
吕震宇
;
林永民
论文数:
0
引用数:
0
h-index:
0
机构:
河北理工大学经济管理学院
河北理工大学经济管理学院
林永民
;
赵爽
论文数:
0
引用数:
0
h-index:
0
机构:
河北理工大学经济管理学院
河北理工大学经济管理学院
赵爽
;
朱卫东
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学计算机与信息技术学院
河北理工大学经济管理学院
朱卫东
.
情报杂志,
2008,
(05)
:130
-132
[4]
基于特征选择的轻量级入侵检测系统
[J].
论文数:
引用数:
h-index:
机构:
陈友
;
论文数:
引用数:
h-index:
机构:
程学旗
;
论文数:
引用数:
h-index:
机构:
李洋
;
论文数:
引用数:
h-index:
机构:
戴磊
.
软件学报,
2007,
(07)
:1639
-1651
[5]
一种基于语义和统计特征的中文文本特征表示方法
[J].
论文数:
引用数:
h-index:
机构:
赵鹏
;
论文数:
引用数:
h-index:
机构:
耿焕同
;
论文数:
引用数:
h-index:
机构:
蔡庆生
.
小型微型计算机系统,
2007,
(07)
:1311
-1313
[6]
基于领域词典的文本特征表示
[J].
论文数:
引用数:
h-index:
机构:
陈文亮
;
论文数:
引用数:
h-index:
机构:
朱靖波
;
论文数:
引用数:
h-index:
机构:
朱慕华
;
论文数:
引用数:
h-index:
机构:
姚天顺
.
计算机研究与发展,
2005,
(12)
:2155
-2160
[7]
最优特征子集选择问题
[J].
论文数:
引用数:
h-index:
机构:
陈彬
;
论文数:
引用数:
h-index:
机构:
洪家荣
;
论文数:
引用数:
h-index:
机构:
王亚东
.
计算机学报,
1997,
(02)
←
1
→