学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于自动编码器的短文本特征提取及聚类研究
被引:91
作者
:
论文数:
引用数:
h-index:
机构:
刘勘
论文数:
引用数:
h-index:
机构:
袁蕴英
机构
:
[1]
中南财经政法大学信息与安全工程学院
来源
:
北京大学学报(自然科学版)
|
2015年
/ 51卷
/ 02期
关键词
:
深度学习;
自动编码器;
特征提取;
聚类;
D O I
:
10.13209/j.0479-8023.2015.040
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
针对短文本的特点,提出一种基于深层噪音自动编码器的特征提取及聚类算法。该算法利用深度学习网络,将高维、稀疏的短文本空间向量变换到新的低维、本质特征空间。首先在自动编码器的基础上,引入L1范式惩罚项来避免模型过分拟合,然后添加噪音项以提高算法的鲁棒性。实验结果表明,将提取的文本特征应用于短文本聚类,显著提高了聚类的效果,有效地解决了短文本空间向量的高维、稀疏问题。
引用
收藏
页码:282 / 288
页数:7
相关论文
共 5 条
[1]
基于微博短文本的用户兴趣建模方法
[J].
论文数:
引用数:
h-index:
机构:
邱云飞
;
论文数:
引用数:
h-index:
机构:
王琳颍
;
论文数:
引用数:
h-index:
机构:
邵良杉
;
郭红梅
论文数:
0
引用数:
0
h-index:
0
机构:
阜新市实验高中
辽宁工程技术大学软件学院
郭红梅
.
计算机工程,
2014,
40
(02)
:275
-279
[2]
基于自动编码器的中文词汇特征无监督学习
[J].
论文数:
引用数:
h-index:
机构:
张开旭
;
论文数:
引用数:
h-index:
机构:
周昌乐
.
中文信息学报,
2013,
27
(05)
:1
-7+92
[3]
结合语义与统计的特征降维短文本聚类
[J].
论文数:
引用数:
h-index:
机构:
杨婉霞
;
论文数:
引用数:
h-index:
机构:
孙理和
;
论文数:
引用数:
h-index:
机构:
黄永峰
.
计算机工程,
2012,
38
(22)
:171
-175
[4]
Enriching short text representation in microblog for clustering
[J].
Tang, Jiliang
论文数:
0
引用数:
0
h-index:
0
机构:
Arizona State Univ, Tempe, AZ 85281 USA
Arizona State Univ, Tempe, AZ 85281 USA
Tang, Jiliang
;
Wang, Xufei
论文数:
0
引用数:
0
h-index:
0
机构:
Arizona State Univ, Tempe, AZ 85281 USA
Arizona State Univ, Tempe, AZ 85281 USA
Wang, Xufei
;
Gao, Huiji
论文数:
0
引用数:
0
h-index:
0
机构:
Arizona State Univ, Tempe, AZ 85281 USA
Arizona State Univ, Tempe, AZ 85281 USA
Gao, Huiji
;
Hu, Xia
论文数:
0
引用数:
0
h-index:
0
机构:
Arizona State Univ, Tempe, AZ 85281 USA
Arizona State Univ, Tempe, AZ 85281 USA
Hu, Xia
;
论文数:
引用数:
h-index:
机构:
Liu, Huan
.
FRONTIERS OF COMPUTER SCIENCE,
2012,
6
(01)
:88
-101
[5]
Semantic hashing.[J].Ruslan Salakhutdinov;Geoffrey Hinton.International Journal of Approximate Reasoning.2008, 7
←
1
→
共 5 条
[1]
基于微博短文本的用户兴趣建模方法
[J].
论文数:
引用数:
h-index:
机构:
邱云飞
;
论文数:
引用数:
h-index:
机构:
王琳颍
;
论文数:
引用数:
h-index:
机构:
邵良杉
;
郭红梅
论文数:
0
引用数:
0
h-index:
0
机构:
阜新市实验高中
辽宁工程技术大学软件学院
郭红梅
.
计算机工程,
2014,
40
(02)
:275
-279
[2]
基于自动编码器的中文词汇特征无监督学习
[J].
论文数:
引用数:
h-index:
机构:
张开旭
;
论文数:
引用数:
h-index:
机构:
周昌乐
.
中文信息学报,
2013,
27
(05)
:1
-7+92
[3]
结合语义与统计的特征降维短文本聚类
[J].
论文数:
引用数:
h-index:
机构:
杨婉霞
;
论文数:
引用数:
h-index:
机构:
孙理和
;
论文数:
引用数:
h-index:
机构:
黄永峰
.
计算机工程,
2012,
38
(22)
:171
-175
[4]
Enriching short text representation in microblog for clustering
[J].
Tang, Jiliang
论文数:
0
引用数:
0
h-index:
0
机构:
Arizona State Univ, Tempe, AZ 85281 USA
Arizona State Univ, Tempe, AZ 85281 USA
Tang, Jiliang
;
Wang, Xufei
论文数:
0
引用数:
0
h-index:
0
机构:
Arizona State Univ, Tempe, AZ 85281 USA
Arizona State Univ, Tempe, AZ 85281 USA
Wang, Xufei
;
Gao, Huiji
论文数:
0
引用数:
0
h-index:
0
机构:
Arizona State Univ, Tempe, AZ 85281 USA
Arizona State Univ, Tempe, AZ 85281 USA
Gao, Huiji
;
Hu, Xia
论文数:
0
引用数:
0
h-index:
0
机构:
Arizona State Univ, Tempe, AZ 85281 USA
Arizona State Univ, Tempe, AZ 85281 USA
Hu, Xia
;
论文数:
引用数:
h-index:
机构:
Liu, Huan
.
FRONTIERS OF COMPUTER SCIENCE,
2012,
6
(01)
:88
-101
[5]
Semantic hashing.[J].Ruslan Salakhutdinov;Geoffrey Hinton.International Journal of Approximate Reasoning.2008, 7
←
1
→