基于自动编码器的短文本特征提取及聚类研究

被引:91
作者
刘勘
袁蕴英
机构
[1] 中南财经政法大学信息与安全工程学院
关键词
深度学习; 自动编码器; 特征提取; 聚类;
D O I
10.13209/j.0479-8023.2015.040
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
针对短文本的特点,提出一种基于深层噪音自动编码器的特征提取及聚类算法。该算法利用深度学习网络,将高维、稀疏的短文本空间向量变换到新的低维、本质特征空间。首先在自动编码器的基础上,引入L1范式惩罚项来避免模型过分拟合,然后添加噪音项以提高算法的鲁棒性。实验结果表明,将提取的文本特征应用于短文本聚类,显著提高了聚类的效果,有效地解决了短文本空间向量的高维、稀疏问题。
引用
收藏
页码:282 / 288
页数:7
相关论文
共 5 条
[1]
基于微博短文本的用户兴趣建模方法 [J].
邱云飞 ;
王琳颍 ;
邵良杉 ;
郭红梅 .
计算机工程, 2014, 40 (02) :275-279
[2]
基于自动编码器的中文词汇特征无监督学习 [J].
张开旭 ;
周昌乐 .
中文信息学报, 2013, 27 (05) :1-7+92
[3]
结合语义与统计的特征降维短文本聚类 [J].
杨婉霞 ;
孙理和 ;
黄永峰 .
计算机工程, 2012, 38 (22) :171-175
[4]
Enriching short text representation in microblog for clustering [J].
Tang, Jiliang ;
Wang, Xufei ;
Gao, Huiji ;
Hu, Xia ;
Liu, Huan .
FRONTIERS OF COMPUTER SCIENCE, 2012, 6 (01) :88-101
[5]
Semantic hashing.[J].Ruslan Salakhutdinov;Geoffrey Hinton.International Journal of Approximate Reasoning.2008, 7