基于自动编码器的短文本特征提取及聚类研究

被引：91

作者：

刘勘

袁蕴英

机构：

[1] 中南财经政法大学信息与安全工程学院

来源：

北京大学学报(自然科学版) | 2015年 / 51卷 / 02期

关键词：

深度学习; 自动编码器; 特征提取; 聚类;

D O I：

10.13209/j.0479-8023.2015.040

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

针对短文本的特点,提出一种基于深层噪音自动编码器的特征提取及聚类算法。该算法利用深度学习网络,将高维、稀疏的短文本空间向量变换到新的低维、本质特征空间。首先在自动编码器的基础上,引入L1范式惩罚项来避免模型过分拟合,然后添加噪音项以提高算法的鲁棒性。实验结果表明,将提取的文本特征应用于短文本聚类,显著提高了聚类的效果,有效地解决了短文本空间向量的高维、稀疏问题。

引用

页码：282 / 288

页数：7

共 5 条

[1]

基于微博短文本的用户兴趣建模方法 [J].