基于概率语义分布的短文本分类

被引:9
作者
马成龙 [1 ]
颜永红 [1 ,2 ]
机构
[1] 中国科学院声学研究所语言声学与内容理解重点实验室
[2] 新疆民族语音语言信息处理实验室
基金
国家高技术研究发展计划(863计划);
关键词
短文本分类; 词矢量; 语义分布; 高斯混合模型;
D O I
10.16383/j.aas.2016.c150268
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在短文本分类中,面对特征稀疏的短文本,如何充分利用文本中的每一个词语成为关键.本文提出概率语义分布模型的思想,首先通过查询词矢量词典,将文本转换为词矢量数据;其次,在概率语义分布模型的假设下利用混合高斯模型对无标注的文本数据进行通用背景语义模型训练;利用训练数据对通用模型进行自适应得到各个领域的目标领域语义分布模型;最后,在测试过程中,计算短文本属于领域模型的概率,得到最终的分类结果.实验结果表明,本文提出的方法能够从一定程度上利用短文本所提供的信息,有效降低了对训练数据的依赖性,相比于支持向量机(Support vector machine,SVM)和最大熵分类方法性能相对提高了17.7%.
引用
收藏
页码:1711 / 1717
页数:7
相关论文
共 6 条
[1]   Short text classification based on strong feature thesaurus [J].
Wang, Bing-kun ;
Huang, Yong-feng ;
Yang, Wan-xia ;
Li, Xing .
JOURNAL OF ZHEJIANG UNIVERSITY-SCIENCE C-COMPUTERS & ELECTRONICS, 2012, 13 (09) :649-659
[2]  
Semantic expansion using word embedding clustering and convolutional neural network for improving short text classification[J] . Peng Wang,Bo Xu,Jiaming Xu,Guanhua Tian,Cheng-Lin Liu,Hongwei Hao.Neurocomputing . 2015
[3]  
Speaker Verification Using Adapted Gaussian Mixture Models[J] . Douglas A. Reynolds,Thomas F. Quatieri,Robert B. Dunn.Digital Signal Processing . 2000 (1)
[4]  
An introduction to latent semantic analysis[J] . Thomas K. Landauer,Peter W. Foltz,Darrell Laham.Discourse Processes . 1998 (2-3)
[5]   Long short-term memory [J].
Hochreiter, S ;
Schmidhuber, J .
NEURAL COMPUTATION, 1997, 9 (08) :1735-1780
[6]  
Speaker identification and verification using Gaussian mixture speaker models[J] . Douglas A. Reynolds.Speech Communication . 1995 (1)