基于多种特征池化的中文文本分类算法附视频

被引:11
作者
阳馨
蒋伟
刘晓玲
机构
[1] 四川水利职业技术学院
关键词
中文文本分类; 池化; 分类算法; Skip-gram; Softmax;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤及网页分类等领域有着广泛的应用价值.目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法.在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息.通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明,本文所给出的多种特征池化方法能够提高文本分类的准确率,证明了本文算法的有效性.
引用
收藏
页码:287 / 292
页数:6
相关论文
共 9 条
[1]   用BP神经网络实现中文文本分类 [J].
火善栋 .
计算机时代, 2015, (11) :58-61
[2]   基于情感字典与连词结合的中文文本情感分类 [J].
刘玉娇 ;
琚生根 ;
伍少梅 ;
苏翀 .
四川大学学报(自然科学版), 2015, 52 (01) :57-62
[3]   基于改进TFIDF算法的文本分类研究 [J].
郑霖 ;
徐德华 .
计算机与现代化, 2014, (09) :6-9+14
[4]   基于表示学习的中文分词算法探索 [J].
来斯惟 ;
徐立恒 ;
陈玉博 ;
刘康 ;
赵军 .
中文信息学报 , 2013, (05) :8-14
[5]   基于支持向量的迭代修正质心文本分类算法 [J].
王德庆 ;
张辉 .
北京航空航天大学学报, 2013, (02) :269-274
[6]   基于改进的模糊聚类RBF网络集成的文本分类方法 [J].
张爱科 ;
符保龙 ;
李辉 .
四川大学学报(自然科学版), 2012, (06) :1235-1239
[7]  
A nomogram was developed to enhance the use of multinomial logistic regression modeling in diagnostic research[J] . Loes C.M. Bertens,Karel G.M. Moons,Frans H. Rutten,Yvonne van Mourik,Arno W. Hoes,Johannes B. Reitsma.Journal of Clinical Epidemiology . 2015
[8]   Health assessment and fault classification for hydraulic pump based on LR and softmax regression [J].
Ding, Yu ;
Ma, Jian ;
Tian, Ye .
JOURNAL OF VIBROENGINEERING, 2015, 17 (04) :1805-1816
[9]  
Combining language and vision with a multimodal skip-gram model .2 Lazaridou A,Pham N T,Baroni M. Proceedings of the 2015Annual Conference of the North American Chapter of the ACL . 2015