基于高效用神经网络的文本分类方法

被引:26
作者
吴玉佳
李晶
宋成芳
常军
机构
[1] 武汉大学计算机学院
关键词
数据挖掘; 关联规则; 高效用项集; 自然语言处理; 文本分类; 神经网络;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP183 [人工神经网络与计算];
学科分类号
120506 [数字人文]; 140502 [人工智能];
摘要
现有的基于深度学习的文本分类方法没有考虑文本特征的重要性和特征之间的关联关系,影响了分类的准确率.针对此问题,本文提出一种基于高效用神经网络(High Utility Neural Networks,HUNN)的文本分类模型,可以有效地表示文本特征的重要性及其关联关系.利用高效用项集挖掘(Mining High Utility Itemsets,MHUI)算法获取数据集中各个特征的重要性以及共现频率.其中,共现频率在一定程度上反映了特征之间的关联关系.将MHUI作为HUNN的挖掘层,用于挖掘每个类别数据中重要性和关联性强的文本特征.然后将这些特征作为神经网络的输入,再经过卷积层进一步提炼类别表达能力更强的高层次文本特征,从而提高模型分类的准确率.通过在6个公开的基准数据集上进行实验分析,提出的算法优于卷积神经网络(Convolutional Neural Networks,CNN),循环神经网络(Recurrent Neural Networks,RNN),循环卷积神经网络(Recurrent Convolutional Neural Networks,RCNN),快速文本分类(Fast Text Classifier,FAST),分层注意力网络(Hierarchical Attention Networks,HAN)等5个基准算法.
引用
收藏
页码:279 / 284
页数:6
相关论文
共 4 条
[1]
基于差集的高效用项集挖掘方法 [J].
黄坤 ;
吴玉佳 ;
李晶 .
电子学报, 2018, 46 (08) :1804-1814
[2]
基于主动学习和否定选择的垃圾邮件分类算法 [J].
胡小娟 ;
刘磊 ;
邱宁佳 .
电子学报, 2018, 46 (01) :203-209
[3]
KNN with TF-IDF based Framework for Text Categorization.[J].Bruno Trstenjak;Sasa Mikac;Dzenana Donko.Procedia Engineering.2014, C
[4]
A Few Useful Things to Know About Machine Learning [J].
Domingos, Pedro .
COMMUNICATIONS OF THE ACM, 2012, 55 (10) :78-87