结合语义扩展和卷积神经网络的中文短文本分类方法

被引:15
作者
卢玲
杨武
杨有俊
陈梦晗
机构
[1] 重庆理工大学计算机科学与工程学院
关键词
新闻标题分类; 语义扩展; 卷积神经网络; 同义词; 语义组合;
D O I
暂无
中图分类号
TP183 [人工神经网络与计算]; TP391.1 [文字信息处理];
学科分类号
摘要
中文新闻标题通常包含一个或几十个词,由于字符数少、特征稀疏,在分类问题中难以提升正确率。为解决此问题,提出了基于Word Embedding的文本语义扩展方法。首先,将新闻标题扩展为(标题、副标题、主题词)构成的三元组,用标题的同义词结合词性过滤方法构造副标题,对多尺度滑动窗口内的词进行语义组合,提取主题词;然后,针对扩展文本构造卷积神经网络(CNN)分类模型,该模型通过max pooling及随机dropout进行特征过滤及防止过拟合;最后,将标题、副标题拼接为双词表示,与多主题词集分别作为模型的输入。在2017自然语言处理与中文计算评测(NLP&CC2017)的新闻标题分类数据集上进行实验。实验结果表明,用三元组扩展结合相应的CNN模型在18个类别新闻标题上分类的正确率为79.42%,比未经扩展的CNN模型提高了9.5%,且主题词扩展加快了模型的收敛速度,验证了三元组扩展方法及所构建CNN分类模型的有效性。
引用
收藏
页码:3498 / 3503
页数:6
相关论文
共 8 条
  • [1] 基于集成学习的标题分类算法研究[J].高元,刘柏嵩. 计算机应用研究.2017(04)
  • [2] 基于背景重构与边缘相关短文本特征选择方法[J].张海涛,王斌君,王靖亚. 武汉大学学报(工学版).2016(03)
  • [3] 融合BTM主题特征的短文本分类方法[J].郑诚,吴文岫,代宁. 计算机工程与应用.2016(13)
  • [4] 基于词矢量相似度的短文本分类[J].马成龙,姜亚松,李艳玲,张艳,颜永红. 山东大学学报(理学版).2014(12)
  • [5] Semanticexpansionusingwordembeddingclusteringandconvolutionalneuralnetworkforimprovingshorttextclassification[J].PengWang,BoXu,JiamingXu,GuanhuaTian,Cheng-LinLiu,HongweiHao. Neurocomputing.2015
  • [6] CompositioninDistributionalModelsofSemantics[J].JeffMitchell,MirellaLapata. CognitiveScience.2010(8)
  • [7] Shorttextsimilaritybasedonprobabilistictopics[J].XiaojunQuan,GangLiu,ZhiLu,XingliangNi,LiuWenyin. KnowledgeandInformationSystems.2010(3)
  • [8] Retrievalmodelsforquestionandanswerarchives.2XueX,JeonJ,CroftWB.Proceedingsofthe31stannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval.2008