基于CNN和LSTM混合模型的中文词性标注

被引:21
作者
谢逸
饶文碧
段鹏飞
陈振东
机构
[1] 武汉理工大学计算机科学与技术学院
关键词
词性标注; 卷积神经网络; 长短期记忆; 实验分析;
D O I
10.14188/j.1671-8836.2017.03.009
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
中文词性标注具有重要的作用,它的准确性和标注速度直接影响到自然语言处理的后续任务.提出一种基于CNN(convolutional neural network)和LSTM(long-short term memory)混合模型进行中文词性标注.该模型采用三层结构,用词向量和CNN的滑动窗口特性产生词语表示特征,LSTM的时序性来产生词性标注的序列标签.分别在PFR《人民日报》语料库、CTB7.0和CoNLL09语料库上对该模型进行测试,在未加入任何人工特征的条件下,对词语进行词性标注,词性标注效果好于HMM(hidden Markov model)、MLP(multi-layer perceptron)、CNN和LSTM.
引用
收藏
页码:246 / 250
页数:5
相关论文
共 5 条
[1]   基于SVMTool的中文词性标注 [J].
王丽杰 ;
车万翔 ;
刘挺 .
中文信息学报, 2009, 23 (04) :16-21
[2]   一种基于规则优先级的词性标注方法 [J].
王广正 ;
王喜凤 .
安徽工业大学学报(自然科学版), 2008, (04) :426-429
[3]   北京大学现代汉语语料库基本加工规范(续) [J].
俞士汶 ;
段慧明 ;
朱学锋 ;
孙斌 .
中文信息学报, 2002, (06) :58-64
[4]   汉语词性自动标注系统的设计与实现 [J].
王素格 ;
张永奎 .
计算机工程, 2001, (03) :7-8+65
[5]   Long short-term memory [J].
Hochreiter, S ;
Schmidhuber, J .
NEURAL COMPUTATION, 1997, 9 (08) :1735-1780