基于LSTM网络的序列标注中文分词法

被引:65
作者
任智慧 [1 ,2 ]
徐浩煜 [2 ,3 ]
封松林 [2 ,3 ]
周晗 [2 ]
施俊 [1 ]
机构
[1] 上海大学通信与信息工程学院
[2] 中国科学院上海高等研究院
[3] 中国科学院大学
关键词
中文分词; LSTM; 字嵌入; 自然语言处理;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
当前主流的中文分词方法是基于字标注的传统机器学习方法,但传统机器学习方法需要人为地从中文文本中配置并提取特征,存在词库维度高且利用CPU训练模型时间长的缺点。针对以上问题进行了研究,提出基于LSTM(long short-term memory)网络模型的改进方法,采用不同词位标注集并加入预先训练的字嵌入向量(character embedding)进行中文分词。在中文分词评测常用的语料上进行实验对比结果表明,基于LSTM网络模型的方法能得到比当前传统机器学习方法更好的性能;采用六词位标注并加入预先训练的字嵌入向量能够取得相对最好的分词性能;而且利用GPU可以大大缩短深度神经网络模型的训练时间;LSTM网络模型的方法也更容易推广并应用到其他自然语言处理中序列标注的任务。
引用
收藏
页码:1321 / 1324+1341 +1341
页数:5
相关论文
共 8 条
[1]   基于链式条件随机场的中文分词改进方法 [J].
徐浩煜 ;
任智慧 ;
施俊 ;
周晗 .
计算机应用与软件, 2016, 33 (12) :211-213+233
[2]   词位标注汉语分词中特征模板定量研究 [J].
于江德 ;
王希杰 ;
樊孝忠 .
计算机工程与设计, 2012, 33 (03) :1239-1244
[3]   基于字的词位标注汉语分词 [J].
于江德 ;
睢丹 ;
樊孝忠 .
山东大学学报(工学版), 2010, 40 (05) :117-122
[4]   基于子词的双层CRFs中文分词 [J].
黄德根 ;
焦世斗 ;
周惠巍 .
计算机研究与发展, 2010, 47 (05) :962-968
[5]   基于CRFs边缘概率的中文分词 [J].
罗彦彦 ;
黄德根 .
中文信息学报, 2009, 23 (05) :3-8
[6]   基于有效子串标注的中文分词 [J].
赵海 ;
揭春雨 .
中文信息学报, 2007, (05) :8-13
[7]   中文分词十年回顾 [J].
黄昌宁 ;
赵海 .
中文信息学报, 2007, (03) :8-19
[8]  
Word Segmentation in Sentence Analysis. Andi Wu,Zixin Jiang. 1998 International Conference on Chinese Information Processing . 1998