基于BI-LSTM-CRF模型的中文分词法

被引:20
作者
张子睿
刘云清
机构
[1] 长春理工大学电子信息工程学院
关键词
中文分词; BI-LSTM-CRF; 词位标注;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
递归神经网络能够很好地处理序列标记问题,已被广泛应用到自然语言处理(NLP)任务中。提出了一种基于长短期记忆(LSTM)神经网络改进的双向长短期记忆条件随机场(BI-LSTM-CRF)模型,不仅保留了LSTM能够利用上下文信息的特性,同时能够通过CRF层考虑输出标签之间前后的依赖关系。利用该分词模型,通过加入预训练的字嵌入向量,以及使用不同词位标注集在Bakeoff2005数据集上进行的分词实验,结果表明:BI-LSTM-CRF模型比LSTM和双向LSTM模型具有更好的分词性能,同时具有很好地泛化能力;相比四词位,采用六词位标注集的神经网络模型能够取得更好的分词性能。
引用
收藏
页码:87 / 92
页数:6
相关论文
共 4 条
[1]  
信息处理用现代汉语分词规范及自动分词方法.[M].刘源等著;.广西科学技术出版社.1994,
[2]   Long short-term memory [J].
Hochreiter, S ;
Schmidhuber, J .
NEURAL COMPUTATION, 1997, 9 (08) :1735-1780
[3]   基于序列标注的中文分词、词性标注模型比较分析 [J].
刘一佳 ;
车万翔 ;
刘挺 ;
张梅山 .
中文信息学报, 2013, (04) :30-36
[4]   中文分词十年回顾 [J].
黄昌宁 ;
赵海 .
中文信息学报, 2007, (03) :8-19