基于LSTM网络的序列标注中文分词法

被引：65

作者：

任智慧 ^{[1
,2
]}

徐浩煜 ^{[2
,3
]}

封松林 ^{[2
,3
]}

周晗 ^{[2
]}

施俊 ^{[1
]}

机构：

[1] 上海大学通信与信息工程学院

[2] 中国科学院上海高等研究院

[3] 中国科学院大学

来源：

计算机应用研究 | 2017年 / 34卷 / 05期

关键词：

中文分词; LSTM; 字嵌入; 自然语言处理;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

当前主流的中文分词方法是基于字标注的传统机器学习方法,但传统机器学习方法需要人为地从中文文本中配置并提取特征,存在词库维度高且利用CPU训练模型时间长的缺点。针对以上问题进行了研究,提出基于LSTM(long short-term memory)网络模型的改进方法,采用不同词位标注集并加入预先训练的字嵌入向量(character embedding)进行中文分词。在中文分词评测常用的语料上进行实验对比结果表明,基于LSTM网络模型的方法能得到比当前传统机器学习方法更好的性能;采用六词位标注并加入预先训练的字嵌入向量能够取得相对最好的分词性能;而且利用GPU可以大大缩短深度神经网络模型的训练时间;LSTM网络模型的方法也更容易推广并应用到其他自然语言处理中序列标注的任务。

引用

页码：1321 / 1324+1341 +1341

页数：5

共 8 条

[1] 基于链式条件随机场的中文分词改进方法 [J].