学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于LSTM网络的序列标注中文分词法
被引:65
作者
:
任智慧
论文数:
0
引用数:
0
h-index:
0
机构:
上海大学通信与信息工程学院
中国科学院上海高等研究院
上海大学通信与信息工程学院
任智慧
[
1
,
2
]
论文数:
引用数:
h-index:
机构:
徐浩煜
[
2
,
3
]
论文数:
引用数:
h-index:
机构:
封松林
[
2
,
3
]
论文数:
引用数:
h-index:
机构:
周晗
[
2
]
施俊
论文数:
0
引用数:
0
h-index:
0
机构:
上海大学通信与信息工程学院
上海大学通信与信息工程学院
施俊
[
1
]
机构
:
[1]
上海大学通信与信息工程学院
[2]
中国科学院上海高等研究院
[3]
中国科学院大学
来源
:
计算机应用研究
|
2017年
/ 34卷
/ 05期
关键词
:
中文分词;
LSTM;
字嵌入;
自然语言处理;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
当前主流的中文分词方法是基于字标注的传统机器学习方法,但传统机器学习方法需要人为地从中文文本中配置并提取特征,存在词库维度高且利用CPU训练模型时间长的缺点。针对以上问题进行了研究,提出基于LSTM(long short-term memory)网络模型的改进方法,采用不同词位标注集并加入预先训练的字嵌入向量(character embedding)进行中文分词。在中文分词评测常用的语料上进行实验对比结果表明,基于LSTM网络模型的方法能得到比当前传统机器学习方法更好的性能;采用六词位标注并加入预先训练的字嵌入向量能够取得相对最好的分词性能;而且利用GPU可以大大缩短深度神经网络模型的训练时间;LSTM网络模型的方法也更容易推广并应用到其他自然语言处理中序列标注的任务。
引用
收藏
页码:1321 / 1324+1341 +1341
页数:5
相关论文
共 8 条
[1]
基于链式条件随机场的中文分词改进方法
[J].
论文数:
引用数:
h-index:
机构:
徐浩煜
;
任智慧
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院上海高等研究院航空通讯技术联合实验室
上海大学通信与信息工程学院
中国科学院上海高等研究院航空通讯技术联合实验室
任智慧
;
施俊
论文数:
0
引用数:
0
h-index:
0
机构:
上海大学通信与信息工程学院
中国科学院上海高等研究院航空通讯技术联合实验室
施俊
;
论文数:
引用数:
h-index:
机构:
周晗
.
计算机应用与软件,
2016,
33
(12)
:211
-213+233
[2]
词位标注汉语分词中特征模板定量研究
[J].
论文数:
引用数:
h-index:
机构:
于江德
;
论文数:
引用数:
h-index:
机构:
王希杰
;
樊孝忠
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学技术学院
安阳师范学院计算机与信息工程学院
樊孝忠
.
计算机工程与设计,
2012,
33
(03)
:1239
-1244
[3]
基于字的词位标注汉语分词
[J].
论文数:
引用数:
h-index:
机构:
于江德
;
论文数:
引用数:
h-index:
机构:
睢丹
;
樊孝忠
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学技术学院
安阳师范学院计算机与信息工程学院
樊孝忠
.
山东大学学报(工学版),
2010,
40
(05)
:117
-122
[4]
基于子词的双层CRFs中文分词
[J].
黄德根
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与技术学院
黄德根
;
论文数:
引用数:
h-index:
机构:
焦世斗
;
周惠巍
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与技术学院
周惠巍
.
计算机研究与发展,
2010,
47
(05)
:962
-968
[5]
基于CRFs边缘概率的中文分词
[J].
罗彦彦
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系
罗彦彦
;
论文数:
引用数:
h-index:
机构:
黄德根
.
中文信息学报,
2009,
23
(05)
:3
-8
[6]
基于有效子串标注的中文分词
[J].
赵海
论文数:
0
引用数:
0
h-index:
0
机构:
香港城市大学中文翻译及语言学系
赵海
;
揭春雨
论文数:
0
引用数:
0
h-index:
0
机构:
香港城市大学中文翻译及语言学系
揭春雨
.
中文信息学报,
2007,
(05)
:8
-13
[7]
中文分词十年回顾
[J].
黄昌宁
论文数:
0
引用数:
0
h-index:
0
机构:
微软亚洲研究院
微软亚洲研究院
黄昌宁
;
赵海
论文数:
0
引用数:
0
h-index:
0
机构:
香港城市大学
微软亚洲研究院
赵海
.
中文信息学报,
2007,
(03)
:8
-19
[8]
Word Segmentation in Sentence Analysis. Andi Wu,Zixin Jiang. 1998 International Conference on Chinese Information Processing . 1998
←
1
→
共 8 条
[1]
基于链式条件随机场的中文分词改进方法
[J].
论文数:
引用数:
h-index:
机构:
徐浩煜
;
任智慧
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院上海高等研究院航空通讯技术联合实验室
上海大学通信与信息工程学院
中国科学院上海高等研究院航空通讯技术联合实验室
任智慧
;
施俊
论文数:
0
引用数:
0
h-index:
0
机构:
上海大学通信与信息工程学院
中国科学院上海高等研究院航空通讯技术联合实验室
施俊
;
论文数:
引用数:
h-index:
机构:
周晗
.
计算机应用与软件,
2016,
33
(12)
:211
-213+233
[2]
词位标注汉语分词中特征模板定量研究
[J].
论文数:
引用数:
h-index:
机构:
于江德
;
论文数:
引用数:
h-index:
机构:
王希杰
;
樊孝忠
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学技术学院
安阳师范学院计算机与信息工程学院
樊孝忠
.
计算机工程与设计,
2012,
33
(03)
:1239
-1244
[3]
基于字的词位标注汉语分词
[J].
论文数:
引用数:
h-index:
机构:
于江德
;
论文数:
引用数:
h-index:
机构:
睢丹
;
樊孝忠
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学技术学院
安阳师范学院计算机与信息工程学院
樊孝忠
.
山东大学学报(工学版),
2010,
40
(05)
:117
-122
[4]
基于子词的双层CRFs中文分词
[J].
黄德根
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与技术学院
黄德根
;
论文数:
引用数:
h-index:
机构:
焦世斗
;
周惠巍
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与技术学院
周惠巍
.
计算机研究与发展,
2010,
47
(05)
:962
-968
[5]
基于CRFs边缘概率的中文分词
[J].
罗彦彦
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系
罗彦彦
;
论文数:
引用数:
h-index:
机构:
黄德根
.
中文信息学报,
2009,
23
(05)
:3
-8
[6]
基于有效子串标注的中文分词
[J].
赵海
论文数:
0
引用数:
0
h-index:
0
机构:
香港城市大学中文翻译及语言学系
赵海
;
揭春雨
论文数:
0
引用数:
0
h-index:
0
机构:
香港城市大学中文翻译及语言学系
揭春雨
.
中文信息学报,
2007,
(05)
:8
-13
[7]
中文分词十年回顾
[J].
黄昌宁
论文数:
0
引用数:
0
h-index:
0
机构:
微软亚洲研究院
微软亚洲研究院
黄昌宁
;
赵海
论文数:
0
引用数:
0
h-index:
0
机构:
香港城市大学
微软亚洲研究院
赵海
.
中文信息学报,
2007,
(03)
:8
-19
[8]
Word Segmentation in Sentence Analysis. Andi Wu,Zixin Jiang. 1998 International Conference on Chinese Information Processing . 1998
←
1
→