融合手工特征与双向LSTM结构的中文分词方法研究

被引:4
作者
徐伟
车万翔
刘挺
机构
[1] 哈尔滨工业大学计算机科学与技术学院
关键词
中文分词; 深度学习; 方法融合;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
分词作为中文自然语言处理的基础任务,既是学术界长期的研究重点,也是工业界的刚性需求。近年来,采用深度神经网络自动抽取特征并完成特征组合的方法取代传统的基于手工特征的方法,成为研究热点。不过,采用深度神经网络自动学习特征的方法在中文分词上效果并不突出。本文通过将手工特征与双向LSTM结构相结合,既融入了人类知识,又充分利用了深度神经网络的特征组合能力。实验结果表明,该种方法带来的分词效果提升非常明显。
引用
收藏
页码:169 / 172+177 +177
页数:5
相关论文
共 4 条
[1]   Long short-term memory [J].
Hochreiter, S ;
Schmidhuber, J .
NEURAL COMPUTATION, 1997, 9 (08) :1735-1780
[2]   统计与词典相结合的领域自适应中文分词 [J].
张梅山 ;
邓知龙 ;
车万翔 ;
刘挺 .
中文信息学报, 2012, 26 (02) :8-12
[3]   中文分词十年回顾 [J].
黄昌宁 ;
赵海 .
中文信息学报, 2007, (03) :8-19
[4]  
信息处理用现代汉语分词规范.[S].北京航空航天大学;燕山公司系统部;北京师范大学;中国标准技术咨询服务中心;机电部计算机与微电子中心;北京语言学院;水电科学院计算所;中国软件技术公司;机电部第四研究所.国家技术监督局.1992,