词边界字向量的中文命名实体识别

被引:25
作者
姚霖 [1 ,2 ,3 ]
刘轶 [1 ]
李鑫鑫 [4 ]
刘宏 [2 ]
机构
[1] 深港产学研基地
[2] 北京大学信息科学技术学院
[3] 哈尔滨工业大学软件学院
[4] 哈尔滨工业大学深圳研究生院计算机科学与技术学院
关键词
机器学习; 中文命名体识别; 深度神经网络; 特征向量; 特征提取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
常见的基于机器学习的中文命名实体识别系统往往使用大量人工提取的特征,但特征提取费时费力,是一件十分繁琐的工作。为了减少中文命名实体识别对特征提取的依赖,构建了基于词边界字向量的中文命名实体识别系统。该方法利用神经元网络从大量未标注数据中,自动抽取出蕴含其中的特征信息,生成字特征向量。同时考虑到汉字不是中文语义的最基本单位,单纯的字向量会由于一字多义造成语义的混淆,因此根据同一个字在词中处于不同位置大多含义不同的特点,将单个字在词语中所处的位置信息加入到字特征向量中,形成词边界字向量,将其用于深度神经网络模型训练之中。在Sighan Bakeoff-3(2006)语料中取得了F189.18%的效果,接近当前国际先进水平,说明了该系统不仅摆脱了对特征提取的依赖,也减少了汉字一字多义产生的语义混淆。
引用
收藏
页码:37 / 42
页数:6
相关论文
共 2 条
[1]
Combining self learning and active learning for Chinese Named Entity Recognition [J].
Yao L. ;
Sun C. ;
Wang X. ;
Wang X. .
Journal of Software, 2010, 5 (05) :530-537
[2]
Continuous space language models.[J].Holger Schwenk.Computer Speech & Language.2006, 3