结合五笔字形与上下文相关字向量的命名实体识别

被引:8
作者
张栋
王铭涛
陈文亮
机构
[1] 苏州大学计算机科学与技术学院
关键词
语言模型; 命名实体识别; 五笔字形; 上下文相关字向量; 无标注语料;
D O I
10.19678/j.issn.1000-3428.0057265
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
命名实体识别(NER)作为自然语言处理的重要部分,在信息抽取和知识图谱等任务中得到广泛应用。然而目前中文预训练语言模型通常仅对上下文中的字符进行建模,忽略了中文字符的字形结构。提出2种结合五笔字形的上下文相关字向量表示方法,以增强字向量的语义表达能力。第一种方法分别对字符和字形抽取特征并联合建模得到字向量表示,第二种方法将五笔字形作为辅助信息拼接到字向量中,训练一个基于字符和五笔字形的混合语言模型。实验结果表明,所提两种方法可以有效提升中文NER系统的性能,且结合五笔字形的上下文相关字向量表示方法的系统性能优于基于单一字符的语言模型。
引用
收藏
页码:94 / 101
页数:8
相关论文
共 3 条
[1]   面向文本命名实体识别的深层网络模型 [J].
李慧林 ;
柴玉梅 ;
孙穆祯 .
小型微型计算机系统, 2019, 40 (01) :50-57
[2]   基于维基百科的中文嵌套命名实体识别语料库自动构建 [J].
李雁群 ;
何云琪 ;
钱龙华 ;
周国栋 .
计算机工程, 2018, 44 (11) :76-82
[3]  
TaggerOne: joint named entity recognition and normalization with semi-Markov Models[J] . Leaman Robert,Lu Zhiyong.Bioinformatics (Oxford, England) . 2016 (18)