融入自注意力机制的社交媒体命名实体识别

被引:133
作者
李明扬
孔芳
机构
[1] 苏州大学计算机科学与技术学院
基金
国家重点研发计划;
关键词
命名实体识别; 中文社交媒体; 自注意力机制;
D O I
10.16511/j.cnki.qhdxxb.2019.25.005
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
相比规范新闻文本中命名实体识别(named entity recognition,NER),中文社交媒体中命名实体识别的性能偏低,这主要受限于文本的规范性和标注语料的规模。近年来中文社交媒体的命名实体识别研究主要针对标注语料规模小这一问题,倾向于使用外部知识或者借助联合训练来提升最终的识别性能,但对社交媒体文本不规范导致的对文本自身蕴含特征的挖掘不够这一问题的研究很少。该文着眼于文本自身,提出了一种结合双向长短时记忆和自注意力机制的命名实体识别方法。该方法通过在多个不同子空间捕获上下文相关信息来更好地理解和表示句子结构,充分挖掘文本自身蕴含的特征,并最终提升不规范文本的实体识别性能。在Weibo NER公开语料上进行了多组对比实验,实验结果验证了方法的有效性。结果表明:在不使用外部资源和联合训练的情况下,命名实体识别的F1值达到了58.76%。
引用
收藏
页码:461 / 467
页数:7
相关论文
共 3 条
[1]
视觉注意力机制及其应用研究 [D]. 
冯辉 .
华北电力大学(北京),
2011
[2]
基于条件随机场(CRFs)的中文词性标注方法 [J].
洪铭材 ;
张阔 ;
唐杰 ;
李涓子 .
计算机科学, 2006, (10) :148-151+155
[3]
基于向量空间模型的文本分类系统的研究与实现 [J].
陈治纲 ;
何丕廉 ;
孙越恒 ;
郑小慎 .
中文信息学报, 2005, (01) :36-41