基于带噪观测的远监督神经网络关系抽取

被引:9
作者
叶育鑫 [1 ,2 ]
薛环 [1 ]
王璐 [3 ]
欧阳丹彤 [1 ,2 ]
机构
[1] 吉林大学计算机科学与技术学院
[2] 符号计算与知识工程教育部重点实验室(吉林大学)
[3] 北京大学北京国际数学研究中心
关键词
远监督; 关系抽取; 噪声标签;
D O I
10.13328/j.cnki.jos.005929
中图分类号
TP391.1 [文字信息处理]; TP183 [人工神经网络与计算];
学科分类号
摘要
远监督关系抽取的最大优势是通过知识库和自然语言文本的自动对齐生成标记数据.这种简单的自动对齐机制在将人从繁重的样本标注工作中解放出来的同时,不可避免地会产生各种错误数据标记,进而影响构建高质量的关系抽取模型.针对远监督关系抽取任务中的标记噪声问题,提出"最终句子对齐的标签是基于某些未知因素所生成的带噪观测结果"这一假设.并在此假设的基础上,构建由编码层、基于噪声分布的注意力层、真实标签输出层和带噪观测层的新型关系抽取模型.模型利用自动标记的数据学习真实标签到噪声标签的转移概率,并在测试阶段,通过真实标签输出层得到最终的关系分类.随后,研究带噪观测模型与深度神经网络的结合,重点讨论基于深度神经网络编码的噪声分布注意力机制以及深度神经网络框架下不均衡样本的降噪处理.通过以上研究,进一步提升基于带噪观测远监督关系抽取模型的抽取精度和鲁棒性.最后,在公测数据集和同等参数设置下进行带噪观测远监督关系抽取模型的验证实验,通过分析样本噪声的分布情况,对在各种样本噪声分布下的带噪观测模型进行性能评价,并与现有的主流基线方法进行比较.结果显示,所提出的带噪观测模型具有更高的准确率和召回率.
引用
收藏
页码:1025 / 1038
页数:14
相关论文
共 78 条
[1]  
"Noise tolerance under risk minimization,". N. Manwani,P. S. Sastry. IEEETrans. Cybern . 2013
[2]  
"Noise tolerance under risk minimization,". N. Manwani,P. S. Sastry. IEEETrans. Cybern . 2013
[3]  
Class noise mitigation through instance weighting. Rebbapragada U,Brodley C E. Machine Learning: ECML2007 . 2007
[4]  
Class noise mitigation through instance weighting. Rebbapragada U,Brodley C E. Machine Learning: ECML2007 . 2007
[5]   深度学习实体关系抽取研究综述 [J].
鄂海红 ;
张文静 ;
肖思琪 ;
程瑞 ;
胡莺夕 ;
周筱松 ;
牛佩晴 .
软件学报, 2019, 30 (06) :1793-1818
[6]   深度学习实体关系抽取研究综述 [J].
鄂海红 ;
张文静 ;
肖思琪 ;
程瑞 ;
胡莺夕 ;
周筱松 ;
牛佩晴 .
软件学报, 2019, 30 (06) :1793-1818
[7]   融合用户相似度的影视推荐系统研究 [J].
徐红艳 ;
赵宏 ;
王嵘冰 ;
付瀚臣 ;
刘逸伦 .
辽宁大学学报(自然科学版), 2018, 45 (03) :193-200
[8]   融合用户相似度的影视推荐系统研究 [J].
徐红艳 ;
赵宏 ;
王嵘冰 ;
付瀚臣 ;
刘逸伦 .
辽宁大学学报(自然科学版), 2018, 45 (03) :193-200
[9]   关系抽取中基于本体的远监督样本扩充 [J].
欧阳丹彤 ;
瞿剑峰 ;
叶育鑫 .
软件学报, 2014, 25 (09) :2088-2101
[10]   关系抽取中基于本体的远监督样本扩充 [J].
欧阳丹彤 ;
瞿剑峰 ;
叶育鑫 .
软件学报, 2014, 25 (09) :2088-2101