融合多特征的基于远程监督的中文领域实体关系抽取

被引:22
作者
王斌 [1 ]
郭剑毅 [1 ,2 ]
线岩团 [1 ,2 ]
王红斌 [1 ,2 ]
余正涛 [1 ,2 ]
机构
[1] 昆明理工大学信息工程与自动化学院
[2] 昆明理工大学智能信息处理重点实验室
关键词
远程监督; 实体关系抽取; 领域知识库; 特征融合; 隐含狄利克雷分布主题模型;
D O I
10.16451/j.cnki.issn1003-6059.201902005
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
针对从未标记的文本中抽取中文领域实体关系的问题,文中提出基于远程监督的领域实体属性关系抽取的混合方法,利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料.针对远程监督方法标注数据存在大量噪声的问题,采用隐含狄利克雷分布主题模型抽取主题关键词,再与关系类型进行相似度计算和对关键词模式匹配进行去噪.最后提取词性特征、依存关系特征和短语句法树特征,并进行融合,训练关系抽取模型.实验表明,3种特征融合的F值较高,抽取性能较好.
引用
收藏
页码:133 / 143
页数:11
相关论文
共 6 条
[1]
Long short-term memory [J].
Hochreiter, S ;
Schmidhuber, J .
NEURAL COMPUTATION, 1997, 9 (08) :1735-1780
[2]
基于在线百科的知识库构建方法研究 [J].
王磊 ;
董玮 ;
董少林 ;
姚萍 .
信息系统工程, 2018, (01) :110-111
[3]
基于维基百科的领域概念语义知识库的自动构建方法 [J].
张巧燕 ;
林民 ;
张树钧 .
计算机应用研究, 2018, 35 (01) :130-134+139
[4]
面向中文网络百科的语义知识库构建 [J].
刘剑 ;
许洪波 ;
唐慧丰 ;
贾岩涛 ;
程学旗 .
系统仿真学报, 2016, (03) :542-548
[5]
基于弱监督学习的中文网络百科关系抽取 [J].
贾真 ;
何大可 ;
杨燕 ;
杨宇飞 ;
冶忠林 .
智能系统学报, 2015, 10 (01) :113-119
[6]
关系抽取中基于本体的远监督样本扩充 [J].
欧阳丹彤 ;
瞿剑峰 ;
叶育鑫 .
软件学报, 2014, 25 (09) :2088-2101