融合领域知识短语树核函数的中文领域实体关系抽取

被引:9
作者
陈鹏 [1 ]
郭剑毅 [1 ,2 ]
余正涛 [1 ,2 ]
严馨 [1 ,2 ]
张志坤 [1 ,2 ]
高盛祥 [1 ,2 ]
机构
[1] 昆明理工大学信息工程与自动化学院
[2] 昆明理工大学智能信息处理重点实验室
关键词
领域知识树; 核函数; 隐式关系抽取; 支持向量机;
D O I
10.13232/j.cnki.jnju.2015.01.025
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对在核函数方法中,传统短语树只包含通用领域信息难以训练出适应特定领域关系抽取模型的问题,本文提出一种融入领域知识短语树的中文领域实体关系抽取方法.基于Web上中文特定领域网站的信息结构特点,构建出能反映特定领域实体语义关系的领域知识树,并将其融合到实例句的句法树中,得到特定领域实体语义树.然后通过支持向量机训练,得到实体关系的分类模型,对特定领域实体关系进行抽取.在收集的600篇旅游领域语料上进行关系抽取实验,结果表明:本文所提出的方法优于不融入领域信息的方法,F值提高了3.4%.
引用
收藏
页码:181 / 186
页数:6
相关论文
共 7 条
[1]   领域本体概念实例、属性和属性值的抽取及关系预测 [J].
郭剑毅 ;
李真 ;
余正涛 ;
张志坤 .
南京大学学报(自然科学版), 2012, 48 (04) :383-389
[2]   基于合一句法和实体语义树的中文语义关系抽取 [J].
虞欢欢 ;
钱龙华 ;
周国栋 ;
朱巧明 .
中文信息学报, 2010, (05) :17-23
[3]   基于层叠条件随机场的旅游领域命名实体识别 [J].
郭剑毅 ;
薛征山 ;
余正涛 ;
张志坤 ;
张宜浩 ;
姚贤明 .
中文信息学报, 2009, (05) :47-52
[4]   基于核方法的中文实体关系抽取研究 [J].
黄瑞红 ;
孙乐 ;
冯元勇 ;
黄云平 .
中文信息学报, 2008, (05) :102-108
[5]   语言学组合特征在语义关系抽取中的应用 [J].
奚斌 ;
钱龙华 ;
周国栋 ;
朱巧明 ;
钱培德 .
中文信息学报, 2008, (03) :44-49+63
[6]   实体关系自动抽取 [J].
车万翔 ;
刘挺 ;
李生 .
中文信息学报, 2005, (02) :1-6
[7]  
Tree kernel-based protein–protein interaction extraction from biomedical literature[J] . Longhua Qian,Guodong Zhou.Journal of Biomedical Informatics . 2012 (3)