基于弱监督的属性关系抽取方法

被引:28
作者
杨宇飞
戴齐
贾真
尹红风
机构
[1] 西南交通大学信息科学与技术学院
基金
中央高校基本科研业务费专项资金资助;
关键词
关系抽取; 弱监督; 中文百科; 朴素贝叶斯分类; 条件随机场;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
针对从中文百科中抽取属性关系时所面临的训练语料匮乏问题,提出一种利用极少人工参与的弱监督自动抽取方法。首先,利用中文百科条目信息模板中的半结构化属性关系回标条目文本自动获取训练语料;然后,根据朴素贝叶斯分类原理优化训练语料;最后,基于条件随机场(CRF)建立属性关系抽取模型。在互动百科中采集的数据集上进行实验,综合评价F值达到了80.9%。结果表明该方法能够获得质量较高的训练语料,并取得良好的抽取性能。
引用
收藏
页码:64 / 68
页数:5
相关论文
共 5 条
[1]
基于逗号的汉语子句识别研究 [J].
李艳翠 ;
冯文贺 ;
周国栋 ;
朱坤华 .
北京大学学报(自然科学版), 2013, 49 (01) :7-14
[2]
领域本体概念实例、属性和属性值的抽取及关系预测 [J].
郭剑毅 ;
李真 ;
余正涛 ;
张志坤 .
南京大学学报(自然科学版), 2012, 48 (04) :383-389
[3]
纽约 世界第一生活秀.[J].黄旭;花而;猴子;.商务奖励旅行.2007, 10
[4]
Extracting medication information from clinical text [J].
Uzuner, Oezlem ;
Solti, Imre ;
Cadag, Eithon .
JOURNAL OF THE AMERICAN MEDICAL INFORMATICS ASSOCIATION, 2010, 17 (05) :514-518
[5]
DBpedia - A crystallization point for the Web of Data [J].
Bizer, Christian ;
Lehmann, Jens ;
Kobilarov, Georgi ;
Auer, Soeren ;
Becker, Christian ;
Cyganiak, Richard ;
Hellmann, Sebastian .
JOURNAL OF WEB SEMANTICS, 2009, 7 (03) :154-165