关系抽取中基于本体的远监督样本扩充

被引:8
作者
欧阳丹彤 [1 ,2 ]
瞿剑峰 [1 ]
叶育鑫 [1 ,2 ,3 ]
机构
[1] 吉林大学计算机科学与技术学院
[2] 符号计算与知识工程教育部重点实验室(吉林大学)
[3] 不详
关键词
远监督; 关系抽取; 本体;
D O I
10.13328/j.cnki.jos.004638
中图分类号
TP181 [自动推理、机器学习];
学科分类号
摘要
远监督学习是适合大数据下关系抽取任务的一种学习算法.它通过对齐知识库中的关系实例和文本集中的自然语句,为学习算法提供大规模样本数据.利用本体进行关系实例的自动扩充,用于解决基于远监督学习的关系抽取任务中部分待抽取关系的实例匮乏问题.该方法首先通过定义关系覆盖率和公理容积率,来寻找与关系抽取任务关联性大的本体;然后,借助本体推理中的实例查询增加待抽取关系下的关系实例;最后,通过对齐新增关系实例和文本集中的自然语句,达到扩充样本的效果.实验结果表明:基于本体的远监督学习样本扩充方法能够有效完成样本匮乏的关系抽取任务,进一步提升远监督学习方法在大数据环境下的关系抽取能力.
引用
收藏
页码:2088 / 2101
页数:14
相关论文
共 4 条
[1]   大数据的一个重要方面:数据可用性 [J].
李建中 ;
刘显敏 .
计算机研究与发展, 2013, 50 (06) :1147-1162
[2]   数据管理技术的新格局 [J].
覃雄派 ;
王会举 ;
李芙蓉 ;
李翠平 ;
陈红 ;
周烜 ;
杜小勇 ;
王珊 .
软件学报, 2013, 24 (02) :175-197
[3]   大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考 [J].
李国杰 ;
程学旗 .
中国科学院院刊, 2012, 27 (06) :647-657
[4]   语义Web搜索技术研究进展 [J].
叶育鑫 ;
欧阳丹彤 .
计算机科学, 2010, 37 (01) :1-5