基于远程监督的人物属性抽取研究

被引:19
作者
马进
杨一帆
陈文亮
机构
[1] 苏州大学计算机科学与技术学院
关键词
属性抽取; 标注数据; 远程监督;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
属性抽取的主要目标是从非结构化文本中获取实体的属性值。为了从文本中抽取出人物属性,通常需要大量的标注数据,然而这些数据资源却十分稀少。为了解决这个问题,该文从百科类网页的表格数据出发,构建了人物属性表,然后采用远程监督的方法得到大规模、多类别的人物属性标注语料,从而免去了人工标注的繁琐流程。针对新构建的数据集,分别使用条件随机场(CRF)和双向长短期记忆-条件随机场(BiLSTM-CRF)构建了属性抽取的两个基线模型。实验结果表明,BiLSTM-CRF取得比CRF更好的性能,其中BiLSTM-CRF的平均F1值为83.39%。
引用
收藏
页码:64 / 72
页数:9
相关论文
共 9 条
[1]
基于深度学习的领域实体属性词聚类抽取研究 [J].
苏丰龙 ;
谢庆华 ;
邱继远 ;
岳振军 .
微型机与应用, 2016, 35 (01) :53-55+59
[2]
基于SVM和泛化模板协作的藏语人物属性抽取 [J].
朱臻 ;
孙媛 .
中文信息学报, 2015, (06) :220-227
[3]
基于弱监督学习的主页人物属性抽取方法 [J].
张巧 ;
熊锦华 ;
程学旗 .
山西大学学报(自然科学版), 2015, 38 (01) :8-15
[4]
企业相关信息抽取技术研究与系统实现 [J].
张丙奇 ;
姜吉发 .
微电子学与计算机, 2004, (01) :1-6
[5]
基于规则的百科人物属性抽取算法的研究 [D]. 
李红亮 .
西南交通大学,
2013
[6]
基于条件随机场的中文命名实体识别[D] 向晓雯 厦门大学 2006,
[7]
Data model issues for object-oriented applications[J] Jay Banerjee;Hong-Tai Chou;Jorge F. Garza;Won Kim;Darrell Woelk;Nat Ballou;Hyoung-Joo Kim ACM Transactions on Information Systems (TOIS) 1987,
[8]
https://github.com/SUDA-HLT/CPAR ,
[9]
Exploring various knowledge in relation extraction GuoDong Z;Jian S;Jie Z; et al; Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics 2005,