基于弱监督学习的主页人物属性抽取方法

被引:12
作者
张巧 [1 ,2 ]
熊锦华 [1 ]
程学旗 [1 ]
机构
[1] 中国科学院计算技术研究所
[2] 中国科学院大学计算机与控制学院
关键词
人物属性抽取; 前导词; 属性模式; 分类模型; bootstrapping;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
提出了一种基于弱监督学习的主页人物属性抽取方法,首先根据领域模式从个人主页中提取出人物属性的前导词,接着通过前导词获取人物属性作为初始的属性种子,在这些属性种子中提取属性的模式,并结合分类和bootstrapping方法不断迭代抽取出无前导词的人物属性。在整个抽取过程中,只需要少量的人工标注。在英文机构网站上的人物属性抽取对比实验结果表明,该方法较属性分类抽取方法在准确率上提高了7.8%,召回率上提高了7.5%。
引用
收藏
页码:8 / 15
页数:8
相关论文
共 4 条
[1]
Tag tree template for Web information and schema extraction [J].
Ji, Xiangwen ;
Zeng, Jianping ;
Zhang, Shiyong ;
Wu, Chengrong .
EXPERT SYSTEMS WITH APPLICATIONS, 2010, 37 (12) :8492-8498
[2]
基于规则的百科人物属性抽取 [J].
李红亮 ;
杨燕 ;
尹红风 ;
贾真 .
集成技术, 2013, 2 (03) :1-4
[3]
Dom based content extraction via text density..F. Sun;D. Song;L. Liao;.Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval.2011,
[4]
ArnetMiner:extraction and mining of academic social networks..Jie Tang;Jing Zhang;Limin Yao;Juanzi Li;Li Zhang;Zhong Su;.Proceedings of the14thACM SIGKDD International Conference on Knowledge Discovery and DataMining.2008,