基于弱监督学习的主页人物属性抽取方法

被引：12

作者：

张巧 ^{[1
,2
]}

熊锦华 ^{[1
]}

程学旗 ^{[1
]}

机构：

[1] 中国科学院计算技术研究所

[2] 中国科学院大学计算机与控制学院

来源：

山西大学学报(自然科学版) | 2015年 / 38卷 / 01期

关键词：

人物属性抽取; 前导词; 属性模式; 分类模型; bootstrapping;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

提出了一种基于弱监督学习的主页人物属性抽取方法,首先根据领域模式从个人主页中提取出人物属性的前导词,接着通过前导词获取人物属性作为初始的属性种子,在这些属性种子中提取属性的模式,并结合分类和bootstrapping方法不断迭代抽取出无前导词的人物属性。在整个抽取过程中,只需要少量的人工标注。在英文机构网站上的人物属性抽取对比实验结果表明,该方法较属性分类抽取方法在准确率上提高了7.8%,召回率上提高了7.5%。

引用

页码：8 / 15

页数：8

共 4 条

[1]

Tag tree template for Web information and schema extraction [J].

Ji, Xiangwen ;

Zeng, Jianping ;

Zhang, Shiyong ;

Wu, Chengrong .

EXPERT SYSTEMS WITH APPLICATIONS, 2010, 37 (12) :8492-8498

[2]

基于规则的百科人物属性抽取 [J].

李红亮 ;

杨燕 ;

尹红风 ;

贾真 .

集成技术, 2013, 2 (03) :1-4

[3]

Dom based content extraction via text density..F. Sun;D. Song;L. Liao;.Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval.2011,

[4]

ArnetMiner:extraction and mining of academic social networks..Jie Tang;Jing Zhang;Limin Yao;Juanzi Li;Li Zhang;Zhong Su;.Proceedings of the14thACM SIGKDD International Conference on Knowledge Discovery and DataMining.2008,

← 1 →