基于维基百科的中文嵌套命名实体识别语料库自动构建

被引:8
作者
李雁群
何云琪
钱龙华
周国栋
机构
[1] 苏州大学计算机科学与技术学院自然语言处理实验室
关键词
嵌套命名实体识别; 信息抽取; 维基百科; 语料库; 条件随机场;
D O I
10.19678/j.issn.1000-3428.0048667
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
传统的监督学习方法需要标注一定规模的领域内语料库,限制了其领域适应性。为此,提出一种从中文维基百科条目中自动构建中文嵌套命名实体识别语料库的方法。对中文维基百科的条目进行实体分类,利用实体条目构造实体的嵌套结构,从而自动生成大规模的中文嵌套命名实体识别语料库。在手工标注嵌套命名实体识别语料库上的实验结果表明,自动构建的语料库具有规模较大、领域广的特点,且能够适应宽泛领域上的中文嵌套命名实体识别任务。
引用
收藏
页码:76 / 82
页数:7
相关论文
共 10 条
[1]  
汉语嵌套命名实体识别方法研究.[D].付春元.黑龙江大学.2011, 06
[2]  
中文命名实体识别粒度和特征选择研究.[D].刘章勋.哈尔滨工业大学.2010, 05
[3]   Extracting Named Entities and Relating Them over Time Based on Wikipedia [J].
Bhole, Abhijit ;
Fortuna, Blaz ;
Grobelnik, Marko ;
Mladenic, Dunja .
INFORMATICA-JOURNAL OF COMPUTING AND INFORMATICS, 2007, 31 (04) :463-468
[4]  
Recognizing names in biomedical texts using mutual information independence model and SVM plus sigmoid.[J].G.D. Zhou.International Journal of Medical Informatics.2005, 6
[5]   中文维基百科的实体分类研究 [J].
徐志浩 ;
惠浩添 ;
钱龙华 ;
朱巧明 .
中文信息学报, 2015, (05) :91-97+124
[6]   基于联合模型的中文嵌套命名实体识别 [J].
尹迪 ;
周俊生 ;
曲维光 .
南京师大学报(自然科学版), 2014, 37 (03) :29-35
[7]   命名实体识别研究进展综述 [J].
孙镇 ;
王惠临 .
现代图书情报技术, 2010, (06) :42-47
[8]   基于层叠条件随机场模型的中文机构名自动识别 [J].
周俊生 ;
戴新宇 ;
尹存燕 ;
陈家骏 .
电子学报, 2006, (05) :804-809
[9]  
同义词词林.[M].梅家驹等编;.上海辞书出版社.1996,
[10]  
Using encyclopedic knowledge for named entity disambiguation..Bunescu R;Pasca M;.Proceedings of EACL.2006,