中文维基百科的实体分类研究

被引:1
作者
徐志浩 [1 ,2 ]
惠浩添 [1 ,2 ]
钱龙华 [1 ,2 ]
朱巧明 [1 ,2 ]
机构
[1] 苏州大学自然语言处理实验室
[2] 苏州大学计算机科学与技术学院
关键词
维基百科; 实体分类; 半结构化信息; 信息框;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
维基百科实体分类对自然语言处理和机器学习具有重要的作用。该文采用机器学习的方法对中文维基百科的条目进行实体分类,在利用维基百科页面中半结构化信息和无结构化文本作为基本特征的基础上,结合中文的特点使用扩展特征和语义特征来提高实体分类性能。在人工标注的语料库上的实验表明,这些额外特征有效地提高了ACE分类体系上的实体分类性能,总体F1值达到96%,同时在扩展实体分类上也取得了较好的效果,总体F1值达95%。
引用
收藏
页码:91 / 97+124 +124
页数:8
相关论文
共 14 条
[1]  
Augmenting Wikipedia with Named Entity Tags. Dakka W,Cucerzan S. Proceedings of the IJCNLP . 2008
[2]  
Improved text categorisation for Wikipedia named entities. Tardif S,Curran J R,Murphy T. Proceedings of the Australasian Language Technology Association Workshop 2009 . 2009
[3]  
A proposal to automatically build and maintain gazetteers for Named Entity Recognition by using Wikipedia. Toral A,Munoz R. NEW TEXT Wikis and blogs and other dynamic text sources . 2006
[4]  
Extracting Named Entities and Relating Them over Time Based on Wikipedia. Bhole, A,Fortuna, B,Grobelnik, B,Mladenic, D. Acta Informatica . 2007
[5]  
Using encyclopedic knowledge for named entity disambiguation. Bunescu R,Pasca M. Proceedings of EACL . 2006
[6]  
Transforming Wikipedia into Named Entity Training Data. Joel Nothman,James R. Curran,Tara Murphy. Australian Language Technology Workshop (ALTA 2008) . 2008
[7]  
同义词词林[M]. 上海辞书出版社 , 梅家驹, 1983
[8]   基于维基百科和模式聚类的实体关系抽取方法 [J].
张苇如 ;
孙乐 ;
韩先培 .
中文信息学报, 2012, (02) :75-81+127
[9]  
基于中文维基百科的词语相关度计算[J]. 谌志群,高飞,曾智军.  报学报. 2012 (12)
[10]  
Distinguishing between instances and classes in the wikipedia taxonomy. Zirn C,Nastase V,Strube M. . 2008