基于自扩展与最大熵的领域实体关系自动抽取

被引:3
作者
雷春雅 [1 ]
郭剑毅 [1 ,2 ]
余正涛 [1 ,2 ]
毛存礼 [1 ,2 ]
张少敏 [1 ]
黄甫 [1 ]
机构
[1] 云南昆明理工大学信息工程与自动化学院
[2] 云南省计算机技术应用重点实验室智能信息处理研究所
关键词
实体关系抽取; 最大熵; 自扩展; 特征;
D O I
暂无
中图分类号
TP391.4 [模式识别与装置];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ;
摘要
实体关系自动获取是信息抽取的难题之一。本文提出自扩展算法和最大熵机器学习算法相结合的方法,以旅游领域为研究对象进行实体关系的自动抽取。首先利用自扩展算法自动获取能体现实体对间大类关系的语义词汇,该词汇作为特征加入最大熵机器学习算法的特征集,并设定阈值实现训练语料的自动标注;然后使用最大熵机器学习算法对训练语料进行学习,构建实体关系抽取的分类器,实现实体关系的自动获取。在收集600篇旅游领域语料的基础上进行实验,4大类实体关系的抽取获得了较好的结果,其中地理位置关系和时节关系的F值分别为82.56%和81.17%。实验结果表明:在人工干预较少的情况下,加入实体对间的语义词汇能有效提高抽取效果。
引用
收藏
页码:141 / 145
页数:5
相关论文
共 8 条
[1]   基于种子自扩展的命名实体关系抽取方法 [J].
何婷婷 ;
徐超 ;
李晶 ;
赵君喆 .
计算机工程, 2006, (21) :183-184+193
[2]   实体关系自动抽取 [J].
车万翔 ;
刘挺 ;
李生 .
中文信息学报, 2005, (02) :1-6
[3]  
语言学知识的计算机辅助发现[M]. 科学出版社 , 白硕 著, 1995
[4]  
Maximum entropy modeling toolkit for python and C++. ZHANG L. ht-tp://homepages.inf.ed.ac.uk/s0450736/maxent-tool-kit.html . 2010
[5]  
A maximum entropy approach to natural language processing. Berger A L,Pietra SAD,Pietra VJD. Computational Linguistics . 1996
[6]  
Design of a Mathematical Expression Recognition System. Lee H J,,Wang J S. Pattern Recognition . 1995
[7]  
A study on automated relation labelling in ontology learning. Kavalec M,Svátek V. Ontology Learning from Text: Methods, Evaluation and Applications . 2005
[8]  
Exploring Various Knowledge in Relation Extraction. Zhou, G.D,Su, J,Zhang, J,Zhang, M. Proceedings of 43rd Annual Meeting of the Association for Computational Linguistics (ACL’05) . 2005