自然语言信息抽取中的机器学习方法研究

被引:7
作者
周俊生
戴新宇
尹存燕
陈家骏
机构
[1] 南京大学计算机软件新技术国家重点实验室
关键词
自然语言; 信息抽取; 统计学习; 命名实体;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习]; TP391.1 [文字信息处理];
学科分类号
摘要
信息抽取是一种用于处理各种类型文本文档的非常有效的方法,然而建立一个文本信息抽取系统却是非常困难和耗费时间的。近年来,基于统计的机器学习方法在信息抽取领域的研究受到了广泛关注。本文深入探讨了当前自然语言信息抽取领域广泛采用的几种非常有效的统计学习方法,比较分析了各种方法的统计推断过程和学习算法及其优缺点,讨论了各种统计学习方法所面临的训练语料匮乏问题的主要解决方法,并指出了今后进一步研究的方向。
引用
收藏
页码:186 / 189+199 +199
页数:5
相关论文
共 5 条
  • [1] An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization[J] . Thomas G. Dietterich.Machine Learning . 2000 (2)
  • [2] Overcoming the myopia of inductive learning algorithms with RELIEFF
    Kononenko, I
    Simec, E
    RobnikSikonja, M
    [J]. APPLIED INTELLIGENCE, 1997, 7 (01) : 39 - 55
  • [3] Shallow parsing with conditional random fields .2 Sha F,Pereira F. Proc. of Human Language Technology .
  • [4] Information Extraction with HMM Structures Learned by Stochastic Optimization .2 Freitag D,McCallum A. Proc. of AAAI-2000 .
  • [5] Maximum entropy Markov models for information extraction and segmentation .2 McCallum A,Freitag D,Pereira F. Proc. ICML . 2000