基于条件随机域CRF模型的文本信息抽取

被引:33
作者
周晶
吴军华
陈佳
陈沈焰
机构
[1] 南京工业大学信息科学与工程学院
关键词
条件随机域; 文本信息抽取; 参数估计; L-BFGS迭代法; 特征集;
D O I
10.16208/j.issn1000-7024.2008.23.022
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
为了抽取文本中的信息,在分析对比了4种统计建模原型后,选用条件随机域CRF建立抽取模型,提出了一种文本信息抽取的方法。该方法对文本分析后加标注,确定文本特征集,采用有限内存拟牛顿迭代方法L-BFGS算法估计CRF模型参数,根据训练学习得出的模型,实现科研论文数据集头部文本信息的抽取。实验结果表明,使用CRF模型的抽取准确率达到90%以上,远远高于使用HMM模型的抽取准确率。
引用
收藏
页码:6094 / 6097
页数:4
相关论文
共 1 条
[1]
On the limited memory BFGS method for large scale optimization.[J].Dong C. Liu;Jorge Nocedal.Mathematical Programming.1989, 1-3