基于单字提示特征的中文命名实体识别快速算法

被引:23
作者
冯元勇
孙乐
李文波
张大鲲
机构
[1] 中国科学院软件研究所中文信息处理中心
关键词
计算机应用; 中文信息处理; 中文命名实体识别; 条件随机场; 自然语言处理; 机器学习;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(Linear-chain)模型一般采用L-BFGS参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速CRF算法。该算法通过引入小规模单字特征降低特征的规模,并通过在推理过程中引入任务相关的人工知识压缩Viterbi和Baum-Welch格搜索空间,提高了训练的速度。在中文863命名实体识别评测语料和SIGHAN06语料集上进行的实验表明,该算法在不影响中文命名实体识别精度的同时,有效地降低了模型的训练代价。
引用
收藏
页码:104 / 110
页数:7
相关论文
共 6 条
[1]   基于层叠隐马尔可夫模型的中文命名实体识别 [J].
俞鸿魁 ;
张华平 ;
刘群 ;
吕学强 ;
施水才 .
通信学报 , 2006, (02) :87-94
[2]   面向商务信息抽取的产品命名实体识别研究 [J].
刘非凡 ;
赵军 ;
吕碧波 ;
徐波 ;
于浩 ;
夏迎炬 .
中文信息学报, 2006, (01) :7-13
[3]   基于统计的中文姓名识别方法研究 [J].
张锋 ;
樊孝忠 ;
许云 .
计算机工程与应用, 2004, (10) :53-54+77
[4]   基于统计的中文地名识别 [J].
黄德根 ;
岳广玲 ;
杨元生 .
中文信息学报, 2003, (02) :36-41
[5]   中文机构名称的识别与分析 [J].
张小衡 ;
王玲玲 .
中文信息学报, 1997, (04) :22-33
[6]  
The Third International ChineseLanguage Processing Bakeoff:Word Segmentationand Named Entity Recognition .2 Gina-Anne Levow. The ThirdInternational Chinese Language Processing Bakeoff . 2006