基于MapReduce的中文词性标注CRF模型并行化训练研究

被引:6
作者
刘滔
雷霖
陈荦
熊伟
机构
[1] 国防科学技术大学电子科学与工程学院
关键词
词性标注; 条件随机场; MapReduce; 并行;
D O I
10.13209/j.0479-8023.2013.022
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对条件随机场模型面对大规模数据传统训练算法单机处理性能不高的问题,提出一种基于MapReduce框架的条件随机场模型训练并行化方法,设计了条件随机场模型特征提取及参数估计的并行算法,实现了迭代缩放算法的并行。实验表明,所提出的并行化方法在保证训练结果正确性的同时,大大减少了训练时间,效率得到较大提升。
引用
收藏
页码:147 / 152
页数:6
相关论文
共 4 条
[1]   基于改进的隐马尔科夫模型的汉语词性标注 [J].
王敏 ;
郑家恒 .
计算机应用, 2006, (S2) :197-198+207
[2]   基于条件随机场(CRFs)的中文词性标注方法 [J].
洪铭材 ;
张阔 ;
唐杰 ;
李涓子 .
计算机科学, 2006, (10) :148-151+155
[3]   GENERALIZED ITERATIVE SCALING FOR LOG-LINEAR MODELS [J].
DARROCH, JN ;
RATCLIFF, D .
ANNALS OF MATHEMATICAL STATISTICS, 1972, 43 (05) :1470-&
[4]  
基于Hadoop的并行化命名实体识别技术研究与实现.[A].张佳宝;周斌;吴泉源;.第25次全国计算机安全学术交流会.2010,