基于序列标注的中文分词、词性标注模型比较分析

被引:12
作者
刘一佳
车万翔
刘挺
张梅山
机构
[1] 哈尔滨工业大学计算机学院社会计算与信息检索研究中心
关键词
中文分词; 词性标注; Stacked Learning;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
该文对三种不同的分词词性标注模型进行了比较。这三种模型分别为一个序列标注串行模型,一个基于字分类的联合模型和一个将这两种模型使用Stacked Learning框架进行集成的融合模型。通过在《人民日报》、CoNLL09、CTB5.0和CTB7.0四个数据集上进行比较分析,最终实验结果表明分类联合模型能取得比较好的速度,融合模型能取得比较好的准确率,而普通串行模型处于速度和准确率的平衡位置。最后该文将准确率最好的融合模型和相关前沿工作在CTB5.0和CTB7.0上进行了对比,该融合模型均取得了最好的结果。
引用
收藏
页码:30 / 36
页数:7
相关论文
共 2 条
[1]   统计与词典相结合的领域自适应中文分词 [J].
张梅山 ;
邓知龙 ;
车万翔 ;
刘挺 .
中文信息学报, 2012, 26 (02) :8-12
[2]  
Chinese Word Segmentation as Character Tagging .2 Nianwen Xue. Computational Linguistics and Chinese Language Processing . 2003