基于序列标注的中文分词、词性标注模型比较分析

被引：12

作者：

刘一佳

车万翔

刘挺

张梅山

机构：

[1] 哈尔滨工业大学计算机学院社会计算与信息检索研究中心

来源：

中文信息学报 | 2013年 / 04期

关键词：

中文分词; 词性标注; Stacked Learning;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

该文对三种不同的分词词性标注模型进行了比较。这三种模型分别为一个序列标注串行模型,一个基于字分类的联合模型和一个将这两种模型使用Stacked Learning框架进行集成的融合模型。通过在《人民日报》、CoNLL09、CTB5.0和CTB7.0四个数据集上进行比较分析,最终实验结果表明分类联合模型能取得比较好的速度,融合模型能取得比较好的准确率,而普通串行模型处于速度和准确率的平衡位置。最后该文将准确率最好的融合模型和相关前沿工作在CTB5.0和CTB7.0上进行了对比,该融合模型均取得了最好的结果。

引用

页码：30 / 36

页数：7