基于子词的双层CRFs中文分词

被引：21

作者：

黄德根

焦世斗

周惠巍

机构：

[1] 大连理工大学计算机科学与技术学院

来源：

计算机研究与发展 | 2010年 / 47卷 / 05期

关键词：

中文分词; 条件随机场; 双层条件随机场; 子词; 子词过滤;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

提出了基于子词的双层CRFs(conditional random fields)中文分词方法,旨在解决中文分词中切分歧义与未登录词的问题.该方法是建立在基于子词的序列标注模型上.方法第1层利用基于字CRFs模型来识别待测语料中的子词,这样做是为了减少子词的跨越标记错误和增加子词识别的精确率;第2层利用CRFs模型学习基于子词的序列标注,对第1层的输出进行测试,进而得到分词结果.在2006年SIGHAN Bakeoff的中文简体语料上进行了测试,包括UPUC和MSRA语料,分别在F值上达到了93.3%和96.1%的精度.实验表明,基于子词的双层CRFs模型能够更加有效地利用子词来提高中文分词的精度.

引用

页码：962 / 968

页数：7

共 4 条

[1] 基于有效子串标注的中文分词 [J].