基于条件随机场的汉语分词系统

被引:16
作者
李双龙 [1 ]
刘群 [2 ]
王成耀 [1 ]
机构
[1] 北京科技大学
[2] 中科院计算所
关键词
汉语分词; 条件随机场; 感知机;
D O I
暂无
中图分类号
TP319 [专用应用软件];
学科分类号
摘要
汉语分词是自然语言处理的首要的基本工作。本文提出了一个基于条件随机场(简称CRF)的汉语分词模型,CRF模型作为一个判别模型,可以容纳任意的非独立的特征信息。我们首先将分词看作是一个标记的过程,然后利用CRF模型对每个汉字进行标记,最后转换为相应的分词结果。系统采用感知机(Perceptron)算法进行参数训练。跟以前利用CRF进行分词的模型相比,本系统定义并使用了不同的特征函数,取得了更好的切分结果。在1st SIGHAN分词比赛PK测试集上封闭测试,F值为95.2%。
引用
收藏
页码:178 / 180
页数:3
相关论文
共 1 条
  • [1] 基于词素的日文分词方法及其在OCR系统中的应用
    金春实
    丁晓青
    彭良瑞
    刘长松
    [J]. 微计算机信息, 2006, (03) : 244 - 246+271