基于CRFs边缘概率的中文分词

被引:17
作者
罗彦彦
黄德根
机构
[1] 大连理工大学计算机科学与工程系
关键词
计算机应用; 中文信息处理; 中文分词; 条件随机场(CRFs); 边缘概率; 最大向前匹配(FMM); 全局特征;
D O I
暂无
中图分类号
TP391.41 [];
学科分类号
080203 ;
摘要
将分词问题转化为序列标注问题,使用CRFs标注器进行序列标注是近年来广泛采用的分词方法。针对这一方法中CRFs的标记错误问题,该文提出基于CRFs边缘概率的分词方法。该方法从标注结果中发掘边缘概率高的候选词,重组边缘概率低的候选词,提出FMM的奖励机制修正重组后的子串。在第四届SIGHAN Bakeoff中文简体语料SXU和NCC上进行闭式测试,分别在F-1值上达到了96.41%和94.30%的精度。
引用
收藏
页码:3 / 8
页数:6
相关论文
共 4 条
  • [1] 基于有效子串标注的中文分词
    赵海
    揭春雨
    [J]. 中文信息学报, 2007, (05) : 8 - 13
  • [2] Accessor variety criteria for Chinese word extraction
    Feng, HD
    Chen, K
    Deng, XT
    Zheng, WM
    [J]. COMPUTATIONAL LINGUISTICS, 2004, 30 (01) : 75 - 93
  • [3] Chinese Word Segmentation as Character Tagging .2 Nianwen Xue. Computational Linguistics and Chinese Language Processing . 2003
  • [4] Conditional Random Fields:Probabilistic Modelsfor Segmenting and Labeling Sequence Data .2 John Lafferty,Andrew McCallum,Fernando Perei-ra. Proc.of ICML-18 . 2001