基于最大熵模型的词位标注汉语分词

被引:8
作者
于江德 [1 ]
王希杰 [1 ]
樊孝忠 [2 ]
机构
[1] 安阳师范学院计算机与信息工程学院
[2] 北京理工大学计算机科学技术学院
关键词
汉语分词; 词位标注; 最大熵模型; 词位标注集; 特征模板;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
近年来基于字的词位标注汉语分词方法极大地提高了分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,词位标注汉语分词逐渐成为汉语分词的主要技术路线.该方法中特征模板集设定和词位标注集的选择至关重要,采用不同的词位标注集,使用最大熵模型进一步研究了词位标注汉语分词技术.在国际汉语分词评测Bakeoff2005的语料上进行了封闭测试,并对比了不同词位标注集对分词性能的影响.实验表明所采用的六词位标注集配合相应的特征模板集TMPT-6较其他词位标注集分词性能要好.
引用
收藏
页码:70 / 74
页数:5
相关论文
共 7 条
  • [1] 基于CRFs边缘概率的中文分词
    罗彦彦
    黄德根
    [J]. 中文信息学报, 2009, (05) : 3 - 8
  • [2] 一种基于字词联合解码的中文分词方法
    宋彦
    蔡东风
    张桂平
    赵海
    [J]. 软件学报, 2009, 20 (09) : 2366 - 2375
  • [3] 基于有效子串标注的中文分词
    赵海
    揭春雨
    [J]. 中文信息学报, 2007, (05) : 8 - 13
  • [4] 基于Lucene的智能答疑系统的研究与实现
    权聪敏
    赵钊
    文福安
    [J]. 郑州大学学报(理学版), 2007, (02) : 46 - 49
  • [5] 中文分词十年回顾
    黄昌宁
    赵海
    [J]. 中文信息学报, 2007, (03) : 8 - 19
  • [6] 基于多知识源的中文词法分析系统
    姜维
    王晓龙
    关毅
    赵健
    [J]. 计算机学报, 2007, (01) : 137 - 145
  • [7] Representations of quasi-Newton matrices and their use in limited memory methods[J] . Richard H. Byrd,Jorge Nocedal,Robert B. Schnabel.Mathematical Programming . 1994 (1)