统计与词典相结合的领域自适应中文分词

被引:45
作者
张梅山
邓知龙
车万翔
刘挺
机构
[1] 哈尔滨工业大学计算机学院社会计算与信息检索研究中心
基金
国家自然科学基金重点项目;
关键词
中文分词; CRF; 领域自适应;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
基于统计的中文分词方法由于训练语料领域的限制,导致其领域自适应性能力较差。相比分词训练语料,领域词典的获取要容易许多,而且能为分词提供丰富的领域信息。该文通过将词典信息以特征的方式融入到统计分词模型(该文使用CRF统计模型)中来实现领域自适应性。实验表明,这种方法显著提高了统计中文分词的领域自适应能力。当测试领域和训练领域相同时,分词的F-measure值提升了2%;当测试领域和训练领域不同时,分词的F-measure值提升了6%。
引用
收藏
页码:8 / 12
页数:5
相关论文
共 2 条
[1]   基于二元语法的N-最大概率中文粗分模型 [J].
吴春颖 ;
王士同 .
计算机应用, 2007, (12) :2902-2905
[2]   一种改进的MM分词方法的算法设计 [J].
骆正清 ;
陈增武 ;
胡上序 .
中文信息学报, 1996, (03) :30-36