基于“固结词串”实例的中文分词研究

被引:10
作者
修驰 [1 ]
宋柔 [1 ,2 ]
机构
[1] 北京工业大学计算机学院
[2] 北京语言大学语言信息处理研究所
关键词
中文分词; CRF; 固结词串; 分词歧义; 机器学习;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基于"固结词串"实例的机器学习方法解决分词歧义问题。实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分。
引用
收藏
页码:59 / 64
页数:6
相关论文
共 5 条
[1]
基于二元语法的N-最大概率中文粗分模型 [J].
吴春颖 ;
王士同 .
计算机应用, 2007, (12) :2902-2905
[2]
中文分词十年回顾 [J].
黄昌宁 ;
赵海 .
中文信息学报, 2007, (03) :8-19
[3]
现代汉语通用分词系统中歧义切分的实用技术 [J].
罗智勇 ;
宋柔 .
计算机研究与发展, 2006, (06) :1122-1128
[4]
一种改进的MM分词方法的算法设计 [J].
骆正清 ;
陈增武 ;
胡上序 .
中文信息学报, 1996, (03) :30-36
[5]
Chinese Word Segmentation as Character Tagging Nianwen Xue; Computational Linguistics and Chinese Language Processing 2003,