基于“固结词串”实例的中文分词研究

被引：10

作者：

修驰 ^{[1
]}

宋柔 ^{[1
,2
]}

机构：

[1] 北京工业大学计算机学院

[2] 北京语言大学语言信息处理研究所

来源：

中文信息学报 | 2012年 / 03期

关键词：

中文分词; CRF; 固结词串; 分词歧义; 机器学习;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基于"固结词串"实例的机器学习方法解决分词歧义问题。实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分。

引用

页码：59 / 64

页数：6

共 5 条

[1]

基于二元语法的N-最大概率中文粗分模型 [J].