消解中文三字长交集型分词歧义的算法

被引:23
作者
孙茂松,左正平,黄昌宁
机构
[1] 清华大学计算机科学与技术系
关键词
计算语言学;中文信息处理;汉语自动分词;交集型分词歧义;分词歧义消解算法;
D O I
10.16511/j.cnki.qhdxxb.1999.05.027
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
汉语自动分词在中文信息处理现实应用中占据着十分重要的位置。三字长交集型分词歧义是分词歧义的主要类型之一,在真实文本中的出现频率相当高。提出了一种针对这种分词歧义的消解算法,回避了训练代价比较高昂的词性信息而仅仅利用了词的概率信息及某些具有特定性质的常用字集合。从一个60万字的汉语语料库中抽取出全部不同的三字长交集型分词歧义共5367个作为测试样本。实验结果表明,该算法的消解正确率达到了92.07%,基本可以满足实用型中文信息处理系统的需要。
引用
收藏
页码:102 / 104+108
页数:4
相关论文
empty
未找到相关数据