共 1 条
高频最大交集型歧义切分字段在汉语自动分词中的作用
被引:52
作者:
孙茂松
左正平
邹嘉彦
机构:
[1] 清华大学智能技术与系统国家重点实验室
[2] 香港城市大学语言资讯科学研究中心
来源:
关键词:
中文信息处理,汉语自动分词,高频最大交集型歧义切分字段,基于记忆的排歧策略;
D O I:
暂无
中图分类号:
H085,TP391.2 [];
学科分类号:
摘要:
交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强的覆盖能力及稳定性:前4,619个的覆盖率为59.20%,且覆盖率受领域变化的影响不大。而其中4,279个为伪歧义型,覆盖率高达53.35%。根据以上分析,我们提出了一种基于记忆的、高频最大交集型歧义切分字段的处理策略,可有效改善实用型非受限汉语自动分词系统的精度。
引用
收藏
页码:28 / 35
页数:8
相关论文