现代汉语通用分词系统中歧义切分的实用技术

被引:18
作者
罗智勇 [1 ]
宋柔 [2 ]
机构
[1] 北京工业大学计算机学院
[2] 北京语言大学信息科学学院
关键词
中文信息处理; 通用分词系统; 歧义切分;
D O I
暂无
中图分类号
TP319 [专用应用软件];
学科分类号
081202 ; 0835 ;
摘要
歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则+例外”的实用消歧策略·对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%·
引用
收藏
页码:1122 / 1128
页数:7
相关论文
共 7 条
[1]  
中文文本自动分词和标注.[M].刘开瑛著;.商务印书馆.2000,
[2]  
自然语言的计算机处理.[M].冯志伟著;.上海外语教育出版社.1996,
[3]   基于层叠隐马模型的汉语词法分析 [J].
刘群 ;
张华平 ;
俞鸿魁 ;
程学旗 .
计算机研究与发展, 2004, (08) :1421-1429
[4]   现代汉语分词系统通用接口设计与实现 [J].
娄珽 ;
宋柔 ;
李卫亮 ;
罗智勇 .
中文信息学报, 2001, (05) :1-7
[5]   汉语自动分词研究评述 [J].
孙茂松 ;
邹嘉彦 .
当代语言学, 2001, (01) :22-32+77
[6]   书面汉语自动分词专家系统设计原理 [J].
何克抗 ;
徐辉 ;
孙波 .
中文信息学报, 1991, (02) :1-14+28
[7]  
现代汉语分词系统通用性设计及切分歧义处理.[D].娄(王廷).北京工业大学.2000, 01