文语转换系统中基于语料的汉语自动分词研究

被引:10
作者
应志伟
柴佩琪
陈其晖
机构
[1] 同济大学计算机系!上海
关键词
文语转换; 汉语分词; 最大匹配法; 多交集歧义; 多音词; 姓名识别;
D O I
暂无
中图分类号
TP317.2 [文字处理软件];
学科分类号
1403 ;
摘要
基于一个实际的文语转换系统,介绍了它的一些处理方法,采用了一种改进的最大匹配法,可以切分出所有的交集歧义,提出了一种基于统计模型的算法来处理其中的多交集歧义字段,并用穷举法和一些简单的规则相组合的方法从实用角度解决多音字的异读问题以及中文姓名的自动识别方法,解决了汉语切分歧义、多音词处理、中文姓名的自动识别问题,达到实现文语转换的目的。
引用
收藏
页码:8 / 11
页数:4
相关论文
共 7 条
[1]   关于歧义字段切分的思考与实验 [J].
刘挺 ;
王开铸 .
中文信息学报, 1998, (02) :64-65
[2]   中文姓名的自动辨识 [J].
孙茂松,黄昌宁,高海燕,方捷 .
中文信息学报, 1995, (02) :16-27
[3]   多语料库作法之中文姓名辨识 [J].
张俊盛 ;
陈舜德 ;
郑萦 ;
刘显仲 ;
柯淑津 .
中文信息学报, 1992, (03) :7-15
[4]   中文词的自动办理 [J].
王永成 ;
苏海菊 ;
莫燕 .
中文信息学报, 1990, (04) :1-11
[5]   汉语计算机自动分词知识 [J].
梁南元 .
中文信息学报, 1990, (02) :29-33
[6]   基于规则的汉语自动分词系统 [J].
姚天顺 ;
张桂平 ;
吴映明 ;
不详 .
中文信息学报 , 1990, (01) :37-43
[7]   书面汉语自动分词系统—CDWS [J].
梁南元 .
中文信息学报, 1987, (02) :44-52