统计语言模型及汉语音字转换的一些新结果

被引:18
作者
郭进
机构
[1] 清华大学电子工程系
关键词
音字转换; 语声信号处理; 统计语言模型; 词性标注; 语料库; 语库; 文本库; 正文库; 语义分类体系; 字串; 训练语料;
D O I
暂无
中图分类号
学科分类号
摘要
汉语音字转换是一个重要而困难的问题。语料库语言学为我们提供了新思路。作者们通过建立统计语言模型,将基于语料库的方法与传统的基于规则的方法结合,研制了THED新一代音字转换系统。该系统对随机抽取的新华社新闻语料有不低于95%的带调音节和国标汉字的转换正确率。本文侧重报道该系统在汉语音字转换方面及与此相关的汉语切词和词性标注方面的一些实验结果,也简要介绍该系统在语料库应用方面的一些思路。
引用
收藏
页码:18 / 27
页数:10
相关论文
共 8 条
[1]   汉语音字转换中同音字(词)的概率后处理 [J].
唐武 ;
杨行峻 ;
郭进 .
中文信息学报, 1992, (02) :52-57
[2]   多词组一次性拼音·汉字变换 [J].
仲兴国 .
中文信息学报, 1990, (02) :55-64
[3]   中文输入中语法分析技术的应用 [J].
俞士汶 .
中文信息学报, 1988, (03) :20-26
[4]   书面汉语自动分词系统—CDWS [J].
梁南元 .
中文信息学报, 1987, (02) :44-52
[5]   汉语同音词汇的辨析 [J].
杨长生 ;
何志钧 .
计算机研究与发展, 1987, (01) :46-51
[6]  
新编现代汉语多功能词典[M]. 国际文化出版公司 , 冯杏实等编写, 1989
[7]  
汉字信息字典[M]. 科学出版社 , 上海交通大学汉字编码组, 1988
[8]  
常用多音多义字[M]. 四川人民出版社 , 朱盛科 编, 1979