利用汉字二元语法关系解决汉语自动分词中的交集型歧义

被引:64
作者
孙茂松
黄昌宁
邹嘉彦
陆方
沈达阳
机构
[1] 不详
[2] 清华大学计算机科学与技术系
[3] 不详
[4] 香港城市大学语言资讯科学研究中心
[5] 不详
关键词
汉语自动分词,汉字二元语法,互信息,t-测试差;
D O I
暂无
中图分类号
H08 [应用语言学];
学科分类号
050211 ;
摘要
本文提出了一种利用句内相邻字之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法.汉字二元语法关系(bigram)为相关计算的基础,直接从生语料库中自动习得.初步的实验结果显示,可以正确处理90.3%的交集字段
引用
收藏
页码:14 / 21
页数:8
相关论文
empty
未找到相关数据