利用上下文信息解决汉语自动分词中的组合型歧义

被引：24

作者：

肖云

孙茂松

邹嘉彦

不详

机构：

[1] 清华大学智能技术与系统国家重点实验室

[2] 香港城市大学语言资讯科学研究中心北京

[3] 北京

来源：

计算机工程与应用 | 2001年 / 19期

关键词：

自然语言处理; 中文计算; 汉语自动分词; 组合型歧义切分字段;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。

引用

页码：87 / 89+106 +106

页数：4

共 4 条

[1] 消解中文三字长交集型分词歧义的算法 [J].