学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
利用上下文信息解决汉语自动分词中的组合型歧义
被引:24
作者
:
肖云
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室
肖云
孙茂松
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室
孙茂松
邹嘉彦
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室
邹嘉彦
不详
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室
不详
机构
:
[1]
清华大学智能技术与系统国家重点实验室
[2]
香港城市大学语言资讯科学研究中心 北京
[3]
北京
来源
:
计算机工程与应用
|
2001年
/ 19期
关键词
:
自然语言处理;
中文计算;
汉语自动分词;
组合型歧义切分字段;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。
引用
收藏
页码:87 / 89+106 +106
页数:4
相关论文
共 4 条
[1]
消解中文三字长交集型分词歧义的算法
[J].
孙茂松,左正平,黄昌宁
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
孙茂松,左正平,黄昌宁
.
清华大学学报(自然科学版),
1999,
(05)
:102
-104+108
[2]
高频最大交集型歧义切分字段在汉语自动分词中的作用
[J].
孙茂松
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室
孙茂松
;
左正平
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室
左正平
;
邹嘉彦
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室
邹嘉彦
.
中文信息学报,
1999,
(01)
:28
-35
[3]
利用汉字二元语法关系解决汉语自动分词中的交集型歧义
[J].
孙茂松
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
孙茂松
;
论文数:
引用数:
h-index:
机构:
黄昌宁
;
邹嘉彦
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
邹嘉彦
;
陆方
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
陆方
;
沈达阳
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
沈达阳
.
计算机研究与发展 ,
1997,
(05)
:14
-21
[4]
同义词词林[M]. 上海辞书出版社 , 梅家驹, 1983
←
1
→
共 4 条
[1]
消解中文三字长交集型分词歧义的算法
[J].
孙茂松,左正平,黄昌宁
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
孙茂松,左正平,黄昌宁
.
清华大学学报(自然科学版),
1999,
(05)
:102
-104+108
[2]
高频最大交集型歧义切分字段在汉语自动分词中的作用
[J].
孙茂松
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室
孙茂松
;
左正平
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室
左正平
;
邹嘉彦
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学智能技术与系统国家重点实验室
邹嘉彦
.
中文信息学报,
1999,
(01)
:28
-35
[3]
利用汉字二元语法关系解决汉语自动分词中的交集型歧义
[J].
孙茂松
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
孙茂松
;
论文数:
引用数:
h-index:
机构:
黄昌宁
;
邹嘉彦
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
邹嘉彦
;
陆方
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
陆方
;
沈达阳
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
沈达阳
.
计算机研究与发展 ,
1997,
(05)
:14
-21
[4]
同义词词林[M]. 上海辞书出版社 , 梅家驹, 1983
←
1
→