自动获取汉语词语搭配

被引:13
作者
王素格 [1 ]
杨军玲 [2 ]
张武 [1 ]
机构
[1] 上海大学计算机工程与科学学院
[2] 山西大学数学科学学院
关键词
计算机应用; 中文信息处理; 词语搭配; 互信息; 熵;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
作为一种词汇现象,词语搭配在自然语言处理的许多领域具有重要的应用。本文对4种词语相关性度量和3种词语结构分布度量分别进行了比较分析,并提出了一种基于互信息与熵融合的获取词语搭配的方法。实验结果表明:在同现频率较高情况下,互信息、Cosine系数、x2测试和似然比测试4种相关性度量对搭配判定有大致相同的效果;在度量词语的结构分布方面,熵要优于方差和离散度。本文所提方法依赖度量指标少,阈值容易选取,且与其他已有的方法具有同等效果。
引用
收藏
页码:31 / 37
页数:7
相关论文
共 7 条
[1]   基于统计模型的词语搭配自动获取方法的分析与比较 [J].
全昌勤 ;
刘辉 ;
何婷婷 .
计算机应用研究, 2005, (09) :55-57
[2]   汉语动词-动词搭配规则与分布特征 [J].
由丽萍 ;
王素格 .
计算机工程与应用, 2005, (23) :179-181
[3]   从搭配知识获取最优种子的词义消歧方法 [J].
全昌勤 ;
何婷婷 ;
姬东鸿 ;
刘辉 .
中文信息学报, 2005, (01) :30-35
[4]   基于框架的词语搭配自动抽取方法 [J].
曲维光 ;
陈小荷 ;
吉根林 .
计算机工程, 2004, (23) :22-24+195
[5]   基于统计的常用词搭配(Collocation)的发现方法 [J].
孙健 ;
王伟 ;
钟义信 .
情报学报, 2002, (01) :12-16
[6]   汉语搭配定量分析初探 [J].
孙茂松 ;
黄昌宁 ;
方捷 .
中国语文, 1997, (01) :29-38
[7]  
现代汉语语法信息词典详解.[M].俞士汶等著;.清华大学出版社.2003,