一种新颖的词聚类算法和可变长统计语言模型

被引：14

作者：

陈浪舟

黄泰翼

机构：

[1] 中国科学院自动化研究所!北京

来源：

计算机学报 | 1999年 / 09期

关键词：

词的聚类; 统计语言模型; 可变长模型;

D O I：

暂无

中图分类号：

TP391 [信息处理（信息加工）];

学科分类号：

081203 ; 0835 ;

摘要：

基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法．但该方法的两个主要瓶颈在于：（１）词的聚类．目前我们很难找到一种比较成熟且运算量适中、收敛效果好的聚类算法．（２）基于类的模型为增强对不同领域语料的适应能力往往牺牲了一部分预测能力．该文的工作就是围绕这两个瓶颈问题展开的．在词的聚类方面，作者基于自然语言词与词之间的相似度，提出了一种词的分层聚类算法．实验证明，该算法在算法复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进．在提高预测能力方面，提出了一种新的基于类的可变长模型（Ｖａｒｉ－ｇｒａｍ）的生成方法，用此方法生成的基于类的Ｖａｒｉ－ｇｒａｍ模型预测能力远高于通常的基于类的ｎ元模型．

引用

页码：942 / 948

页数：7