一种新颖的词聚类算法和可变长统计语言模型

被引:14
作者
陈浪舟
黄泰翼
机构
[1] 中国科学院自动化研究所!北京
关键词
词的聚类; 统计语言模型; 可变长模型;
D O I
暂无
中图分类号
TP391 [信息处理(信息加工)];
学科分类号
081203 ; 0835 ;
摘要
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.但该方法的两个主要瓶颈在于:(1)词的聚类.目前我们很难找到一种比较成熟且运算量适中、收敛效果好的聚类算法.(2)基于类的模型为增强对不同领域语料的适应能力往往牺牲了一部分预测能力.该文的工作就是围绕这两个瓶颈问题展开的.在词的聚类方面,作者基于自然语言词与词之间的相似度,提出了一种词的分层聚类算法.实验证明,该算法在算法复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.在提高预测能力方面,提出了一种新的基于类的可变长模型(Vari-gram )的生成方法,用此方法生成的基于类的Vari-gram 模型预测能力远高于通常的基于类的n 元模型.
引用
收藏
页码:942 / 948
页数:7
相关论文
共 2 条
[1]  
语言学知识的计算机辅助发现[M]. 科学出版社 , 白硕 著, 1995
[2]  
语法讲义[M]. 商务印书馆 , 朱德熙[著], 1982