一种基于互信息的词聚类算法

被引:25
作者
袁里驰
机构
[1] 中南大学信息科学与工程学院
关键词
互信息; 词相似度; 聚类算法; 统计语言模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法。传统的统计聚类方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准。这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优。本文利用互信息定义了一种词相似度,在词相似度的基础上给出了词集合相似度的定义。基于相似度,提出了一种自下而上的分层聚类算法,这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,因而提高聚类的使用效果。实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进。
引用
收藏
页码:120 / 122
页数:3
相关论文
共 1 条
[1]
CONTEXTUAL WORD SIMILARITY AND ESTIMATION FROM SPARSE DATA [J].
DAGAN, I ;
MARCUS, S ;
MARKOVITCH, S .
COMPUTER SPEECH AND LANGUAGE, 1995, 9 (02) :123-152