中文词聚类研究

被引:9
作者
胡和平
曾庆锐
路松峰
机构
[1] 华中科技大学计算机科学与技术学院
关键词
中文词; 词; 聚类; 词的临近空间; EM算法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
词聚类是语言自动处理中一个重要的基础环节。针对中文词聚类研究中训练数据缺乏、质量不高而影响聚类效果这一主要障碍,本文提出一种面向中文的词聚类算法,算法以词的上下文分布相似度作距离量度;然后分析了仅依据距离量度进行中文词聚类的缺陷,提出词的临近空间概念,并根据词的临近空间概念进行聚类,使得在不用指定类的数目与大小的情况下,依靠词的内在语义进行聚类;最后,算法再将聚类结果作为计算相似度的依据,进行EM迭代聚类,使聚类结果得到明显优化。实验证明,算法有效地克服了中文训练数据的数量和质量问题,聚类结果好。
引用
收藏
页码:122 / 124+142 +142
页数:4
相关论文
共 3 条
[1]   基于搭配对的汉语形容词-名词聚类 [J].
闻扬 ;
苑春法 ;
黄昌宁 .
中文信息学报, 2000, (06) :45-50
[2]   基于k-近似的汉语词类自动判定 [J].
孙茂松 ;
左正平 ;
邹嘉彦 .
计算机学报, 2000, (02) :166-170
[3]   一种新颖的词聚类算法和可变长统计语言模型 [J].
陈浪舟 ;
黄泰翼 .
计算机学报, 1999, (09) :942-948