一种基于大规模标注语料库的词语聚类方法

被引：3

作者：

康铁钢

戴汝为

机构：

[1] 中国科学院自动化研究所复杂系统实验室

来源：

系统仿真学报 | 2003年 / 10期

基金：

国家自然科学基金重大项目;

关键词：

语义; 聚类; 语料库; n元模型; 语义相似; 语义相关;

D O I：

10.16182/j.cnki.joss.2003.10.024

中图分类号：

TP391.12 [];

学科分类号：

摘要：

提出了一种基于大规模标注语料库的词语聚类方法。文中根据专家群体对某一具体问题进行决策的需要,回顾了国内外几种基于分布的词语聚类方法,并给出我们的算法原理及实现步骤。首先人工抽取某一类内词语中的几个,从语料库找到这些词的修饰词,组成修饰词向量,然后对于每一个词语,统计修饰词向量中的每个修饰词和该词语在语料库中同现的频率,组成特征向量,最后进行聚类分析。支持宏观经济决策的试验表明该算法能有效地实现词语的聚类。

引用

页码：1439 / 1442

页数：4

共 5 条

[1]

模式识别.[M].边肇祺等编著;.清华大学出版社.2000,

[2] 一个开放的复杂巨系统 [J].