一种基于大规模标注语料库的词语聚类方法

被引:3
作者
康铁钢
戴汝为
机构
[1] 中国科学院自动化研究所复杂系统实验室
基金
国家自然科学基金重大项目;
关键词
语义; 聚类; 语料库; n元模型; 语义相似; 语义相关;
D O I
10.16182/j.cnki.joss.2003.10.024
中图分类号
TP391.12 [];
学科分类号
摘要
提出了一种基于大规模标注语料库的词语聚类方法。文中根据专家群体对某一具体问题进行决策的需要,回顾了国内外几种基于分布的词语聚类方法,并给出我们的算法原理及实现步骤。首先人工抽取某一类内词语中的几个,从语料库找到这些词的修饰词,组成修饰词向量,然后对于每一个词语,统计修饰词向量中的每个修饰词和该词语在语料库中同现的频率,组成特征向量,最后进行聚类分析。支持宏观经济决策的试验表明该算法能有效地实现词语的聚类。
引用
收藏
页码:1439 / 1442
页数:4
相关论文
共 5 条
[1]  
模式识别.[M].边肇祺等编著;.清华大学出版社.2000,
[2]   一个开放的复杂巨系统 [J].
戴汝为 ;
操龙兵 .
系统工程学报, 2001, (05) :376-381
[3]   群体一致性及其在研讨厅中的应用 [J].
王丹力 ;
戴汝为 .
系统工程与电子技术, 2001, (07) :33-37
[4]   基于搭配对的汉语形容词-名词聚类 [J].
闻扬 ;
苑春法 ;
黄昌宁 .
中文信息学报, 2000, (06) :45-50
[5]   一个科学新领域——开放的复杂巨系统及其方法论 [J].
钱学森 ;
于景元 ;
戴汝为 .
自然杂志, 1990, (01) :3-10+64