文本聚类中权重计算的对偶性策略

被引:20
作者
卜东波
白硕
李国杰
机构
[1] 中国科学院计算技术研究所
关键词
文本聚类; 向量空间模型; 特征抽取; 对偶性; 隐含概念空间;
D O I
10.13328/j.cnki.jos.2002.11.004
中图分类号
TP181 [自动推理、机器学习];
学科分类号
摘要
在文本聚类/分类处理中,一个重要步骤就是寻找文本的合理表示.在被广泛采用的向量空间模型中,一个文本被表示成一个向量,向量的各维是特征项,而向量空间模型的核心问题就是如何进行特征的抽取和选择.在特征的权重计算中,存在一种对偶性现象.利用迭代的方法来处理和利用这种对偶性,获得了文本的隐含概念.实验结果表明,采用概念空间代替原始词空间来表示文本,能够得到更好的聚类结果.
引用
收藏
页码:2083 / 2089
页数:7
相关论文
共 1 条
  • [1] 聚类分析[M]. - 地质出版社 , 方开泰, 1982