基于互信息的粒化特征加权多标签学习k近邻算法

被引:21
作者
李峰
苗夺谦
张志飞
张维
机构
[1] 同济大学计算机科学与技术系
[2] 嵌入式系统与服务计算教育部重点实验室(同济大学)
基金
高等学校博士学科点专项科研基金; 上海市自然科学基金;
关键词
互信息; 特征权重; 粒化; 多标签学习; k-近邻;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
摘要
传统基于k近邻的多标签学习算法,在寻找近邻度量样本间的距离时,对所有特征给予同等的重要度.这些算法大多采用分解策略,对单个标签独立预测,忽略了标签间的相关性.多标签学习算法的分类效果跟输入的特征有很大的关系,不同的特征含有的标签分类信息不同,故不同特征的重要度也不同.互信息是常用的度量2个变量间关联度的重要方法之一,能够有效度量特征含有标签分类的知识量.因此,根据特征含有标签分类知识量的大小,赋予相应的权重系数,提出一种基于互信息的粒化特征加权多标签学习k近邻算法(granular feature weighted k-nearest neighbors algorithm for multi-label learning,GFWML-kNN),该算法将标签空间粒化成多个标签粒,对每个标签粒计算特征的权重系数,以解决上述问题和标签组合爆炸问题.在计算特征权重时,考虑到了标签间可能的组合,把标签间的相关性融合进特征的权重系数.实验表明:相较于若干经典的多标签学习算法,所提算法GFWML-kNN整体上能取得较好的效果.
引用
收藏
页码:1024 / 1035
页数:12
相关论文
共 12 条
  • [11] Learning multi-label scene classification
    Boutell, MR
    Luo, JB
    Shen, XP
    Brown, CM
    [J]. PATTERN RECOGNITION, 2004, 37 (09) : 1757 - 1771
  • [12] BoosTexter: A Boosting-based System for Text Categorization[J] . Robert E. Schapire,Yoram Singer.Machine Learning . 2000 (2-3)