一种直推式多标记文档分类方法

被引:10
作者
姜远
佘俏俏
黎铭
周志华
机构
[1] 南京大学计算机软件新技术国家重点实验室
关键词
文档分类; 多标记学习; 直推学习; 未标记文档; 随机游走;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
真实世界的文档往往同时属于多个类别,因此,利用多标记学习技术进行文档分类是一个重要的研究方向.现有多标记文档分类方法需要利用大量有正确分类标记的文档才能获得好的分类性能,然而,在实际应用中往往只能得到少量的有标记文档作为分类所需的训练文档.出于利用未标记文档的想法,提出一种基于随机游走的直推式多标记文档分类方法,可以利用大量的未标记文档来辅助提高分类性能.实验结果表明,该方法的性能优于现有直推式多标记分类方法CNMF.
引用
收藏
页码:1817 / 1823
页数:7
相关论文
共 5 条
  • [1] 基于多示例学习技术的Web目录页面链接推荐
    薛晓冰
    韩洁凌
    姜远
    周志华
    [J]. 计算机研究与发展, 2007, (03) : 406 - 411
  • [2] 基于词频分类器集成的文本分类方法
    姜远
    周志华
    [J]. 计算机研究与发展, 2006, (10) : 1681 - 1687
  • [3] M L-KNN : A lazy learning approach to multi-label learning[J] . Min-Ling Zhang,Zhi-Hua Zhou.Pattern Recognition . 2007 (7)
  • [4] Learning multi-label scene classification
    Boutell, MR
    Luo, JB
    Shen, XP
    Brown, CM
    [J]. PATTERN RECOGNITION, 2004, 37 (09) : 1757 - 1771
  • [5] BoosTexter: A Boosting-based System for Text Categorization[J] . Robert E. Schapire,Yoram Singer.Machine Learning . 2000 (2-3)