kNN文本分类器类偏斜问题的一种处理对策

被引:32
作者
郝秀兰 [1 ]
陶晓鹏 [1 ]
徐和祥 [2 ]
胡运发 [1 ]
机构
[1] 复旦大学计算机与信息技术系
[2] 上海远程教育集团
基金
国家自然科学基金重大项目;
关键词
文本分类; kNN; 类偏斜; 文本训练集的临界点; 权重调节; 随机重取样;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
类偏斜问题(class i mbalance problem)是数据挖掘领域的常见问题之一,人们提出了各种策略来处理这个问题.当训练样本存在类偏斜问题时,kNN分类器会将小类中的样本错分到大类,导致分类的宏F1指标下降.针对kNN存在的这个缺陷,提出了文本训练集的临界点(critical point,CP)的概念并对其性质进行了探讨,给出了求CP,CP的下近似值LA、上近似值UA的算法.之后,根据LA或UA及训练样本数对传统的kNN决策函数进行修改,这就是自适应的加权kNN文本分类.为了验证自适应的加权kNN文本分类的有效性,设计了2组实验进行对比:一组为不同的收缩因子间进行对比,可看做是与Tan的工作进行对比,同时用来证实在LA或UA上分类器的宏F1较好;另一组则是与随机重取样进行实验对比,其中,传统kNN方法作为对比的基线.实验表明,所提的自适应加权kNN文本分类优于随机重取样,使得宏F1指标明显上升.该方法有点类似于代价相关学习.
引用
收藏
页码:52 / 61
页数:10
相关论文
共 14 条
  • [1] 基于机器学习的文本分类技术研究进展
    苏金树
    张博锋
    徐昕
    [J]. 软件学报, 2006, (09) : 1848 - 1859
  • [2] 基于密度的kNN文本分类器训练样本裁剪方法
    李荣陆
    胡运发
    [J]. 计算机研究与发展, 2004, (04) : 539 - 545
  • [3] 模式识别[M]. 清华大学出版社 , 边肇祺等编著, 2000
  • [4] Neighbor-weighted K-nearest neighbor for unbalanced text corpus
    Tan, SB
    [J]. EXPERT SYSTEMS WITH APPLICATIONS, 2005, 28 (04) : 667 - 671
  • [5] Extreme re-balancing for SVMs[J] . Bhavani Raskutti,Adam Kowalczyk.ACM SIGKDD Explorations Newsletter . 2004 (1)
  • [6] Class imbalances versus small disjuncts[J] . Taeho Jo,Nathalie Japkowicz.ACM SIGKDD Explorations Newsletter . 2004 (1)
  • [7] A multistrategy approach for digital text categorization from imbalanced documents[J] . M. Dolores del Castillo,José Ignacio Serrano.ACM SIGKDD Explorations Newsletter . 2004 (1)
  • [8] Minority report in fraud detection[J] . Clifton Phua,Damminda Alahakoon,Vincent Lee.ACM SIGKDD Explorations Newsletter . 2004 (1)
  • [9] A study of the behavior of several methods for balancing machine learning training data[J] . Gustavo E. A. P. A. Batista,Ronaldo C. Prati,Maria Carolina Monard.ACM SIGKDD Explorations Newsletter . 2004 (1)
  • [10] Learning from imbalanced data sets with boosting and data generation[J] . Hongyu Guo,Herna L. Viktor.ACM SIGKDD Explorations Newsletter . 2004 (1)