非平衡数据集Fisher线性判别模型

被引:17
作者
谢纪刚
裘正定
机构
[1] 北京交通大学计算机与信息技术学院
基金
浙江省自然科学基金;
关键词
非平衡数据集; Fisher线性判别; ROC曲线下面积(AUC);
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
非平衡数据是指两类问题中正类样本与负类样本个数不相等,甚至相比悬殊.非平衡数据集会导致许多分类器的性能下降,这与分类器的构造原理有关.本文首先阐述了Fisher线性判别的分类机制,指出当两类样本的协方差矩阵不同时,样本不平衡会导致Fisher线性判别的性能下降.在此基础上,提出了一种加权Fisher线性判别(WFLD),以减小样本不平衡的影响.然后,从UCI中选择了8个非平衡数据集,并采用ROC曲线下面积作为评估指标进行比较,实验结果证明了WFLD模型的有效性.
引用
收藏
页码:15 / 18
页数:4
相关论文
共 5 条
  • [1] 样本数目不对称时的SVM模型
    肖健华
    吴今培
    [J]. 计算机科学, 2003, (02) : 165 - 167
  • [2] 模式识别[M]. 清华大学出版社 , 边肇祺等编著, 2000
  • [3] Machine Learning for the Detection of Oil Spills in Satellite Radar Images[J] . Miroslav Kubat,Robert C. Holte,Stan Matwin.Machine Learning . 1998 (2)
  • [4] The use of the area under the roc curve in the evaluation of machine learning algorithms
    Bradley, AP
    [J]. PATTERN RECOGNITION, 1997, 30 (07) : 1145 - 1159
  • [5] ROC Graphs:Notes and Practical Considera-tions for Researchers[R/OL] .2 Fawcett T. Tech.Report HPL20034 . 2003