基于PU学习的软件故障检测研究

被引:5
作者
张荷 [1 ]
李梅 [2 ]
张阳 [1 ]
蔡晓妍 [1 ]
机构
[1] 西北农林科技大学信息工程学院
[2] 西北农林科技大学机电学院
关键词
软件故障检测; 正例和未标注学习; 不平衡数据; 决策树; 集成分类器;
D O I
暂无
中图分类号
TP311.53 [];
学科分类号
摘要
针对软件故障数据中正例样本相对较少且大量样本标注困难的现实场景,已知未标注样本中包含用于建立故障检测模型的大量有用信息,提出仅用正例和未标注数据构建分类模型对软件开发过程中的故障进行检测的半监督学习方法。首先采用合成少数类过采样SMOTE算法对数据集中的正例样本进行过采样,平衡数据集中的类分布。在此基础上合理构建正例集合和未标注集合,采用POSC 4.5和Bagging算法构建软件故障决策树集成分类器。通过对NASA MDP数据库中的12个数据集进行对比实验,结果表明,仅用正例和未标注数据建模可以得到与有监督学习方法相近的软件故障检测率,且集成分类器方法比单分类器方法具有更高的检测率,未标注样本集大小的软件故障检测率同样有影响。
引用
收藏
页码:3324 / 3327+3331 +3331
页数:5
相关论文
共 14 条
[1]
基于LASSO-SVM的软件缺陷预测模型研究 [J].
吴晓萍 ;
赵学靖 ;
乔辉 ;
刘东梅 ;
王志 .
计算机应用研究, 2013, 30 (09) :2748-2751+2754
[2]
软件缺陷集成预测模型研究 [J].
刘小花 ;
王涛 ;
吴振强 .
计算机应用研究, 2013, 30 (06) :1734-1738
[3]
软件故障检测技术及其发展探讨 [J].
刘辉 ;
李蕊 ;
焦铬 .
电脑知识与技术, 2011, 7 (15) :3558-3560
[4]
基于数据挖掘的软件故障诊断研究 [J].
林立 ;
朱小冬 ;
王毅刚 ;
阎旭坤 .
微计算机信息, 2010, 26 (34) :156-158
[5]
数据挖掘技术在软件工程中的应用综述 [J].
毛澄映 ;
卢炎生 ;
胡小华 .
计算机科学, 2009, 36 (05) :1-6+26
[6]
软件缺陷分类的研究 [J].
聂林波 ;
刘孟仁 .
计算机应用研究, 2004, (06) :84-86+98
[7]
An Empirical Study for Software Fault-Proneness Prediction with Ensemble Learning Models on Imbalanced Data Sets.[J].Renqing Li;Shihai Wang.Journal of Software.2014, 3
[8]
Sample-based software defect prediction with active and semi-supervised learning [J].
Li, Ming ;
Zhang, Hongyu ;
Wu, Rongxin ;
Zhou, Zhi-Hua .
AUTOMATED SOFTWARE ENGINEERING, 2012, 19 (02) :201-230
[9]
A two-stage framework for cross-domain sentiment classification [J].
Wu, Qiong ;
Tan, Songbo .
EXPERT SYSTEMS WITH APPLICATIONS, 2011, 38 (11) :14269-14275
[10]
Software fault prediction: A literature review and current trends.[J].Cagatay Catal.Expert Systems With Applications.2010, 4