基于不平衡文本数据挖掘的铁路信号设备故障智能分类

被引:43
作者
杨连报 [1 ]
李平 [2 ]
薛蕊 [2 ]
马小宁 [2 ]
吴艳华 [2 ]
邹丹 [2 ]
机构
[1] 中国铁道科学研究院
[2] 中国铁道科学研究院电子计算技术研究所
关键词
铁路信号设备; 故障分类; 不平衡文本数据; SMOTE; 基分类器; 集成分类器; 集成学习;
D O I
暂无
中图分类号
U284.92 [铁路信号设备的保养与检修];
学科分类号
摘要
针对铁路信号设备不平衡故障文本数据,提出基于文本挖掘的铁路信号设备故障智能分类模型。采用TF-IDF模型实现电务信号设备故障文本的特征提取并转换为向量,基于Voting的方式实现多分类器集成学习分类。该模型利用SVM-SMOTE算法对TF-IDF转换后的小类别文本向量数据进行随机生成,采用逻辑回归、朴素贝叶斯、SVM等基分类器和GBDT、随机森林集成分类器对平衡后的数据进行分类,考虑不同分类器的适用特点,通过Voting方式进行多分类器集成学习。通过对某铁路局2012—2016年铁路信号设备故障文本数据进行试验分析,表明该模型可使故障分类的准确率、召回率和F-score均得到显著提升。
引用
收藏
页码:59 / 66
页数:8
相关论文
共 5 条
  • [1] 基于文本挖掘的地铁施工安全风险事故致险因素分析
    李解
    王建平
    许娜
    周哲
    [J]. 隧道建设, 2017, 37 (02) : 160 - 166
  • [2] 基于文本挖掘的高铁信号系统车载设备故障诊断
    赵阳
    徐田华
    [J]. 铁道学报, 2015, 37 (08) : 53 - 59
  • [3] 基于MAS电务故障诊断模型的研究
    李佳奇
    党建武
    [J]. 铁道学报, 2013, 35 (02) : 72 - 80
  • [4] 铁道概论[M]. 中国铁道出版社 , 佟立本, 2016
  • [5] Random forests
    Breiman, L
    [J]. MACHINE LEARNING, 2001, 45 (01) : 5 - 32