基于离群点检测的分类结果置信度的度量方法

被引:10
作者
严云洋 [1 ,2 ]
瞿学新 [1 ,2 ]
朱全银 [1 ]
李翔 [1 ]
赵阳 [1 ]
机构
[1] 淮阴工学院计算机与软件工程学院
[2] 西南科技大学计算机科学与技术学院
关键词
离群点; 网页分类; k均值; LOF算法;
D O I
10.13232/j.cnki.jnju.2019.01.010
中图分类号
TP181 [自动推理、机器学习]; TP393.092 [];
学科分类号
140502 [人工智能];
摘要
为度量在网络日志中网页分类模型的预测结果,将度量为可信的结果加入网址分类集合,提高网络日志中访问链接的分类效率,提出一种基于离群点检测的分类结果置信度的度量方法.采用基于Bagging构建多个弱分类器对待分类数据进行预测,并对每个预测结果构建各类别的概率向量,根据离群点检测来度量模型的预测结果是否为可信.在UCI公共数据集上,使用主流的基于k均值和基于局部密度的度量方法进行了对比实验.实验结果表明,应用基于离群点检测的分类结果置信度,基于k均值的度量方法和基于局部密度的度量方法均显著提高了准确率.另外,在工程项目爬取的网页分类中也取得了同样的效果.
引用
收藏
页码:102 / 109
页数:8
相关论文
共 12 条
[1]
Non-parametric sequence-based learning approach for outlier detection in IoT.[J].Nashreen Nesa;Tania Ghosh;Indrajit Banerjee.Future Generation Computer Systems.2018,
[2]
Hybridized term-weighting method for Dark Web classification.[J].Thabit Sabbah;Ali Selamat;Md. Hafiz Selamat;Roliana Ibrahim;Hamido Fujita.Neurocomputing.2015,
[3]
A Survey of Outlier Detection Methodologies.[J].Victoria J. Hodge;Jim Austin.Artificial Intelligence Review.2004, 2
[4]
Bagging predictors [J].
Breiman, L .
MACHINE LEARNING, 1996, 24 (02) :123-140
[5]
基于局部密度的快速离群点检测算法 [J].
邹云峰 ;
张昕 ;
宋世渊 ;
倪巍伟 .
计算机应用, 2017, 37 (10) :2932-2937
[6]
基于结构和文本特征的网页分类技术研究 [J].
顾敏 ;
郭庆 ;
曹野 ;
朱峰 ;
顾彦慧 ;
周俊生 ;
曲维光 .
中国科学技术大学学报, 2017, 47 (04) :290-296
[7]
CNNIC发布第37次《中国互联网络发展状况统计报告》.[J]..国家图书馆学刊.2016, 02
[8]
Web科技新闻分类抽取算法 [J].
朱全银 ;
潘禄 ;
刘文儒 ;
李翔 ;
张永军 ;
刘金岭 .
淮阴工学院学报, 2015, 24 (05) :18-24
[9]
基于可变基函数和GentleAdaBoost的小波神经网络研究 [J].
李翔 ;
朱全银 ;
王尊 .
山东大学学报(工学版), 2013, 43 (05) :31-38
[10]
Adaboost算法改进BP神经网络预测研究 [J].
李翔 ;
朱全银 .
计算机工程与科学, 2013, 35 (08) :96-102