面向不平衡微博数据集的转发行为预测方法

被引:2
作者
赵煜
邵必林
边根庆
宋丹
机构
[1] 西安建筑科技大学管理学院
关键词
集合与微博主题词集合之间的相似度计算采用向; 微博; 转发预测; 不均匀数据集; 过采样; 随机森林;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
针对微博转发预测方法研究中的数据集不平衡问题,提出了一种融合过采样技术和随机森林(RF)算法的微博转发行为预测方法。首先,定义了个体信息、社交关系和微博主题3类与微博转发行为相关的特征,并基于信息增益算法实现了关键特征选取;其次,综合微博特征数据的特点来改进少数类样本合成过采样技术(SMOTE),对原始数据集进行非参数概率分布估计,并根据近似概率分布对数据集进行过采样处理,从而使正反例数据量达到平衡;最后,利用随机森林算法,依据微博转发关键特征进行分类器训练,并利用袋外(OOB)数据误差估计来分析和设置随机森林算法的相关参数。通过与基于决策树(DT)、支持向量机(SVM)、朴素贝叶斯(NB)和随机森林等算法的微博转发预测方法进行对比,所提方法整体性能优于基准方法中性能最优的SVM方法,召回率提高了8%,F值提高了5%。实验结果表明,所提方法在实际应用中能够有效提高微博转发行为预测的准确率。
引用
收藏
页码:1959 / 1964
页数:6
相关论文
共 19 条
[1]   基于SMOTE和随机森林的Web spam检测 [J].
房晓南 ;
张化祥 ;
高爽 .
山东大学学报(工学版), 2013, 43 (01) :22-27+33
[2]   社交网络中的用户转发行为预测 [J].
谢婧 ;
刘功申 ;
苏波 ;
孟魁 .
上海交通大学学报, 2013, 47 (04) :584-588
[3]   基于SVM的微博转发规模预测方法 [J].
李英乐 ;
于洪涛 ;
刘力雄 .
计算机应用研究, 2013, 30 (09) :2594-2597
[4]   网络大数据:现状与展望 [J].
王元卓 ;
靳小龙 ;
程学旗 .
计算机学报, 2013, 36 (06) :1125-1138
[5]   微博转发预测算法评测系统的建立及性能比较 [J].
黄英来 ;
孙晓芳 ;
刘镇波 ;
高萌 .
哈尔滨理工大学学报, 2013, 18 (04) :52-57
[6]   一个基于随机森林的微博转发预测算法 [J].
罗知林 ;
陈挺 ;
蔡皖东 .
计算机科学, 2014, 41 (04) :62-64+74
[7]  
Feature selection using principal component analysis for massive retweet detection. MORCHID M,DUFOUR R,LINARES G,et al. Pattern Recognition . 2014
[8]  
Analyzing user retweet behavior on twitter. XU Z,YANG Q. Proceedings of 2012 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining . 2012
[9]  
Topical semantics of twitter links. Welch M J,Schonfeld U,He D, et al. the4th ACM International Conference on Web Search and Data Mining (WSDM’’11) . 2011
[10]  
Differences in the mechanics of information diffusion across topics: idioms, political hashtags, and complex contagion on twitter. Romero D M,,Meeder B,Kleinberg J. Proceedings of the 20th international conference on World wide web . 2011