微博用户转发预测特征的特征选择研究

被引:0
作者
赵领帅
机构
[1] 西北大学
关键词
转发预测; 特征提取; 特征选择; 因子分解机;
D O I
暂无
年度学位
2018
学位类型
硕士
导师
摘要
微博用户转发预测研究对社交网络的信息传播和推荐研究具有重要的学术价值,在公共舆论管理、个性化推荐、市场营销等方面具有重要的应用价值。本文主要研究微博中普通用户转发一条微博的重要影响因素,目的是更好的理解用户的转发行为,同时提高转发预测效果。本文通过分析微博用户转发行为的影响因素,综合相关文献,汇总了影响用户转发行为的众多特征,在规模较大的真实微博数据集上实现了特征提取与特征选择,建立因子分解机预测模型,在测试集上对用户的转发行为做出预测,通过对比研究了各种特征和特征组合在微博用户转发行为预测上的有效性。本文的工作主要有四个方面:(1)综合相关文献,分析汇总了大量影响用户转发行为的特征,并在真实的新浪微博数据集上实现了特征提取。(2)通过每次使用一组类型特征训练建立因子分解机预测模型的方式,研究了用户特征、作者特征、微博特征、兴趣特征和社交特征五种不同类型特征对模型预测性能的影响。实验表明,兴趣特征和微博特征对模型预测性能的影响最大。(3)对微博特征全集实现了Filter特征选择和Wrapper特征选择,研究了各种特征和特征子集对模型预测性能的影响。实验表明,转发相似度特征与分类预测的相关性最高。Wrapper方法选择的最优特征子集,在几乎保证预测效果的同时,大幅降低了特征维度,提高了运行效率。(4)利用预测性能最好的最优特征子集建立因子分解机预测模型,对用户的转发行为进行预测,预测精度达到了89.0%,F1度量达到了66.8%,AUC面积达到了95.0%。
引用
收藏
页数:57
共 23 条
[21]
SUPPORT-VECTOR NETWORKS [J].
CORTES, C ;
VAPNIK, V .
MACHINE LEARNING, 1995, 20 (03) :273-297
[22]
Gene selection for cancer classification using support vector machines [J].
Guyon, I ;
Weston, J ;
Barnhill, S ;
Vapnik, V .
MACHINE LEARNING, 2002, 46 (1-3) :389-422
[23]
机器学习及其应用.[M].周志华; 杨钱; 主编.清华大学出版社.2011,