微博用户转发预测特征的特征选择研究

被引:0
作者
赵领帅
机构
[1] 西北大学
关键词
转发预测; 特征提取; 特征选择; 因子分解机;
D O I
暂无
年度学位
2018
学位类型
硕士
导师
摘要
微博用户转发预测研究对社交网络的信息传播和推荐研究具有重要的学术价值,在公共舆论管理、个性化推荐、市场营销等方面具有重要的应用价值。本文主要研究微博中普通用户转发一条微博的重要影响因素,目的是更好的理解用户的转发行为,同时提高转发预测效果。本文通过分析微博用户转发行为的影响因素,综合相关文献,汇总了影响用户转发行为的众多特征,在规模较大的真实微博数据集上实现了特征提取与特征选择,建立因子分解机预测模型,在测试集上对用户的转发行为做出预测,通过对比研究了各种特征和特征组合在微博用户转发行为预测上的有效性。本文的工作主要有四个方面:(1)综合相关文献,分析汇总了大量影响用户转发行为的特征,并在真实的新浪微博数据集上实现了特征提取。(2)通过每次使用一组类型特征训练建立因子分解机预测模型的方式,研究了用户特征、作者特征、微博特征、兴趣特征和社交特征五种不同类型特征对模型预测性能的影响。实验表明,兴趣特征和微博特征对模型预测性能的影响最大。(3)对微博特征全集实现了Filter特征选择和Wrapper特征选择,研究了各种特征和特征子集对模型预测性能的影响。实验表明,转发相似度特征与分类预测的相关性最高。Wrapper方法选择的最优特征子集,在几乎保证预测效果的同时,大幅降低了特征维度,提高了运行效率。(4)利用预测性能最好的最优特征子集建立因子分解机预测模型,对用户的转发行为进行预测,预测精度达到了89.0%,F1度量达到了66.8%,AUC面积达到了95.0%。
引用
收藏
页数:57
共 23 条
[1]
基于因子分解机的质量感知Web服务推荐方法 [J].
唐明董 ;
张婷婷 ;
杨亚涛 ;
郑子彬 ;
曹步清 .
计算机学报, 2018, 41 (06) :1080-1093
[2]
中文文本聚类常用停用词表对比研究 [J].
官琴 ;
邓三鸿 ;
王昊 .
数据分析与知识发现, 2017, 1 (03) :72-80
[3]
中文微博文本采集与预处理综述 [J].
孔雪娜 ;
孙红 .
软件导刊, 2017, 16 (02) :186-189
[4]
基于混合特征学习的微博转发预测方法 [J].
马晓峰 ;
王磊 ;
陈观淡 .
计算机应用与软件, 2016, 33 (11) :249-252+257
[5]
基于BP神经网络的微博转发量的预测 [J].
邓青 ;
马晔风 ;
刘艺 ;
张辉 .
清华大学学报(自然科学版), 2015, 55 (12) :1342-1347
[6]
微博转发者的个性化排序 [J].
匡冲 ;
刘知远 ;
孙茂松 .
山东大学学报(理学版), 2014, 49 (11) :31-36+58
[7]
基于行为分析的微博信息传播效果 [J].
齐超 ;
陈鸿昶 ;
于岩 .
计算机应用, 2014, 34 (08) :2404-2408+2414
[8]
新浪微博网信息传播分析与预测 [J].
曹玖新 ;
吴江林 ;
石伟 ;
刘波 ;
郑啸 ;
罗军舟 .
计算机学报, 2014, 37 (04) :779-790
[9]
基于SVM的微博转发规模预测方法 [J].
李英乐 ;
于洪涛 ;
刘力雄 .
计算机应用研究, 2013, 30 (09) :2594-2597
[10]
微博客中转发行为的预测研究 [J].
张旸 ;
路荣 ;
杨青 .
中文信息学报, 2012, 26 (04) :109-114+121