基于小数据的在线用户兴趣长程演化研究

被引:20
作者
李勇 [1 ,2 ]
孟小峰 [1 ]
刘继 [3 ]
王常青 [4 ]
机构
[1] 中国人民大学信息学院
[2] 西北师范大学计算机科学与工程学院
[3] 新疆财经大学统计与信息学院
[4] 中国互联网络信息中心互联网基础技术开放实验室
基金
高等学校博士学科点专项科研基金;
关键词
小数据; 块熵; 超熵; 兴趣演化; 预测增益;
D O I
暂无
中图分类号
O236 [信息论(信息论的数学理论)];
学科分类号
070104 ;
摘要
网络大数据中与Web用户行为相关的数据,例如在线点击数据和通讯记录等,为人们深度挖掘和定量分析人类兴趣动力学带来了机遇,这些在线行为数据被称为大数据时代的"小数据",有助于揭示许多复杂的人类社会与经济现象.Web用户行为建模时常见的前提假设就是人的行为符合Markov过程,用户下一行为仅依赖于当前行为,与过去的历史行为无关.然而,在线用户行为是一个复杂过程,常常依赖于人的兴趣,对于人类兴趣动力学的本质规律目前知之甚少.利用中国互联网络信息中心提供的30 000多名在线用户行为记录数据,基于块熵理论对在线用户行为进行分类研究,通过信息论分析方法,结合熵增曲线的离散导数和积分理论,分析在线用户点击行为的随机性和记忆性特征.研究表明,与常见的假设不同,Web用户的行为并不是一个简单的Markov过程,而是一个符合幂率的非周期无限长程记忆过程;进一步还发现,用户在线连续点击7个兴趣点,其行为的平均预测增益就可达到95.3%以上,可为大数据时代在线用户兴趣精准预测提供理论指导.
引用
收藏
页码:779 / 788
页数:10
相关论文
共 7 条
[1]   云计算环境下基于协同过滤的个性化推荐机制 [J].
朱夏 ;
宋爱波 ;
东方 ;
罗军舟 .
计算机研究与发展, 2014, 51 (10) :2255-2269
[2]  
社会计算:大数据时代的机遇与挑战[J]. 孟小峰,李勇,祝建华.计算机研究与发展. 2013(12)
[3]   大数据管理:概念、技术与挑战 [J].
孟小峰 ;
慈祥 .
计算机研究与发展, 2013, 50 (01) :146-169
[4]  
Small data, where n = me[J] . Deborah Estrin.Communications of the ACM . 2014 (4)
[5]  
Block-Entropy Analysis of Climate Data[J] . J. Walter Larson,Peter R. Briggs,Michael Tobis.Procedia Computer Science . 2011
[6]  
Impact of interactions on human dynamics[J] . J.G. Oliveira,A. Vazquez.Physica A: Statistical Mechanics and its Applications . 2008 (2)
[7]  
Maximum entropy production principle in physics, chemistry and biology[J] . L.M. Martyushev,V.D. Seleznev.Physics Reports . 2005 (1)