大数据和结构化数据整合的方法论——以中国人脉圈研究为例

被引:14
作者
罗家德 [1 ]
高馨 [1 ]
周涛 [2 ]
刘黎春 [3 ]
傅晓明 [4 ]
刘知远 [5 ]
苏毓淞 [6 ]
机构
[1] 清华大学社会学系与公共管理学院
[2] 电子科技大学计算机科学与工程学院、大数据研究中心
[3] 腾讯CSIG云与智慧产业事业群
[4] 德国哥廷根大学数学与计算机学院
[5] 清华大学计算机科学与技术系
[6] 清华大学政治学系
关键词
大数据; 扎根真相; 人脉圈分类模型; 社会计算学;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
本文以人脉圈层研究为例,将抽样调查得到的扎根真相与在中国广泛使用的一款社交软件A的大数据结合,建立人脉圈分类模型。在理论、数据挖掘、回归模型和分类预测模型及其解释工具的对话中,通过一次次抽样取得扎根真相,进行一轮轮的模型校准,发展出越来越精准的预测模型。本案例展示的大数据与结构化数据整合的研究范式是社会科学理论导引下的大数据研究方法论的实践。
引用
收藏
页码:69 / 91+227 +227
页数:24
相关论文
共 24 条
[1]   论社会学理论导引的大数据研究——大数据、理论与预测模型的三角对话 [J].
罗家德 ;
刘济帆 ;
杨鲲昊 ;
傅晓明 .
社会学研究, 2018, 33 (05) :117-138+244
[2]  
生育制度[M]. 北京大学出版社 , 费孝通著, 1998
[3]   The use of machine learning "black boxes" explanation systems to improve the quality of school education [J].
Muhamedyev, R. ;
Yakunin, K. ;
Kuchin, YA. ;
Symagulov, A. ;
Buldybayev, T. ;
Murzakhmetov, S. ;
Abdurazakov, A. .
COGENT ENGINEERING, 2020, 7 (01)
[4]   Detecting and quantifying causal associations in large nonlinear time series datasets [J].
Runge, Jakob ;
Nowack, Peer ;
Kretschmer, Marlene ;
Flaxman, Seth ;
Sejdinovic, Dino .
SCIENCE ADVANCES, 2019, 5 (11)
[5]  
Machine Learning Methods That Economists Should Know About[J] . Susan Athey,Guido W. Imbens.Annual Review of Economics . 2019 (1)
[6]  
Computational socioeconomics[J] . Jian Gao,Yi-Cheng Zhang,Tao Zhou.Physics Reports . 2019
[7]  
Machine learning in energy economics and finance: A review[J] . Ghoddusi Hamed,Creamer Germán G.,Rafizadeh Nima.Energy Economics . 2019 (C)
[8]  
Identifying urban areas by combining human judgment and machine learning: An application to India[J] . Virgilio Galdo,Yue Li,Martin Rama.Journal of Urban Economics . 2019 (prep)
[9]  
Data ex Machina: Introduction to Big Data[J] . David Lazer,Jason Radford.Annual Review of Sociology . 2017
[10]  
Theory-driven or process-driven prediction? Epistemological challenges of big data analytics[J] . Ahmed Elragal,Ralf Klischewski.Journal of Big Data . 2017 (1)