格网化的位置微博数据抓取与人群信息提取

被引:6
作者
雷程程 [1 ]
张岸 [2 ]
齐清文 [2 ]
苏惠敏 [1 ]
机构
[1] 陕西师范大学旅游与环境学院
[2] 中国科学院地理科学与资源研究所/资源与环境信息系统国家重点实验室
关键词
格网; 位置微博; 数据抓取; 人群活动; 信息提取;
D O I
10.16251/j.cnki.1009-2307.2017.02.024
中图分类号
TP393.092 []; P208 [测绘数据库与信息系统];
学科分类号
080402 ; 070503 ; 081603 ; 0818 ; 081802 ;
摘要
空间位置信息通常代表了设备使用人群的地理空间活动特征,客观体现人群活动的时空分布。针对现有的微博数据抓取方法由于普通用户的访问限制易导致采集的目标数据缺失的问题,该文提出了一种目标区域空间划分策略。在数据抓取之前对目标区域实行格网化,进而实现数据的同时抓取。通过统计分析基于网格单元抓取的位置微博数据,从中提取出人群活动信息,结合位置微博数据所在的兴趣点类型,统计分析了位置微博用户的时空分布和活动特征。这种方法缩小了采集区域,可实现并行高效的位置微博抓取,并保证了采集范围的重叠,最大限度地保证采集数据的完整性。
引用
收藏
页码:125 / 129
页数:5
相关论文
共 13 条
[1]   智能公交系统的大数据处理框架初探 [J].
曾炎盛 .
价值工程, 2015, 34 (11) :236-238
[2]   城市计算概述 [J].
郑宇 .
武汉大学学报(信息科学版) , 2015, (01) :1-13
[3]   基于云计算的微博数据挖掘研究综述 [J].
贾冲冲 ;
王名扬 ;
郑丹 ;
张晓霞 .
安徽农业科学, 2014, 42 (31) :11193-11195
[4]   位置大数据的分析处理研究进展 [J].
刘经南 ;
方媛 ;
郭迟 ;
高柯夫 .
武汉大学学报(信息科学版), 2014, 39 (04) :379-385
[5]   利用位置签到数据探索城市热点与商圈 [J].
胡庆武 ;
王明 ;
李清泉 .
测绘学报, 2014, 43 (03) :314-321
[6]   新浪微博数据抓取——高级搜索 [J].
张洪辰 .
信息与电脑(理论版), 2013, (22) :54-55
[7]   基于微博API的分布式抓取技术 [J].
陈舜华 ;
王晓彤 ;
郝志峰 ;
蔡瑞初 ;
肖晓军 ;
卢宇 .
电信科学, 2013, 29 (08) :146-150+155
[8]   基于微博位置签到数据的POI更新方法 [J].
曹劲舟 ;
武红宇 .
地理空间信息, 2013, 11 (02) :15-18+8
[9]   利用公交刷卡数据分析北京职住关系和通勤出行 [J].
龙瀛 ;
张宇 ;
崔承印 .
地理学报, 2012, 67 (10) :1339-1352
[10]   新浪微博数据挖掘方案 [J].
廉捷 ;
周欣 ;
曹伟 ;
刘云 .
清华大学学报(自然科学版), 2011, 51 (10) :1300-1305