基于社交平台大数据的暴雨时空分析.docx

基于社交平台大数据的暴雨时空分析.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于社交平台大数据的暴雨时空分析

?

?

李雪尘熊薪

摘?要:在来自社交平台大数据的支持下,已有多项研究揭示灾害发展趋势、灾难位置与影响范围,展现了社交媒体数据对灾害研究的帮助。本文以2012年北京大暴雨为研究对象,通过分析用户提及行为与暴雨时空变化,通过微博中暴雨数据反映了用户在现实中的亲近社交关系、实时展现暴雨相关信息并预测其发展趋势,有助于研究灾害动向以及其间用户关系。

关键词:时空大数据?提及行为?暴雨?新浪微博

:P954?????????????????:A???????????:1674-098X(2019)02(b)-0119-03

Abstract:Inthispaper,the2012Beijingheavyrainwastakenastheresearchobject.Byanalyzingtheusersmentionedbehaviorsandthetemporalandspatialchangesoftheheavyrain,theheavyraindatainthemicroblogreflectedtheusersclosesocialrelationshipinreality,presentedtheinformationrelatedtotheheavyraininrealtimeandpredicteditsdevelopmenttrend,whichwasconducivetothestudyofthedisastertrendandtherelationshipbetweenusers.

KeyWords:Spatiotemporalbigdata;Mentionbehavior;Heavyrains;Weibo

大数据拥有速度快多样化等优点,从海量数据中挖掘巨大价值使人们能更好地理解世界[1]。如2014年陈佳等人基于手机定位数据推测出用户特征[2]。在大数据高速发展的同时,Facebook、Twitter等社交平台因便利高速,其用户与日俱增,为政治、科技、娱乐等不同领域的研究提供新可能[3]。在社交媒体用户行为分析与时空分布研究的基础上,可通过将用户行为与极端事件关联来研究灾害。

基于新浪微博数据,本文研究了2012年北京暴雨发生时与发生前后的用户提及行为,并据此分析社交平台中暴雨的时空变化。具体表现为以用户为节点,提及关系为度,构建网络形成组件,对组件分类探讨并对比分析暴雨期间不同城市内的微博信息在时空范围上的演变趋势。

1?实验方法

本文以2012年7月北京特大暴雨为研究对象,通过微博提供的API搜集暴雨期间的微博数据,从中筛选出带有“@”的信息并据此构建网络与组件,分析暴雨中用户的行为规律。

1.1构建组件

在网络爬虫的支持与关键词“北京暴雨”的限制下,本文借助新浪微博获取此灾害发生时社交平台内用户发布的相关信息,经过预处理得到24855条有效数据。据此筛选出从2012年7月21日起之后连续3d内的16759条数据,其中部分包含地理坐标,作为研究灾害时空变化趋势的依据。之后从所有数据中识别出6529个被@的用户,作为节点以形成网络。

从网络中筛选出2089条包含提及关系的微博,所形成的提及网络中包括拥有不同数量节点与微博的1854个组件。将组件的平均度、平均聚集系数、中心性系数、网络直径可视化并据此对组件进行分类,之后用幂律分布验证不同组件节点变化规律,在2.1中主要分析一个节点数较多且聚集系数较大的组件。

1.2时空分析

将兴趣时间段内所有包含地理坐标的微博以经纬度的形式可视化,同时筛选出含有提及关系的微博,以相同方式可视化后与前者对比,可观察出提及微博聚集程度的减弱。并从网络中随机抽取微博进行人工分类以分析用户提及行为的原因。

之后分析暴雨中与城市相关的微博信息在时空范围内的变化。从不同角度对比上海、天津、北京、重庆、武汉、深圳的微博差異,统计了每个城市在不同时间点被提及的次数、每个城市不同时间点发出的微博总数、每个城市不同时间点的提及数量与总微博数量之比,将城市被提及数量可视化,并统计每个地区数据集内每小时的提及次数、微博数量。

2?实验结果

2.1组件分析

基于1.1的方法形成的网络中含有一个聚集系数较大的组件(图1),针对此组件聚集系数较大的特点,可将其解释为一个在地理上聚集且互动较多的用户形成的社区。作为基于提及关系的组件,其聚集系数较大说明提及网络可体现亲近社交关系,即提及行为能反映较强的用户相关

文档评论(0)

方圆 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档