统计学 第一章 数据的收集与抽样.ppt

统计学 第一章 数据的收集与抽样.ppt

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

整群抽样整群抽样(Clustersampling)需要将总体分成若干个互不相交的K个群(Cluster),再采用简单随机抽样的方法从这K个群中抽取出若干个群,那么这些抽取出来的群就是我们的样本数据。与分层随机抽样不一样,在选择群的时候,我们希望群内的数据能够有较大的差异性。如果群内的分布状况与整个总体的分布状况类似,那么整群抽样的效果就会比较好。反之,可能导致后续的统计分析出现偏差。1.1总体与样本《统计学》*第一章数据的收集与抽样我们继续考虑上一节中的公寓数据:由此可见,这个文件里面包括了151个街区。为了节省资源,我们不妨采用整群抽样的方法,随机地从这些街区中抽出6个街区出来用以统计分析1.1总体与样本《统计学》*munity=length(levels(factor(housing$Neighborhood)))#街区数目munity第一章数据的收集与抽样1.1总体与样本《统计学》*#确定整群抽样对应的数据指标ClID=cluster(housing,c(Neighborhood),size=6,method=srswor)ClData=getdata(housing,ClID)#提取抽样数据ggplot(ClData,aes(x=Expense))+geom_histogram()+facet_wrap(~Neighborhood)第一章数据的收集与抽样便利抽样便利抽样(Conveniencesampling)是一种非概率的抽样方式,即不考虑概率,而是考虑“便利”。比如2020年的这次新冠肺炎给全世界带来了巨大的影响。在2020年3月,中美两国先后展开了疫苗的人体试验。如果采用随机抽样的方式决定谁来接受这些人体试验,那么显然就会存在伦理道德的风险。那么在这种人体试验中,招募志愿者显然就是比较“便利”的抽样方式,但样本的代表性可能严重不足。1.1总体与样本《统计学》*第一章数据的收集与抽样判断抽样判断抽样(Judgmentsampling)也是一种非概率抽样方法。相较于便利抽样方法,它会涉及到一些判断,也就是说有人对研究的背景比较熟悉,从而制定了一些选取样本的准则。样本的选取就会按照这种准则来进行。比如在两会期间,记者可能会根据自己了解到的代表信息,就一些问题选取一些代表来回答,那么这就是一种判断抽样。1.1总体与样本《统计学》*第一章数据的收集与抽样1.1总体与样本1.2抽样方法在大数据时代的应用第一章数据的收集与抽样《统计学》*第一章数据的收集与抽样分布式储存:在大数据时代,数据呈现出了海量的特征,且往往不能存储在同一台计算机或者同一个集群之中。此外,人们对于数据的隐私保护又有了极高的要求。因此,在现代社会很多数据都被存储在不同机器之上,人们试图将完整数据同时放在一起进行分析已经不太现实。1.2抽样方法在大数据时代的应用《统计学》*第一章数据的收集与抽样然而,将数据中蕴含的有用信息合并起来加以利用对于统计学家而言又具有不可抵抗的吸引力。比如在医疗卫生管理中,对于传染性疾病的监控和防范显然需要极高的时效性。当某一种从未见过的传染病刚刚出现之际,不同的医院会零星接受到一些病人。此时如果不同医院可以将信息及时汇总,统计学家在有充分数据量的情况下,就能迅速作出较为准确的统计分析。我们如果能够在不合并原始数据的条件下整合数据中的信息来完成统计分析和推断,那么这样的一种推断过程则可以称为分布式统计推断。1.2抽样方法在大数据时代的应用《统计学》*第一章数据的收集与抽样1.2抽样方法在大数据时代的应用《统计学》*第一章数据的收集与抽样在这个问题中,如果我们无法将原始的4万条数据合并在一起,那么我们该如何完成估计的任务呢?实际上,我们只需要分别在这4个城市得到所有观察值的和,然后将这4个和传递到同一个地方并再求这4个和的和,最后除以样本总量就可以得到最后的样本均值了。1.2抽样方法在大数据时代的应用《统计学》*第一章数据的收集与抽样1.2抽样方法在大数据时代的应用《统计学》*第一章数据的收集与抽样1.2抽样方法在大数据时代的应用《统计学》*set.seed#使用日期作为随机种子num=100000dat=data.frame(matrix(rnorm(4*num,mean=5),num,4))names(dat)=c(北京,上海,广州,深圳)第一章数据的收集与抽样1.2抽样方法在大数据时代的应用《统计

文档评论(0)

dllkxy + 关注
实名认证
内容提供者

本文库主要涉及建筑、教育等资料,有问题可以联系解决哦

版权声明书
用户编号:5213302032000001

1亿VIP精品文档

相关文档