大数据的真与假.pdfVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

刘德寰(北京大学新闻与传播学院教授):“大数据”实际上现在是一个非常重

要,非常热的词汇。22年前我开了一门课叫“数据分析”,冷的不能再冷了。

现在突然热了,甚至热得让人受不了。

大数据实际上有三个主要的理解:大数据确实带来了大的机会;大数据本身非常

像大忽悠;大数据也引来了大风险。我的演讲主题从这三个点上展开。

大数据带来大机会:各行各业突飞猛进地运用大数据

先说大数据。大数据到来之后,包括电子商务,零售企业,交通运输,信息产业,

公共卫生,教育以及生产企业对零部件的监测,各个产业实际上都在突飞猛进地

运用大数据。在这当中,在全球范围内形成了很多重要的案例,我简单介绍几个。

在大数据领域做的最好的一个公司叫Target。它用抽样调查和大数据结合,构

造了整个智能的广告推送系统,做得非常非常好,后面我会用一个案例来讲。

有一个在全球范围内影响力非常大的公司叫TESCO,在中国叫乐购。它用的是一

个抽样实验加分析,然后进行大数据推送。TESCO能够保证任何一个人只要在这

里有了一个完整的消费之后,你出来的那一刹那看到的广告和你进来时是完全不

一样的。因为他会根据你的需求来推送完全不同的东西。但是大家也要注意,这

当中的前提是实验。TESCO每天都在进行上百个实验。

另外一个是大家都比较熟悉的服装品牌ZARA。ZARA玩的是一个比较传统的方式。

它用视频监测,不仅仅看你是否偷了衣服,更重要的是记录你的行为。每一个店

长就是调查员,每天收集几千个数据,找寻消费者的需求,这也可以叫调查。历

时很长的话就有数据量的影响。

在整个信息产业当中,尤其电商中做得比较好的是亚马逊。它在大数据应用中最

典型的传统的方式是行为痕迹的建模和文本挖掘的结合,构建它的数据系统。

还有一个是沃尔玛。它花钱买了一个不到100人的做社交大数据分析的公司

Kosmix,同时还建了一个仓储的大数据工具。这是几个非常典型的国外的例子。

实际上国内也一样,我本人参与了几个。

我们理解大数据的时候可能都知道一个概念叫“尿布与啤酒”。实际上这个案例

在那个时代还没有大数据的情况下,用零售数据发现了某种规律,然后用传统的

思想研究陪伴购物构建出来的。但是现在来应用这种方式,只要我们把这些信息

补全之后,构造的连带关系的分析和购物篮的分析要远远超过“尿布与啤酒”。

我们看下面的案例,假设一个人买了A牌的卫生纸,B牌的护手霜,他买C牌牛

奶的可能性是其他人的4.84倍,买某种饼干的可能性是其他人的4.82倍。如果

他买了某种牌子的盐,那他买某品牌香烟的可能性是其他人的4.44倍。这只是

把它截断出来,实际上这个数据是一个非常长的购物篮技术。在这类分析中,实

际上我们会发现它本身依赖的确实有大数据的源头,但是真正在分析当中也会面

临其他问题。所以,我今天更重要的是要讲大数据与大忽悠。

现在“云”很多,到底是浮云还是真正的计算云不好说。如果我们要分析的话,

大数据引领的一个时代是一个非常有意思的事情。在没有总结总体性规律的时候,

我们直接对个体进行理解,这实际上跟我们常识性的学术研究的逻辑相违背。这

种方法简单、实用、粗暴。实际验证的结果不一定有效。后面我拿谷歌的案例来

看。

现在有一本书很重要,叫《大数据时代》。今天译者周涛也在。书里有两个非常

值得商榷的观点,一个是对抽样的极端蔑视,另一个是无原则地推崇相关。我会

在后面把这两个点进行比较详细的展开。

大数据引来的大风险:到处都是假规律

实际上大数据带来了几个非常重要的风险。

第一是计算速度。现在速度快极了。Hadoop速度非常快,是调取、存储和归整

数据的极好的工具。但是对挖掘数据来讲,这个工具并没有那么好。前一段时间,

我们做了一个历时半年的900万用户的智能手机使用习惯的研究。在数据建模的

时候我们发现,计算速度实际是一个非常大的问题。我们把16台顶级服务器连

成一个超级计算机,在这个基础上把模型建好,运算全数据的过程花了整整21

天。我相信航天这些的运算速度没有问题,但是学界的,商用的的东西中,计算

速度存在着非常大的问题。

第二,海量数据非常危险。只要玩大数据的人会发现到处都是假规律。我拿一

个小数据,比如五千个样本做一个非常简单的线性回归的时候发现有三个变量线

性显著。但是没做任何变化,把这个变量复制倍,显著的比例可能五个了,到

33万的时候可能所有变量之间的关系都显著了。问题是统计上都显著了,但所

有这些结果都是错的。当数据运算量大到大约33万到70万之间时,我们会发现

一个非常重要的哲学问题。这个哲学问题

文档评论(0)

1637142147337d1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档