big data《大数据时代》读书笔记——精华观点和.pdf

big data《大数据时代》读书笔记——精华观点和.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
big data《大数据时代》读书笔记——精华观点和

big data 《大数据时代》 精华观点和核心语句 不再追求精确度,不再追求因果关系,而是承认混杂性,探索相关关系。 如同工业革命要开放物质交易、流通一样,开放、流通的数据是时代趋势的要求。开放 所带来的改变远远大于拥有权和隐私性保护所带来的问题。 要全体不要抽样,要效率不要绝对精确,要相关不要因果。 作者认为相关关系比因果关系重要,译者表示反对,认为放弃因果等于放弃人类的智力 优势,是末日之始。导致相关关系比因果关系重要的原因在于,我们机器学习和以结果 为导向的研究思路误导人类。 公共医疗:Google 通过分析03 到08 的流感相关搜索词条,将45 中词条组合输入一个 数学模型之后,得到的流感预测数据和官方统计数据有97%吻合。09 年判断准确,及 时预报流感。 商业:farecast 利用十万亿条飞机票价记录,预测飞机票价准确度高达75%,利用 farecast 购买机票的旅客平均每张机票节省 50 美元。 不再需要一致性的数据库和僵化的层次结构,不再需要结构化查询语言sql,最新的数 据库为非关系型数据库nosql 。 美国股市每天成交量高达70 亿股,其中三分之二都是由数学模型和算法之上的计算机 程序自动完成的,这些程序利用海量数据来预测利益和降低风险。 数据爆炸式增长,绝大部分为数字信息,极少部分为模拟数据。数据每三年多翻一番。 数据规模的量变产生质变,就比如万有引力对生物体大小的关系,纳米技术对现实生活 物质的性质有所改变一样,空气阻力和重量和形状关系一样。 大数据的核心在于预测,把数学算法运用到海量数据中来预测事情发生的可能性。 不再依赖于随机采样,不在热衷于追求精确度。并非完全放弃精确度,只是不再沉迷于 此。不在热衷于寻找因果关系,而是寻找事物之间的相关性。 数据化意味着从一切事物中汲取数据,甚至包括我们以前认为和 “信息”搭不上边的事 情。比方说,一个人所在的位置、引擎的振动、桥梁的承重等等。 如同电影《点石成金》中,棒球球探们在统计学家面前相形见绌——直觉的判断被迫让 位于精准的数据分析。 正文: 第一章:样本=全体 统计学家证明,采样分析的精确性随着采样随机性的增加而大幅度提高,但与样本数量 的增加关系不大。随机采样取得了巨大的成功,但是他的成功利亚与采样的绝对随机性, 实现采样的随机性非常困难,一旦采样过程中存在任何偏见,分析结果就会相去甚远。 搜集的数据越来越多,分析和预测结果就会越来越准确,并发现一些细节和微乎其微的 重要问题。 有些情况下,异常值才是重要的信息,大数据的处理方法就不会错过这个异常值。商务 是即时的,因此数据分析也应该是即时的。 《魔鬼经济学》 大数据是指不用随机分析法这样的捷径,而是通过采用所有数据的方法。数据量不一定 很大,但需要全部,包含了所有的信息。 Lytro 相机记录整个光场的信息,搜集了所有的数据,拍摄完之后再对焦,而且有 “可 循环利用性”。 《爆发》 第二章:混杂性。 只有5%的数据是结构化的,可以适用于传统数据库,如果不接受混乱,剩下95% 的非 结构化数据都无法被利用。 少量数据下运行最佳的算法,可能在大数据下可能会表现差强人意,在少量数据下表现 差的算法,可能在大数据下惊呆小伙伴们。大数据的简单算法比小数据的复杂算法更有 效,混杂是关键。 谷歌翻译之所以好,除了数据量庞大以外,还接受了有错误的数据,即来自互联网的废 弃内容。 Hadoop 超大量数据下的分布式处理,假设系统瘫痪而建立数据副本,假定数据量巨大 无法移动,人们必须在本地进行数据分析。它的输出结果不想关系型数据库那般精确, 无法用于卫星发射、开具银行账户明细,但是运行却快很多。 第三章 不是因果关系,而是相关关系 通过数据推荐产品所增加的销售远远超过书评家的贡献。计算机可能不知道为什么喜欢 海明威作品的客户会购买菲茨吉拉德的书,但是他只要通过算法统计分析,得知这个结 果就可以了。 沃尔玛领导了零售链的革命,让供应商监控销售速率、数量、以及存货情况。这个数据 库不仅包含了每一个顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时 间,甚至购买当天的天气。 在大数据时代,通过建立在人的偏见上的关联物检测法已经不再可行,因为数据库太大 而且需要考虑的领域太复杂。幸运的是,许多迫使我们选择假想分析法的限制条件也逐 渐消失了。现在我们拥有如此多的数据,这么好的机器计算能力,因而不再需要人工选 择一个关联物或者一小部分相似的数据来逐一分析了。大数据的相关关系分析法,取代 了基于假想

您可能关注的文档

文档评论(0)

牛X文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档