- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
big data《大数据时代》读书笔记——精华观点和
big data 《大数据时代》
精华观点和核心语句
不再追求精确度,不再追求因果关系,而是承认混杂性,探索相关关系。
如同工业革命要开放物质交易、流通一样,开放、流通的数据是时代趋势的要求。开放
所带来的改变远远大于拥有权和隐私性保护所带来的问题。
要全体不要抽样,要效率不要绝对精确,要相关不要因果。
作者认为相关关系比因果关系重要,译者表示反对,认为放弃因果等于放弃人类的智力
优势,是末日之始。导致相关关系比因果关系重要的原因在于,我们机器学习和以结果
为导向的研究思路误导人类。
公共医疗:Google 通过分析03 到08 的流感相关搜索词条,将45 中词条组合输入一个
数学模型之后,得到的流感预测数据和官方统计数据有97%吻合。09 年判断准确,及
时预报流感。
商业:farecast 利用十万亿条飞机票价记录,预测飞机票价准确度高达75%,利用
farecast 购买机票的旅客平均每张机票节省 50 美元。
不再需要一致性的数据库和僵化的层次结构,不再需要结构化查询语言sql,最新的数
据库为非关系型数据库nosql 。
美国股市每天成交量高达70 亿股,其中三分之二都是由数学模型和算法之上的计算机
程序自动完成的,这些程序利用海量数据来预测利益和降低风险。
数据爆炸式增长,绝大部分为数字信息,极少部分为模拟数据。数据每三年多翻一番。
数据规模的量变产生质变,就比如万有引力对生物体大小的关系,纳米技术对现实生活
物质的性质有所改变一样,空气阻力和重量和形状关系一样。
大数据的核心在于预测,把数学算法运用到海量数据中来预测事情发生的可能性。
不再依赖于随机采样,不在热衷于追求精确度。并非完全放弃精确度,只是不再沉迷于
此。不在热衷于寻找因果关系,而是寻找事物之间的相关性。
数据化意味着从一切事物中汲取数据,甚至包括我们以前认为和 “信息”搭不上边的事
情。比方说,一个人所在的位置、引擎的振动、桥梁的承重等等。
如同电影《点石成金》中,棒球球探们在统计学家面前相形见绌——直觉的判断被迫让
位于精准的数据分析。
正文:
第一章:样本=全体
统计学家证明,采样分析的精确性随着采样随机性的增加而大幅度提高,但与样本数量
的增加关系不大。随机采样取得了巨大的成功,但是他的成功利亚与采样的绝对随机性,
实现采样的随机性非常困难,一旦采样过程中存在任何偏见,分析结果就会相去甚远。
搜集的数据越来越多,分析和预测结果就会越来越准确,并发现一些细节和微乎其微的
重要问题。
有些情况下,异常值才是重要的信息,大数据的处理方法就不会错过这个异常值。商务
是即时的,因此数据分析也应该是即时的。
《魔鬼经济学》
大数据是指不用随机分析法这样的捷径,而是通过采用所有数据的方法。数据量不一定
很大,但需要全部,包含了所有的信息。
Lytro 相机记录整个光场的信息,搜集了所有的数据,拍摄完之后再对焦,而且有 “可
循环利用性”。
《爆发》
第二章:混杂性。
只有5%的数据是结构化的,可以适用于传统数据库,如果不接受混乱,剩下95% 的非
结构化数据都无法被利用。
少量数据下运行最佳的算法,可能在大数据下可能会表现差强人意,在少量数据下表现
差的算法,可能在大数据下惊呆小伙伴们。大数据的简单算法比小数据的复杂算法更有
效,混杂是关键。
谷歌翻译之所以好,除了数据量庞大以外,还接受了有错误的数据,即来自互联网的废
弃内容。
Hadoop 超大量数据下的分布式处理,假设系统瘫痪而建立数据副本,假定数据量巨大
无法移动,人们必须在本地进行数据分析。它的输出结果不想关系型数据库那般精确,
无法用于卫星发射、开具银行账户明细,但是运行却快很多。
第三章 不是因果关系,而是相关关系
通过数据推荐产品所增加的销售远远超过书评家的贡献。计算机可能不知道为什么喜欢
海明威作品的客户会购买菲茨吉拉德的书,但是他只要通过算法统计分析,得知这个结
果就可以了。
沃尔玛领导了零售链的革命,让供应商监控销售速率、数量、以及存货情况。这个数据
库不仅包含了每一个顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时
间,甚至购买当天的天气。
在大数据时代,通过建立在人的偏见上的关联物检测法已经不再可行,因为数据库太大
而且需要考虑的领域太复杂。幸运的是,许多迫使我们选择假想分析法的限制条件也逐
渐消失了。现在我们拥有如此多的数据,这么好的机器计算能力,因而不再需要人工选
择一个关联物或者一小部分相似的数据来逐一分析了。大数据的相关关系分析法,取代
了基于假想
您可能关注的文档
- 2017年一级建造师水利水电工程管理与实务必考题库2016年一建模拟试题+2018年1建考题答案解析2019年建造师考试笔记小抄2020年2021年.pdf
- 2017年一级消防工程师考试串讲笔记消防安全案例分析讲义课程2016年二级消防工程师知识点归纳2018年全国注册消防工程师2019年2020年2021年.pdf
- 2017年云南省考专业课法律专业知识(a卷)考点精讲班a类学员模拟试卷参考答案2016年2018年2019年2021年.pdf
- 2017年云南省考专业课法律专业知识(b类学员模拟试卷参考答案)2016年2018年2019年2021年.pdf
- 2017年造价员考试讲义小抄2016年建设工程造价基础知识笔记2018年造价员串讲资料2019年2020年2021年.pdf
- 2017年招标师考试讲义小抄招标采购项目管理笔记2016年招标师重点串讲2018年2019年招标师考试资料2020年2021年.pdf
- 2017年云南省考法检系统专业课法律专业知识(b卷)考点精讲班讲义2016年2018年2019年2021年.pdf
- 2017年招标师考试重点归纳招标采购专业知识与法律法规政策笔记小条2016年招标师小抄讲义2018年2019年2020年2021年.pdf
- 2017年招标师知识点总结招标采购专业实务笔记2016年招标师小抄重点讲义资料2018年2019年招标师串讲2020年2021年.pdf
- 2017年中级会计师考试笔记小抄2016年会计实务串讲讲义2018年会计职称考前必备资料2019年备考资料2020年2021年.pdf
- 2023年江苏省镇江市润州区中考生物二模试卷+答案解析.pdf
- 2023年江苏省徐州市邳州市运河中学中考生物二模试卷+答案解析.pdf
- 2023年江苏省苏州市吴中区中考冲刺数学模拟预测卷+答案解析.pdf
- 2023年江苏省南通市崇川区田家炳中学中考数学四模试卷+答案解析.pdf
- 2023年江西省吉安市中考物理模拟试卷(一)+答案解析.pdf
- 2023年江苏省泰州市海陵区九年级(下)中考三模数学试卷+答案解析.pdf
- 2023年江苏省苏州市高新二中中考数学二模试卷+答案解析.pdf
- 2023年江苏省南通市九年级数学中考复习模拟卷+答案解析.pdf
- 2023年江苏省南通市海安市九年级数学模拟卷+答案解析.pdf
- 2023年江苏省泰州市靖江外国语学校中考数学一调试卷+答案解析.pdf
文档评论(0)