大数据存储与应用数据挖掘.pptx

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据存储与应用数据挖掘

大数据存储与应用 数据流挖掘;内容;预览;流数据模型;流数据模型;流;大数据下的系统限制;模型;问题;应用;抽样;抽样;固定比率抽样;有问题;正确方法:按用户采样;固定Size抽样;新元素进入S的概率p;S中原元素的剔除策略;滑动窗口内计数;示例;应用:统计滑动窗中1的个数;统计滑动窗中1的个数;DGIM方法;DGIM;DGIM需要的存储空间;更新;示例;估计1的个数;Error bound:50%;扩展;应用:窗口内整数的和;小结;过滤 ;Bloom filter;初始化;到底有几个1?;检查;改进:多个hash函数;K的选择;Bloom Filter总结;Distinct元素统计;应用;明显的方法;大数据情况下;Flajolet-Martin方法;直觉证明(Intuition);更形式化的证明;实际应用;矩估计;矩估计;Surprise number(奇异数);AMS方法;分析;推广;应用;对Infinite Stream;衰减窗口;发现流行;DGIM方法;指数衰减窗方法(EDW);实际中,为了减少存储,设一个阈值(如1/2),权重低于该阈值的,就不跟踪了 ???计要跟踪多少个视频 任意时刻,所有视频热度的和 来一个视频观看,以前所有视频观看带来的热度乘(1-c),再给对应视频的热度+1 所有视频观看带来的热度的分布,也是一个等比级数,和为 因此,得分超过1/2的电影个数 不会超过2/c 否则,总分将超过1/c 所以,最多只需要跟踪2/c个视频的热度 省;扩展到一篮子(项集Itemsets);跟踪多少个?;总结

文档评论(0)

181****7127 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档