大数据处理算法要点.pdf

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据处理算法 目录 大数据处理算法一: Bitmap 算法 2 大数据处理算法二: Bloom Filter 算法 5 大数据处理算法三:分而治之 /hash 映射 + hash 统计 + 堆 / 快速 / 归并排序 11 标签:算法 ,大数据 ,编程 ,面试题 ,腾讯 1 大数据处理算法一: Bitmap 算法 腾讯面试题:给 20 亿个不重复的 unsigned int 的整数,没排过序的,然后再 给一个数,如何快速判断这个数是否在那 40 亿个数当中并且所耗内存尽可能 的少? 解析 :bitmap 算法就好办多了 所谓 bitmap ,就是用每一位来存放某种状态,适用于大规模数据,但数据状态 又不是很多的情况。通常是用来判断某个数据存不存在的。 例如,要判断一千万个人的状态,每个人只有两种状态:男人,女人,可以用 0,1 表示。那么就可以开一个 int 数组 ,一个 int 有 32 个位,就可以表示 32 个人。操作的时候可以使用 位操作 。 一,申请 512M的内存 一个 bit 位代表一个 unsigned int 值 读入 20 亿个数,设置相应的 bit 位 读入要查询的数,查看相应 bit 位是否为 1,为 1 表示存在,为 0 表示不存在 二、使用位图法判断整形 数组 是否存在重复 判断集合中存在重复是常见编程任务之一,当集合中数据量比较大时我们通常 希望少进行几次扫描,这时双重循环法就不可取了。 位图法比较适合于这种情况,它的做法是按照集合中最大元素 max创建一个长 度为 max+1的新数组 ,然后再次扫描原数组,遇到几就给新数组的第几位置上 1,如遇到 5 就给新数组的第六个元素置 1,这样下次再遇到 5 想置位时发现新 数组的第六个元素已经是 1 了,这说明这次的数据肯定和以前的数据存在着重 复。这种给新 数组 初始化时置零其后置一的做法类似于位图的处理方法故称位 图法。它的运算次数最坏的情况为 2N。如果已知 数组 的最大值即能事先给新数 组定长的话效率还能提高一倍。 1. import java.util.BitSet; 2. /** 3. * 大数据处理算法一, bitmap 算法 4. * @author JYC506 5. * 6. */ 7. public class Bitmap { 2 8. 9. byte[] tem; 10. 11. public Bitmap(int length) { 12. this.tem = new byte[length]; 13. } 14. 15. public void add(int num) { 16. if (num tem.length) { 17. if (tem[num] != 1) { 18. tem[num] = 1; 19. } 20. } 21. } 22. 23. public boolean contain(int num) { 24. if (num tem.length) { 25. if (tem[num] == 1) { 26. return true; 27. } 28. } 29. return false; 30. }

文档评论(0)

tianya189 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地湖北
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档