高级大数据研发工程师面试题总结.pdfVIP

高级大数据研发工程师面试题总结.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

高级大数据研发工程师面试题总结--第1页

高级大数据研发工程师面试题总结

1.Spark处理数据流程、并行度决定机制

2.SparkSQL解析SQL的详细流程、hash广播底层实现

3.Sparkshuffle、shuffle文件

4.groupByKey、reduceByKey、aggregateByKey、combineByKey区别

5.repartition和coalesce区别

6.Spark内存管理模型

7.Spark中能够进行下推的算子和不能进行下推的算子有哪些?谓

词下推?映射(project)下推?

8.数仓数据的存储格式(parquet+snappy),为什么使用parquet、

parquet特性、底层结构?parquet事务?parquet进行字段的新增

或删除,如何进行数据的历史数据中字段的新增或删除(非重跑数

据)?

9.Flinkwatermark

10.HDFS写数据流程、fsimage作用、如何区分HDFS热数据和冷数

高级大数据研发工程师面试题总结--第1页

高级大数据研发工程师面试题总结--第2页

11.数据倾斜(Spark、Hive、HBase)

12.MapReduce原理,map数、reduce数决定机制

13.说一下mapjoin与reducejoin

14.spark和hive的区别

15.udf、udtf、udaf,集成的类、接口,怎么写

16.hive文件存储格式,对比

17.parquet文件和orc文件区别

18.hive内外表区别

19.hive执行的job数是怎么确定的

20.窗口函数中几个rank函数的区别

21.cube、groupingsets、grouping__id

22.你进行过hivesql到sparksql的任务迁移吗?有没有遇到语法

/sql语句兼容性问题?

23.如何建设数仓,如何构建主题域

24.缓慢变化维几种处理方式

高级大数据研发工程师面试题总结--第2页

高级大数据研发工程师面试题总结--第3页

25.什么是维度建模,星型模型与雪花模型的区别

26.数仓建设以及分层的好处

27.怎么做数据质量,怎么保证及时性和准确性

28.维度表和事实表?

29.如何数据治理?

30.谈谈你对数据仓库、数据中台、数据湖的理解?

31.做过实时数仓吗,讲一下

32.数仓建模方法,你公司用的是什么建模方法?为什么采用这种

建模方法?

33.Yarnclient和Yarncluster区别?

34.提交到Yarn上的应用如Spark与Yarn的交互流程?

35.HBase架构、rowkey和列族设计及注意事项?为什么使用LSM

树(与传统的RDBMS如mysql的B+树对比)?

36.HBase适合读多写少还是写多读少的场景,为什么?HBase二级

索引?HBase小文件过多的原因?

高级大数据研发工程师面试题总结--第3页

高级大数据研发工程师面试题总结--第4页

37.Phoenix查询HBase数据把HBase搞崩的问题有没有遇到过?可

能是哪些原因导致的?

38.Kafka高可用、高性能的原理?使用过哪些版本的Kafka,有没

有遇到一些bug,怎么导致的,如何解决?Kafka数据

文档评论(0)

138****1291 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档