Hive性能调优实战.pptxVIP

下载本文档

1
0
约2.19千字
约 30页
2023-08-11 发布于广东
举报
版权申诉

Hive性能调优实战.pptx

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Hive性能调优实战读书笔记模板 01思维导图读书笔记目录分析内容摘要精彩摘录作者介绍目录0305020406 思维导图性能实战代码实际读者运行等价第章集群数据性能作业问题影响表格式执行模式聚合本书关键字分析思维导图内容摘要内容摘要本书所介绍的实例都是从原理谈优化，让读者知其然也知其所以然。例如，在介绍HiveSQL调优时，我们会转换成计算引擎执行的等价代码，让读者知道HiveSQL的实际运行流程，从而直观地理解其可能引发的性能问题。读书笔记读书笔记本书整体还不错，但是如果能有些更具体，更贴近实际的优化案例就更实用了。写得不错，很多细节的确和复杂原理点到即可，比较适合初级到中级数据仓库工程师阅读。比较基础，有不少比较细节的知识点介绍，但是一些二次开发，架构源码分析没有涉及。对于俺这种有一点点sql、spark基础的人来说，感觉还很友好。深入浅出不仅是hive优化，对于了解大数据各个组件及原理也有帮助。一个小时看完了，整体看下来这本书定位适用于纯新手，内容铺面大，但都很浅。中规中矩吧，想深入了解执行过程可以看看，我算是来找hive优化trick的，感觉帮助一般。可能需要一些基本的java知识数据存储，参数配置，引擎计算逻辑，日志……覆盖面挺广的，看完又有了一层新的认识，很推荐。书籍适合有一定hive经验的人，对于执行计划的介绍可以理解优化的方式。最有用的一章是讲hive执行计划以及常用sql对应的执行计划。精彩摘录精彩摘录在Hive中，优化方式可以归结为3点，即优化存储、优化执行过程和优化作业的调度。在进行数据处理时先将计算发往数据所在的节点，将数据以键-值对作为输入，在本地处理后再以键-值对的形式发往远端的节点，这个过程通用叫法为Shuffle分布式计算和分布式存储会消耗大量的磁盘I/O和网络I/O资源，这部分资源往往成为了大数据作业的瓶颈使用grouping sets代替union的SQL优化。开启tion.enabled操作，默认是关闭状态，将一个普通的查询转化为向量化查询执行是一个Hive特性。它大大减少了扫描、过滤器、聚合和连接等典型查询操作的CPU使用SQL并行执行并不会节省作业耗用的CPU和磁盘资源，只是节省了用户等待的时间●减少Map个数，需要增大.size的值，减少的值；●增大Map个数，需要减少.size的值，同时增大的值。看起来和where子句的过滤方式一致，其实两者是不一样的，普通where子句的过滤是在Map阶段，增加判断条件以剔除不满足条件的数据行，而分区列筛选其实是在Map的上一个阶段，即在输入阶段进行路径的过滤。目录分析 1.1感受改写SQL对性能的影响1.3感受不同数据格式对性能的提升1.2感受调整数据块大小对性能的影响第1章举例感受Hive性能调优的多样性 1.5调优其实不难1.4感受不同的表设计对性能的影响第1章举例感受Hive性能调优的多样性 2.1小白推演Hive的优化方法2.3总结调优的一般性过程2.2老工对Hive的调优理解第2章 Hive问题排查与调优思路 3.1 Docker基础3.3 Docker搭建分布式集群3.2 Cloudera Docker搭建伪分布式环境第3章环境搭建 3.5使用GitHub开源项目构建集群3.4 CDM搭建分布式集群第3章环境搭建 4.1 Hive架构4.2 YARN组件4.3 HDFS架构4.4计算引擎第4章 Hive及其相关大数据组件 5.1 MapReduce整体处理过程5.2 MapReduce作业输入5.3 MapReduce的Mapper5.4 MapReduce的Reducer5.5 MapReduce的Shuffle5.6 MapReduce的Map端聚合010302040506第5章深入MapReduce计算引擎 5.7 MapReduce作业输出5.9 MapReduce与Tez对比5.8 MapReduce作业与Hive配置第5章深入MapReduce计算引擎 6.1查看SQL的执行计划6.2简单SQL的执行计划解读6.3带普通函数/操作符SQL的执行计划解读6.4带聚合函数的SQL执行计划解读第6章 HiveSQL执行计划 6.6表连接的SQL执行计划解读6.5带窗口/分析函数的SQL执行计划解读第6章 HiveSQL执行计划 7.1过滤模式7.3连接模式7.2聚合模式第7章 Hive数据处理模式 8.1查看YARN日志的方式8.2快速查看集群概况8.3查看集群节点概况8.4查看集群的队列调度情况8.5查看集群作业运行信息12345第8章 YARN日志 9.1文件存储格式之Apache ORC9.2与ORC相关的Hive配置9.3文件存储格式之Apache Parquet9.4数据归档第9章数据存储