厦大林子雨编著-大数据技术原理与应用-电子书-第14章-基于Hadoop的数据仓库Hive（2016年4月6日版本）.pdf

下载文档

0
0
约3.57万字
约 26页
2024-08-02 发布于河南
举报
版权申诉
保障服务

厦大林子雨编著-大数据技术原理与应用-电子书-第14章-基于Hadoop的数据仓库Hive（2016年4月6日版本）.pdf

1、本文档共26页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

厦门大学林子雨编著

《大数据技术原理与应用》

第14章基于Hadoop的数

据仓库Hive

（版本号：2016年4月6日版本）

（备注：2015年8月1日第一版教材中没有本章，本章为2016年新增内容，将被放入第二版教材中）

主讲教师：林子雨

厦门大学数据库实验室

二零一六年四月

14.1概述1

14.1.1数据仓库概念1

14.1.2传统数据仓库面临的挑战2

14.1.3Hive简介3

14.1.4Hive与Hadoop生态系统中其他组件的关系3

14.1.5Hive与传统数据库的对比分析4

14.1.6Hive在企业中的部署和应用5

14.2Hive系统架构6

14.3Hive工作原理8

14.3.1SQL语句转换成MapReduce作业的基本原理8

14.3.2Hive中SQL查询转换成MapReduce作业的过程10

14.4HiveHA基本原理12

14.5Impala13

14.5.1Impala简介13

14.5.2Impala系统架构14

14.5.3Impala查询执行过程15

14.5.4Impala与Hive的比较16

14.6Hive编程实践17

14.6.1Hive的数据类型17

14.6.2Hive基本操作18

14.6.3Hive应用实例：WordCount22

14.6.4Hive编程的优势23

本章小结23

习题24

附录1:任课教师介绍25

附录2：课程教材介绍25

附录3：中国高校大数据课程公共服务平台介绍26

厦门大学林子雨编著《大数据技术原理与应用》第14章基于Hadoop的数据仓库Hive

第14章基于Hadoop的数据仓库Hive

Hive是一个基于Hadoop的数据仓库工具，可以用于对存储在Hadoop文件中的数据集

进行数据整理、特殊查询和分析处理。Hive的学习门槛比较低，因为它提供了类似于关系

数据库SQL语言的查询语言——HiveQL，可以通过HiveQL语句快速实现简单的MapReduce

统计，Hive自身可以将HiveQL语句快速转换成MapReduce任务进行运行，而不必开发专

门的MapReduce应用程序，因而十分适合数据仓库的统计分析。

本章首先介绍了数据仓库的概念、Hive的基本特征、与其他组件之间的关系、与传统

数据库的区别以及它在企业中的具体应用；接着详细介绍了Hive的系统架构，包括基本组

成模块、工作原理和几种外部访问方式，描述了Hive的具体应用及HiveHA原理；同时，

介绍了新一代开源大数据分析引擎Impala，它提供了与Hive类似的功能，但是，速度要比

Hive快许多；最后，以单词统计为例，介绍了如何使用Hive进行简单编程，并说明了Hive

编程相对于MapReduce编程的优势。

14.1概述

14.1.1数据仓库概念

您可能关注的文档

文档评论（0）

聚好信息咨询 + 关注: 官方认证

服务提供商

本公司能够提供如下服务：办公文档整理、试卷、文档转换。

咨询作者（221人已咨询）服务中

认证主体鹤壁市淇滨区聚好信息咨询服务部

IP属地河南

统一社会信用代码/组织机构代码: 92410611MA40H8BL0Q

1亿VIP精品文档

更多 >

厦大林子雨编著-大数据技术原理与应用-电子书-第14章-基于Hadoop的数据仓库Hive（2016年4月6日版本）.pdf