厦大林子雨编著-大数据技术原理与应用-电子书-第14章-基于Hadoop的数据仓库Hive(2016年4月6日版本).pdf

厦大林子雨编著-大数据技术原理与应用-电子书-第14章-基于Hadoop的数据仓库Hive(2016年4月6日版本).pdf

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

厦门大学林子雨编著

《大数据技术原理与应用》

第14章基于Hadoop的数

据仓库Hive

(版本号:2016年4月6日版本)

(备注:2015年8月1日第一版教材中没有本章,本章为2016年新增内容,将被放入第二版教材中)

(版权声明:版权所有,请勿用于商业用途)

主讲教师:林子雨

厦门大学数据库实验室

二零一六年四月

目录

目录

14.1概述1

14.1.1数据仓库概念1

14.1.2传统数据仓库面临的挑战2

14.1.3Hive简介3

14.1.4Hive与Hadoop生态系统中其他组件的关系3

14.1.5Hive与传统数据库的对比分析4

14.1.6Hive在企业中的部署和应用5

14.2Hive系统架构6

14.3Hive工作原理8

14.3.1SQL语句转换成MapReduce作业的基本原理8

14.3.2Hive中SQL查询转换成MapReduce作业的过程10

14.4HiveHA基本原理12

14.5Impala13

14.5.1Impala简介13

14.5.2Impala系统架构14

14.5.3Impala查询执行过程15

14.5.4Impala与Hive的比较16

14.6Hive编程实践17

14.6.1Hive的数据类型17

14.6.2Hive基本操作18

14.6.3Hive应用实例:WordCount22

14.6.4Hive编程的优势23

本章小结23

习题24

附录1:任课教师介绍25

附录2:课程教材介绍25

附录3:中国高校大数据课程公共服务平台介绍26

厦门大学林子雨编著《大数据技术原理与应用》第14章基于Hadoop的数据仓库Hive

第14章基于Hadoop的数据仓库Hive

Hive是一个基于Hadoop的数据仓库工具,可以用于对存储在Hadoop文件中的数据集

进行数据整理、特殊查询和分析处理。Hive的学习门槛比较低,因为它提供了类似于关系

数据库SQL语言的查询语言——HiveQL,可以通过HiveQL语句快速实现简单的MapReduce

统计,Hive自身可以将HiveQL语句快速转换成MapReduce任务进行运行,而不必开发专

门的MapReduce应用程序,因而十分适合数据仓库的统计分析。

本章首先介绍了数据仓库的概念、Hive的基本特征、与其他组件之间的关系、与传统

数据库的区别以及它在企业中的具体应用;接着详细介绍了Hive的系统架构,包括基本组

成模块、工作原理和几种外部访问方式,描述了Hive的具体应用及HiveHA原理;同时,

介绍了新一代开源大数据分析引擎Impala,它提供了与Hive类似的功能,但是,速度要比

Hive快许多;最后,以单词统计为例,介绍了如何使用Hive进行简单编程,并说明了Hive

编程相对于MapReduce编程的优势。

14.1概述

14.1.1数据仓库概念

文档评论(0)

聚好信息咨询 + 关注
官方认证
服务提供商

本公司能够提供如下服务:办公文档整理、试卷、文档转换。

认证主体鹤壁市淇滨区聚好信息咨询服务部
IP属地河南
统一社会信用代码/组织机构代码
92410611MA40H8BL0Q

1亿VIP精品文档

相关文档