云计算与大数据技术 验证性实验指导 实验实践6.Hive 数据仓库安装配置及应用;8. Sqoop的安装与配置及使用;9. Scala 编程语言学习与实践.pdf

云计算与大数据技术 验证性实验指导 实验实践6.Hive 数据仓库安装配置及应用;8. Sqoop的安装与配置及使用;9. Scala 编程语言学习与实践.pdf

  1. 1、本文档共75页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Hive数据仓库

1.1Hive简介

(1)Hive介绍

Hive是构建在Hadoop之上的数据仓库平台,可以将结构化的数据文件映射为一张数据库表,并提供简

单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。

由Facebook开发,在某种程度上可以看成是用户编程接口,本身并不存储和处理数据,依赖于HDFS存

储数据,依赖MR处理数据。有类SQL语言HiveQL,不完全支持SQL标准,如,不支持更新操作、索引

和事务,其子查询和连接操作也存在很多限制。

Hive把HQL语句转换成MR任务后,采用批处理的方式在Hadoop上对海量数据进行处理。数据仓库存

储的是静态数据,很适合采用MR进行批处理。Hive还提供了一系列对数据进行提取、转换、加载的工

具,可以存储、查询和分析存储在HDFS上的数据。

(2)Hive设计目标

Hive的设计目标是使Hadoop上的数据操作与传统SQL相结合,让熟悉SQL编程的开发人员能够轻松向

Hadoop平台迁移。Hive提供类似SQL的查询语言HQL,HQL在底层被转换为相应的MapReduce操作。

Hive在HDFS上构建数据仓库来存储结构化数据,这些数据一般来源于HDFS上的原始数据,使用Hive可

以对这些数据执行查询、分析等操作。

(3)Hive与Hadoop生态系统中其他组件的关系

Hive依赖于HDFS存储数据,依赖MR处理数据;

Pig可作为Hive的替代工具,是一种数据流语言和运行环境,适合用于在Hadoop平台上查询半结构化数

据集,用于与ETL过程的一部分,即将外部数据装载到Hadoop集群中,转换为用户需要的数据格式;

HBase是一个面向列的、分布式可伸缩的数据库,可提供数据的实时访问功能,而Hive只能处理静态数

据,主要是BI报表数据,Hive的初衷是为减少复杂MR应用程序的编写工作,HBase则是为了实现对数

据的实时访问。

图示图示说明

Hive与Hadoop生态系统中其他组

件的关系

(4)Hive的系统架构

Hive主要由以下三个模块组成:

1)用户接口模块,含CLI、HWI、JDBC、ThriftServer等,用来实现对Hive的访问。

CLI是Hive自带的命令行界面;HWI是通过浏览器访问Hive的WebGUI;JDBC、ODBC以及Thrift

Server可向用户提供进行编程的接口,其中ThriftServer是基于Thrift软件框架开发的,提供Hive的RPC

通信接口。Thrift是一个软件框架,用来进行可扩展且跨语言的服务的开发。

2)驱动模块(Driver),含编译器、优化器、执行器等,负责把HiveQL语句转换成一系列MR作业,所

有命令和查询都会进入驱动模块,通过该模块的解析编译,对计算过程进行优化,然后按照指定的步骤

执行。

驱动模块(Driver)完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划(plan)的生

成。生成的查询计划存储在HDFS中,并在随后有MapReduce调用执行。

Hive的数据存储在HDFS中,大部分的查询由MapReduce完成。

3)元数据存储模块(Metastore),是一个独立的关系型数据库,通常与MySQL数据库连接后创建的

一个MySQL实例,也可以是Hive自带的Derby数据库实例。此模块主要保存表模式和其他系统元数据,

如表的名称、表的列及其属性、表的分区及其属性、表的属性(是否为外部表等)、表中数据所在目录

信息等。

喜欢图形界面的用户,可采用几种典型的外部访问工具:Karmasphere、Hue、Qubole等。

图示图示说明

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档