大数据试题分析和总结.docx

下载文档

1
0
约5.62千字
约 6页
2023-10-24 发布于湖北
举报
版权申诉
保障服务

大数据试题分析和总结.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一、填空题（将正确的答案写入答题纸中。每空1 分，共 20 分） 1、HDFS 有 _ NameNode _，_ DataNode _和_ SecondaryNameNode _组成； 2、 2、Hadoop 集群可以运行在_ 单机模式 _，_ 伪分布式模式 _和_ 完全分布式模式 _3 个模式？ 3、安装完全分布式Apache Hadoop 的核心配置文件有_ core-site.xml _,_ hdfs- site.xml _,_ mapred-site.xml _,_ yarn-site.xml _。 4、HBase 中通过_ HDFS _存储底层数据,通过_ _Zookeeper_ _提供消息通信机制 5、HIVE 默认采用_ _ Derby 数据库进行元数据的存储，而真实的数据是存储在 _ HDFS 中。 6、如何在浏览器中查看 HDFS 运行状况的默认端口号是_ 50070 查看 yarn 运行状态的默认端口号是_ 8088 _ 7、HDFS 中当前 block 大小为 128M,如果当前要上传到 HDFS 中的文件大小为 300M，那么在存储时会分配么在存储时会分配_ 3 _个 block 进行存储。 8、HDFS 获取根目录下的文件列表的命令shell 命令是_hadoop fs -ls -R / _；根目录下创建hdfs 文件夹的 shell 命令是_ _ hadoop fs -mkdir /hdfs _ 。 9、YARN 架构中整个集群同一时间提供服务的ResourceManager 有_ 1 _个，负责集群资源的统一管理和调度。二、选择题（将正确的答案写入答题纸中。每题2 分，共 20 分） 1、配置 Hadoop 时，JAVA_HOME 包含在哪一个配置文件中(B) hadoop-default.xml hadoop-env.sh hadoop-site.xml 2、 2、下面哪个程序负责 HDFS 数据存储。（C） A)NameNode B)Jobtracker B)Jobtracker C)Datanode D)secondaryNameNode 3、下列关于 Hadoop API 的说法错误的是（A） Hadoop 的文件 API 不是通用的，只用于 HDFS 文件系统 Configuration 类的默认实例化方法是以 HDFS 系统的资源配置为基础的 FileStatus 对象存储文件和目录的元数据 FSDataInputStream 是 java.io.DataInputStream 的子类 4、HDfS 中的 block 默认保存几份? （A） 3 份 2 份 1 份不确定 5、为销售报表展示开发一个MapReduce 作业，Mapper 输入数据的Key 是年份（IntWritable）， Value 表示商品标识（Text）。下列哪一项决定该 Mapper 的数据类型？（D） JobConf.setMapInputKeyClass 与 JobConf.setMapInputValuesClass HADOOP_MAP_DATATYPES 环境变量随作业一起提交的 mapper-specification.xml 文件 InputFormat 格式类 6、HDFS 无法高效存储大量小文件，想让它能处理好小文件，比较可行的改进策略不包括（D）利用 SequenceFile、MapFile、Har 等方式归档小文件多 Master 设计 Block 大小适当调小调大namenode 内存或将文件系统元数据存到硬盘里 7、下列哪个程序通常与 NameNode 在一个节点启动？（D） a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 8、下面与 HDFS 类似的框架是？（C） NTFS FAT32 GFS EXT3 9 、HDFS 的是基于流数据模式访问和处理超大文件的需求而开发的，默认的最基本的存储单位是 64M，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是 10、HBase 中的批量加载底层使用（A）实现。A MapReduce B HiveC Coprocessor D Bloom Filter（C 10、HBase 中的批量加载底层使用（A）实现。 A MapReduce B Hive C Coprocessor D Bloom Filter 三、简答题（将正确的答案写入答题纸中。每题5 分，共 20 分） 1 1、简述下 HDFS 数据读流程；答：步骤如下，能大致描述清楚流程，没

您可能关注的文档

文档评论（0）

tianya189 + 关注: 官方认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

认证主体阳新县融易互联网技术工作室

IP属地湖北

统一社会信用代码/组织机构代码: 92420222MA4ELHM75D

1亿VIP精品文档

更多 >

大数据试题分析和总结.docx