大数据试题分析和总结.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一、填空题(将正确的答案写入答题纸中。每空1 分,共 20 分) 1、HDFS 有 _ NameNode _,_ DataNode _和_ SecondaryNameNode _组成; 2、 2、Hadoop 集群可以运行在_ 单机模式 _,_ 伪分布式模式 _和_ 完全分布式 模式 _3 个模式? 3、安装完全分布式Apache Hadoop 的核心配置文件有_ core-site.xml _,_ hdfs- site.xml _,_ mapred-site.xml _,_ yarn-site.xml _。 4、HBase 中通过_ HDFS _存储底层数据,通过_ _Zookeeper_ _提供消息通信机制 5、HIVE 默认采用_ _ Derby 数据库进行元数据的存储,而真实的数据是存储在 _ HDFS 中。 6、如何在浏览器中查看 HDFS 运行状况的默认端口号是_ 50070 查看 yarn 运行状态的 默认端口号是_ 8088 _ 7、HDFS 中当前 block 大小为 128M,如果当前要上传到 HDFS 中的文件大小为 300M,那 么在存储时会分配 么在存储时会分配_ 3 _个 block 进行存储。 8、HDFS 获取根目录下的文件列表的命令shell 命令是_hadoop fs -ls -R / _;根目录下创建hdfs 文件夹的 shell 命令是_ _ hadoop fs -mkdir /hdfs _ 。 9、YARN 架构中整个集群同一时间提供服务的ResourceManager 有_ 1 _个,负责集群资源的统一管理和调度。 二、选择题(将正确的答案写入答题纸中。每题2 分,共 20 分) 1、配置 Hadoop 时,JAVA_HOME 包含在哪一个配置文件中(B) hadoop-default.xml hadoop-env.sh hadoop-site.xml 2、 2、下面哪个程序负责 HDFS 数据存储。 (C) A)NameNode B)Jobtracker B)Jobtracker C)Datanode D)secondaryNameNode 3、下列关于 Hadoop API 的说法错误的是(A) Hadoop 的文件 API 不是通用的,只用于 HDFS 文件系统 Configuration 类的默认实例化方法是以 HDFS 系统的资源配置为基础的 FileStatus 对象存储文件和目录的元数据 FSDataInputStream 是 java.io.DataInputStream 的子类 4、HDfS 中的 block 默认保存几份? (A) 3 份 2 份 1 份 不确定 5、为销售报表展示开发一个MapReduce 作业,Mapper 输入数据的Key 是年份(IntWritable), Value 表示商品标识(Text)。下列哪一项决定该 Mapper 的数据类型?(D) JobConf.setMapInputKeyClass 与 JobConf.setMapInputValuesClass HADOOP_MAP_DATATYPES 环境变量 随作业一起提交的 mapper-specification.xml 文件 InputFormat 格式类 6、HDFS 无法高效存储大量小文件,想让它能处理好小文件,比较可行的改进策略不包括 (D) 利用 SequenceFile、MapFile、Har 等方式归档小文件 多 Master 设计 Block 大小适当调小 调大namenode 内存或将文件系统元数据存到硬盘里 7、下列哪个程序通常与 NameNode 在一个节点启动?(D) a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 8、下面与 HDFS 类似的框架是?(C) NTFS FAT32 GFS EXT3 9 、HDFS 的是基于流数据模式访问和处理超大文件的需求而开发的,默认的最基本的存储单位是 64M,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是 10、HBase 中的批量加载底层使用(A)实现。A MapReduce B HiveC Coprocessor D Bloom Filter(C 10、HBase 中的批量加载底层使用(A)实现。 A MapReduce B Hive C Coprocessor D Bloom Filter 三、简答题(将正确的答案写入答题纸中。每题5 分,共 20 分) 1 1、简述下 HDFS 数据读流程; 答:步骤如下,能大致描述清楚流程,没

文档评论(0)

tianya189 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地湖北
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档