第4期Spark亚太研究院决胜大数据时代公益大讲坛构建商业生产环境下的Spark集群实战.pptx

第4期Spark亚太研究院决胜大数据时代公益大讲坛构建商业生产环境下的Spark集群实战.pptx

  1. 1、本文档共77页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第3期Spark亚太研究院决胜大数据时代公益大讲堂Spark近期公开课深圳:7月25—27日,《云计算分布式大数据Hadoop最佳实践》上海:8月7-9日,《云计算分布式大数据Hadoop最佳实践》上海:8月10-12日,《18小时内掌握Spark:把云计算大数据速度提高100倍以上》北京:8月15-17日, 《18小时内掌握Spark:把云计算大数据速度提高100倍以上》Spark亚太研究院微信二维码精彩不容错过Spark亚太研究院: / ?QQ交流群:?317540673微信公众号:spark-china国内第一本Spark书籍连载首发每周一个章节,51CTO下载频道连载图文并茂,边学习,边演练不需要任何前置知识,从零开始,循序渐进/data/1511846Spark亚太研究院微信二维码4006-998-758Spark亚太研究院学习交流群Spark亚太研究院: / ?QQ交流群:?3175406734006-998-758Spark亚太研究院: / ?QQ交流群:?3175406737月24日第5期Spark亚太研究院决胜大数据时代公益大讲堂【第5期主题:Spark SQL架构和案例深入实战】报名方式:1、Spark亚太研究院QQ群:?317540673 (找管理员要报名表)2、 51CTO学院推荐课程(报名地址: 51CTO首页-视频学院--搜索“Spark亚太研究院决胜大数据时代100期公益大讲堂”--第5期—点击报名)3、点击群公告报名4、拨打4006-998-758电话报名第6期公益大讲堂课程内容投票 A、Spark On Yarn B、如何构建1000个结点的Spark生产环境集群 C、使用Spark Streaming进行实时流处理 D、Spark机器学习 E、 Spark图计算 F、作为云服务的Spark 请在群应用投票中进行投票你应该了解大数据的真相The complete Spark Stack on Hadoop淘宝的Spark之路淘宝的推荐系统架构方案核心:Yarn+HDFS+SparkSpark stack todayOne stack to rule them all和其它系统的集成Unified Data Abstraction以Spark为例说明工作过程Spark on YarnAnalytics StackSpark Usage for Production如何运行一个Spark集群?运行Spark需要Hadoop吗Spark DeploymentSpark RuntimeSpark DeploymentStandaloneSpark DeploymentSpark Deployment构建集群用到的核心软件VMwareLinuxJavaScalaHadoopSparkUbuntu安装后root模式安装Java安装SSHSSH免密码登录Hadoop-env.sh配置Java信息配置~/.bashrc运行自带的WordCount程序Hadoop伪分布模式core-site.xmlhdfs-site.xmlmapred-site.xmlnamenode格式化启动Hadoopjpshttp://localhost:50030/jobtracker.jsp ?http://localhost:50060/tasttracker.jsp ?http://localhost:50070/dfshealth.jsp伪分布式模式下运行wordcount程序伪分布式模式下运行wordcount程序web控制台构建真正的Hadoop分布式集群环境/etc/hostname中修改主机名三台机器的/etc/hostsSSH无密码验证配置此时把Slave1的id_rsa.pub传给Master同时把Slave2的id_rsa.pub传给MasterMaster节点上综合所有公钥此时把Slave1的id_rsa.pub传给Master三台机器的core-site.xml文件三个节点的mapred-site.xml三个节点的masters和slaves文件通过Master节点格式化集群的文件系统启动hadoop集群停止Hadoop集群“no datanode to stop”的错误重新格式化并重新启动集群构造分布式Spark集群Spark集群需要的软件安装Scala在终端中显示刚刚安装的Scala版本三台机器上均装有同样路径和版本的Scala安装Spark配置环境变量把spark-env.sh.template?拷贝到spark-env.sh配置Spark的conf下的slaves文件启动Hadoop集群启动Spark集群Slave1和Slave2会出现新的进程“Worker”访问“http://Master:808

文档评论(0)

a13355589 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档