第4期Spark亚太研究院决胜大数据时代公益大讲坛构建商业生产环境下的Spark集群实战.pptx

下载文档 降价啦

0
0
约2.04千字
约 77页
2019-06-20 发布于山东
举报
版权申诉
保障服务

第4期Spark亚太研究院决胜大数据时代公益大讲坛构建商业生产环境下的Spark集群实战.pptx

1、本文档共77页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第3期Spark亚太研究院决胜大数据时代公益大讲堂Spark近期公开课深圳：7月25—27日，《云计算分布式大数据Hadoop最佳实践》上海：8月7-9日，《云计算分布式大数据Hadoop最佳实践》上海：8月10-12日，《18小时内掌握Spark：把云计算大数据速度提高100倍以上》北京:8月15-17日, 《18小时内掌握Spark：把云计算大数据速度提高100倍以上》Spark亚太研究院微信二维码精彩不容错过Spark亚太研究院： / ?QQ交流群：?317540673微信公众号：spark-china国内第一本Spark书籍连载首发每周一个章节,51CTO下载频道连载图文并茂,边学习,边演练不需要任何前置知识,从零开始,循序渐进/data/1511846Spark亚太研究院微信二维码4006-998-758Spark亚太研究院学习交流群Spark亚太研究院： / ?QQ交流群：?3175406734006-998-758Spark亚太研究院： / ?QQ交流群：?3175406737月24日第5期Spark亚太研究院决胜大数据时代公益大讲堂【第5期主题：Spark SQL架构和案例深入实战】报名方式：1、Spark亚太研究院QQ群：?317540673 （找管理员要报名表）2、 51CTO学院推荐课程（报名地址： 51CTO首页-视频学院--搜索“Spark亚太研究院决胜大数据时代100期公益大讲堂”--第5期—点击报名）3、点击群公告报名4、拨打4006-998-758电话报名第6期公益大讲堂课程内容投票 A、Spark On Yarn B、如何构建1000个结点的Spark生产环境集群 C、使用Spark Streaming进行实时流处理 D、Spark机器学习 E、 Spark图计算 F、作为云服务的Spark 请在群应用投票中进行投票你应该了解大数据的真相The complete Spark Stack on Hadoop淘宝的Spark之路淘宝的推荐系统架构方案核心：Yarn+HDFS+SparkSpark stack todayOne stack to rule them all和其它系统的集成Unified Data Abstraction以Spark为例说明工作过程Spark on YarnAnalytics StackSpark Usage for Production如何运行一个Spark集群？运行Spark需要Hadoop吗Spark DeploymentSpark RuntimeSpark DeploymentStandaloneSpark DeploymentSpark Deployment构建集群用到的核心软件VMwareLinuxJavaScalaHadoopSparkUbuntu安装后root模式安装Java安装SSHSSH免密码登录Hadoop-env.sh配置Java信息配置~/.bashrc运行自带的WordCount程序Hadoop伪分布模式core-site.xmlhdfs-site.xmlmapred-site.xmlnamenode格式化启动Hadoopjpshttp://localhost:50030/jobtracker.jsp ?http://localhost:50060/tasttracker.jsp ?http://localhost:50070/dfshealth.jsp伪分布式模式下运行wordcount程序伪分布式模式下运行wordcount程序web控制台构建真正的Hadoop分布式集群环境/etc/hostname中修改主机名三台机器的/etc/hostsSSH无密码验证配置此时把Slave1的id_rsa.pub传给Master同时把Slave2的id_rsa.pub传给MasterMaster节点上综合所有公钥此时把Slave1的id_rsa.pub传给Master三台机器的core-site.xml文件三个节点的mapred-site.xml三个节点的masters和slaves文件通过Master节点格式化集群的文件系统启动hadoop集群停止Hadoop集群“no datanode to stop”的错误重新格式化并重新启动集群构造分布式Spark集群Spark集群需要的软件安装Scala在终端中显示刚刚安装的Scala版本三台机器上均装有同样路径和版本的Scala安装Spark配置环境变量把spark-env.sh.template?拷贝到spark-env.sh配置Spark的conf下的slaves文件启动Hadoop集群启动Spark集群Slave1和Slave2会出现新的进程“Worker”访问“http://Master:808