Spark环境搭建Standalone模式_master2: starting org.apache.spark.deploy.worker.w-程序员宅基地

技术标签: zookeeper  spark  big data  

2.4  Standalone模式

在Standalon模式中,Spark集群由Master节点和Worker节点构成,使用内置的Standalon框架进行资源管理。Spark程序通过与Master节点交互,申请所需资源。Worker节点负责具体的Executor的启动运行。

Standadlon模式的程序执行流程如下图所示:

图2-5 Standadlon模式的程序执行流程图

  1. Spark集群启动,Worker节点向Master节点汇报各节点资源情况;
  2. 由客户端(Client)提交执行程序的任务(Application),并在本节点启动Driver进程进行任务调度;
  3. 由Driver进程向Master申请运行Application所需要的资源,Master返回一批符合资源要求的Worker节点,由Worker启动本节点上的Executor进程,Driver分发任务到Executor进程进行处理;
  4. Worker节点将执行完毕后的结果数据,返回给Driver,至此任务运行结束。

Standalone模式的弊端在于客户端每提交一个执行程序任务,都会启动一个Driver进程。当在一个节点上提交大量任务时,会造成当前节点网卡流量激增,影响任务的执行,及其它程序的运行。因此Standalone模式一般也用于测试环境。

2.4.1  部署Standalone模式的Spark

通过以下步骤,配置Worker节点

重命名slaves.template文件为slaves,使用以下命令:

mv /usr/local/spark/conf/slaves.template /usr/local/spark/conf/slaves

编辑slaves文件,使用以下命令:

vim /usr/local/spark/conf/slaves

替换原有的localhost为以下内容:

# 设置 worker 节点

master

slave1

slave2

通过以下步骤,配置Spark集群运行参数:

重命名spark-env.sh.template配置文件为spark-env.sh,使用以下命令:

mv /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/spark-env.sh

编辑spark-env.sh文件,在最后追加以下内容:

# 设置 JDK 目录

export JAVA_HOME=/usr/local/lib/jdk1.8.0_212

# 设置 web 监控页面端口号

export SPARK_MASTER_WEB_PORT=7077

# 设置 zookeeper 集群地址,实现高可用

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=master:2181,slave1:2181,slave2:2181 -Dspark.deploy.zookeeper.dir=/usr/local/spark"

# 设置 YARN 的配置文件目录

export YARN_CONF_DIR=/usr/local/hadoop/etc/hadoop

# 设置 HDFS 的配置文件目录

export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

通过以下步骤,部署Spark到slave1和slave2:

创建spark目录,在slave1和slave2使用以下命令:

sudo mkdir /usr/local/spark

修改spark目录的所有者为hadoop用户,在slave1和slave2使用以下命令:

sudo chown hadoop /usr/local/spark/

发送spark给slave1和slave2,在master使用以下命令:

scp -r /usr/local/spark/* hadoop@slave1:/usr/local/spark/

scp -r /usr/local/spark/* hadoop@slave2:/usr/local/spark/

发送环境变量给slave1和slave2,在master使用以下命令:

scp /home/hadoop/.bashrc hadoop@slave1:/home/hadoop/

scp /home/hadoop/.bashrc hadoop@slave2:/home/hadoop/

刷新环境变量,在slave1和slave2使用以下命令:

source /home/hadoop/.bashrc

2.4.2  启动Standalone模式的Spark

以Standalone模式运行程序需要先启动Spark集群,常用的脚本命令如下表所示:

表2-3 常用的Spark命令脚本

脚本

描述

start-master.sh

在执行该脚本的机器上启动Master进程

start-slaves.sh

在slaves文件中指定的每个节点上启动Worker进程

start-all.sh

执行start-master.sh和start-slaves.sh两个脚本

stop-master.sh

关闭由start-master.sh脚本启动的Master进程

stop-slaves.sh

关闭由start-slaves.sh脚本启动的Worker进程

stop-all.sh

执行stop -master.sh和stop -slaves.sh两个脚本

需要注意的是,这些脚本都需要在你打算作为Master节点的服务器上执行。

Spark的Master节点也面临单点故障问题,需要通过zookeeper集群实现高可用。这个配置我们已经在spark-env.sh文件中配置好了。

综上所述,启动Spark集群需要以下步骤:

  1. 启动所有节点的Zookeeper,在master、slave1和slave2使用以下命令:

zkServer.sh start

  1. 在master启动Spark集群,在master使用以下命令:

start-all.sh

  1. 在slave1启动备用master,在slave1使用以下命令:

start-master.sh

  1. 在master、slave1和slave2使用以下命令查看进程,效果如下图所示:

jps

图2-6 Standalon模式的Spark的进程

  1. 在浏览器输入以下网址访问Spark的web监控页面,效果如下图所示:

http://master:8085/

图2-7 Spark的web监控页面

如果大家按步骤安装完成却不能运行Spark,那么需要学会通过查看日志信息来解决问题。Spark在启动期间记录了详尽的日志信息,保存在安装目录下的logs目录内。

当我们启动Spark集群的时候,它也会给我们展示出如下提示信息:

starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-master.out

slave1: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-slave1.out

slave2: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-slave2.out

master: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-master.out

这些提示信息清楚的告诉我们各个进程对应的日志文件名字。

由于日志数据是不断追加在日志文件中的,我们查看的时候可以使用tail命令,查看最后n行内容,寻找错误原因。一般错误信息通常是写着Error、Java Exception的地方。找到错误信息后,只要在网上搜索一下,即可找到大部分问题的解决方案。

2.4.3  以Standalone模式运行程序

以SparkPi程序为例,在Standalone模式下运行的命令如下:

spark-submit --master spark://master:7077,slave1:7077 /usr/local/spark/examples/src/main/python/pi.py 10

因为我们配置了高可用,所以在--master选项后需要填写所有Master进程的地址。

执行结果的查看和Local模式一致,这里就不在赘述。

在命令执行完成后,我们打开Spark的web监控页面。在网页底部可以寻找到已经执行完成的SparkPi程序,点击还可以查看执行过程中的输出的日志信息。监控页面如下图所示:

图2-8 Spark的web监控页面

2.4.4  关闭Standalone模式的Spark

  1. 关闭Spark集群,在master使用以下命令:

stop-all.sh

  1. 关闭slave1上的备用master,在slave1使用以下命令:

stop-master.sh

  1. 关闭zookeeper,在master、slave1和slave2使用以下命令:

zkServer.sh stop

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/m0_57228021/article/details/123496080

智能推荐

如何配置filezilla服务端和客户端_filezilla server for windows (32bit x86)-程序员宅基地

文章浏览阅读7.8k次,点赞3次,收藏9次。如何配置filezilla服务端和客户端百度‘filezilla server’下载最新版。注意点:下载的版本如果是32位的适用xp和win2003,百度首页的是适用于win7或更高的win系统。32和64内容无异。安装过程也是一样的。一、这里的filezilla包括服务端和客户端。我们先来用filezilla server 架设ftp服务端。看步骤。1选择标准版的就可以了。 _filezilla server for windows (32bit x86)

深度学习图像处理01:图像的本质-程序员宅基地

文章浏览阅读724次,点赞18次,收藏8次。深度学习作为一种强大的机器学习技术,已经成为图像处理领域的核心技术之一。通过模拟人脑处理信息的方式,深度学习能够从图像数据中学习到复杂的模式和特征,从而实现从简单的图像分类到复杂的场景理解等多种功能。要充分发挥深度学习在图像处理中的潜力,我们首先需要理解图像的本质。本文旨在深入探讨深度学习图像处理的基础概念,为初学者铺平通往高级理解的道路。我们将从最基础的问题开始:图像是什么?我们如何通过计算机来理解和处理图像?

数据探索阶段——对样本数据集的结构和规律进行分析_数据分析 规律集-程序员宅基地

文章浏览阅读62次。在收集到初步的样本数据之后,接下来该考虑的问题有:(1)样本数据集的数量和质量是否满足模型构建的要求。(2)是否出现从未设想过的数据状态。(3)是否有明显的规律和趋势。(4)各因素之间有什么样的关联性。解决方案:检验数据集的数据质量、绘制图表、计算某些特征量等,对样本数据集的结构和规律进行分析。从数据质量分析和数据特征分析两个角度出发。_数据分析 规律集

上传计算机桌面文件图标不见,关于桌面上图标都不见了这类问题的解决方法-程序员宅基地

文章浏览阅读8.9k次。关于桌面上图标都不见了这类问题的解决方法1、在桌面空白处右击鼠标-->排列图标-->勾选显示桌面图标。2、如果问题还没解决,那么打开任务管理器(同时按“Ctrl+Alt+Del”即可打开),点击“文件”→“新建任务”,在打开的“创建新任务”对话框中输入“explorer”,单击“确定”按钮后,稍等一下就可以见到桌面图标了。3、问题还没解决,按Windows键+R(或者点开始-->..._上传文件时候怎么找不到桌面图标

LINUX 虚拟网卡tun例子——修改_怎么设置tun的接收缓冲-程序员宅基地

文章浏览阅读1.5k次。参考:http://blog.csdn.net/zahuopuboss/article/details/9259283 #include #include #include #include #include #include #include #include #include #include #include #include _怎么设置tun的接收缓冲

UITextView 评论输入框 高度自适应-程序员宅基地

文章浏览阅读741次。创建一个inputView继承于UIView- (instancetype)initWithFrame:(CGRect)frame{ self = [superinitWithFrame:frame]; if (self) { self.backgroundColor = [UIColorcolorWithRed:0.13gre

随便推点

字符串基础面试题_java字符串相关面试题-程序员宅基地

文章浏览阅读594次。字符串面试题(2022)_java字符串相关面试题

VSCODE 实现远程GUI,显示plt.plot, 设置x11端口转发_vscode远程ssh连接服务器 python 显示plt-程序员宅基地

文章浏览阅读1.4w次,点赞12次,收藏21次。VSCODE 实现远程GUI,显示plt.plot, 设置x11端口转发问题服务器 linux ubuntu16.04本地 windows 10很多小伙伴发现VSCode不能显示figure,只有用自带的jupyter才能勉强个截图、或者转战远程桌面,这对数据分析极为不方便。在命令行键入xeyes(一个显示图像的命令)会failed,而桌面下会出现:但是Xshell能实现X11转发图像,有交互功能,但只能用Xshell输入命令plot,实在不方便。其实VScode有X11转发插件!!方法_vscode远程ssh连接服务器 python 显示plt

element-ui switch开关打开和关闭时的文字设置样式-程序员宅基地

文章浏览阅读3.3k次,点赞2次,收藏2次。element switch开关文字显示element中switch开关把on-text 和 off-text 属性改为 active-text 和 inactive-text 属性.怎么把文字描述显示在开关上?下面就是实现方法: 1 <el-table-column label="状态"> 2 <template slot-scope="scope">..._el-switch 不同状态显示不同字

HttpRequestUtil方法get、post、JsonToPost_httprequestutil.httpget-程序员宅基地

文章浏览阅读785次。java后台发起请求使用的工具类package com.cennavi.utils;import org.apache.http.Header;import org.apache.http.HttpResponse;import org.apache.http.HttpStatus;import org.apache.http.client.HttpClient;import org.apache.http.client.methods.HttpPost;import org.apach_httprequestutil.httpget

App-V轻量级应用程序虚拟化之三客户端测试-程序员宅基地

文章浏览阅读137次。在前两节我们部署了App-V Server并且序列化了相应的软件,现在可谓是万事俱备,只欠东风。在这篇博客里面主要介绍一下如何部署客户端并实现应用程序的虚拟化。在这里先简要的说一下应用虚拟化的工作原理吧!App-V Streaming 就是利用templateServer序列化出一个软件运行的虚拟环境,然后上传到app-v Server上,最后客户..._app-v 客户端