关注分享主机优惠活动
国内外VPS云服务器

在Ubuntu上部署Spark集群的步骤(Spark部署教程)

Ubuntu 上部署 Spark 集群需要几个重要步骤。 这是帮助您完成此过程的基本指南。

1. Java

安装 Spark 需要 Java 运行时环境 (JRE) 或 Java 开发工具包 (JDK)。 您可以使用 OpenJDK,它是 Ubuntu 的默认 Java 版本。

sudo apt update
sudo apt install openjdk-11-jdk

验证安装 Java:

java -version

2. 下载并解压

您可以从Spark官网下载合适版本的Spark。 下面是下载和解压 Spark 3.2.0 的示例命令:

wget https://downloads.apache.org/spark/spark -3.2。   0 /spark-3.2.0-bin-hadoop3.2.tgz
tar xzf smile-3.2.0-bin-hadoop3.2.tgz
cdspark-3.2.0-bin-hadoop3.2

3.配置环境变量

编辑

~/.bashrc 文件并添加以下行来配置 Spark 环境变量。

导出SPARK_HOME=/path/to/spark-3.2.0-bin-hadoop3.2
导出 PATH=$PATH :$SPARK_HOME/bin

运行以下命令以使更改生效:

 ~/.bashrc

4. 启动 Spark History Server

Spark History Server 可帮助您查看作业的历史记录。 开始:

$SPARK_HOME/sbin/start-history-server.sh
 

默认情况下,历史服务器在端口 18080 上运行。 您可以通过访问http://localhost:18080查看历史服务器。

5. 启动 Spark 集群

您可以使用 spark-submit 脚本启动 Spark 集群。 以下是启动具有两个工作节点的集群的示例命令。

$SPARK_HOME / bin/spark-submit \
 --class org.apache.spark.examples.SparkPi \
 --master local[*] \
 --部署模式 cluster \
 /path/to/ Spark-examples.jar

在此命令中:

--class 运行 Spark 类名 Application。
--master指定集群的主节点 URL。 local[*] 表示使用本地模式并启动具有相同CPU核心数的工作节点。
--deploy-mode 指定部署模式,cluster 表示使用集群模式。

6. 检查集群状态

您可以通过访问 Spark Web UI 检查集群状态。 默认情况下,Web UI 在端口 4040 上运行。 打开浏览器并转到 http://localhost:4040。 您应该看到集群详细信息。

7. 停止Spark集群

要停止Spark集群,可以使用以下命令:

$SPARK_HOME/sbin/stop-all.sh

这将停止集群中运行的所有任务,并且应用程序将停止。

8. 配置日志文件

Spark 日志文件通常位于 $SPARK_HOME/logs 目录中。 您可以查看这些日志文件以查看以下信息:有关集群运行状况的详细信息。

上述步骤应该使您能够在 Ubuntu 上成功部署基本的 Spark 集群。 根据您的需求,您可能需要进一步配置和优化 Spark 集群。

未经允许不得转载:主机频道 » 在Ubuntu上部署Spark集群的步骤(Spark部署教程)

评论 抢沙发

评论前必须登录!