目录
在 Ubuntu 上部署 Spark 集群需要几个重要步骤。 这是帮助您完成此过程的基本指南。
1. Java
安装 Spark 需要 Java 运行时环境 (JRE) 或 Java 开发工具包 (JDK)。 您可以使用 OpenJDK,它是 Ubuntu 的默认 Java 版本。
sudo apt update
sudo apt install openjdk-11-jdk
验证安装 Java:
java -version
2. 下载并解压
您可以从Spark官网下载合适版本的Spark。 下面是下载和解压 Spark 3.2.0 的示例命令:
wget https://downloads.apache.org/spark/spark -3.2。 0 /spark-3.2.0-bin-hadoop3.2.tgz
tar xzf smile-3.2.0-bin-hadoop3.2.tgz
cdspark-3.2.0-bin-hadoop3.2
3.配置环境变量
编辑
~/.bashrc
文件并添加以下行来配置 Spark 环境变量。
导出SPARK_HOME=/path/to/spark-3.2.0-bin-hadoop3.2
导出 PATH=$PATH :$SPARK_HOME/bin
运行以下命令以使更改生效:
源 ~/.bashrc
4. 启动 Spark History Server
Spark History Server 可帮助您查看作业的历史记录。 开始:
$SPARK_HOME/sbin/start-history-server.sh
默认情况下,历史服务器在端口 18080 上运行。 您可以通过访问http://localhost:18080
查看历史服务器。
5. 启动 Spark 集群
您可以使用 spark-submit
脚本启动 Spark 集群。 以下是启动具有两个工作节点的集群的示例命令。
$SPARK_HOME / bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[*] \
--部署模式 cluster \
/path/to/ Spark-examples.jar
在此命令中:
--class
运行 Spark 类名 Application。
--master
指定集群的主节点 URL。 local[*]
表示使用本地模式并启动具有相同CPU核心数的工作节点。
--deploy-mode
指定部署模式,cluster
表示使用集群模式。
6. 检查集群状态
您可以通过访问 Spark Web UI 检查集群状态。 默认情况下,Web UI 在端口 4040 上运行。 打开浏览器并转到 http://localhost:4040
。 您应该看到集群详细信息。
7. 停止Spark集群
要停止Spark集群,可以使用以下命令:
$SPARK_HOME/sbin/stop-all.sh
这将停止集群中运行的所有任务,并且应用程序将停止。
8. 配置日志文件
Spark 日志文件通常位于 $SPARK_HOME/logs
目录中。 您可以查看这些日志文件以查看以下信息:有关集群运行状况的详细信息。
上述步骤应该使您能够在 Ubuntu 上成功部署基本的 Spark 集群。 根据您的需求,您可能需要进一步配置和优化 Spark 集群。
评论前必须登录!
注册