目录
在Ubuntu环境中配置Spark需要多个步骤,包括安装Java、Hadoop和Spark,以及设置环境变量。 下面是详细的配置过程。
1. 安装 Java
Spark 需要 Java 8 或更高版本。 您可以使用以下命令安装 OpenJDK 8:
sudo apt update
sudo apt install openjdk-8-jdk
验证Java安装是否成功:
java -version
2.安装Hadoop
首先从Apache官网下载Hadoop安装包。 您可以选择下载Hadoop 2.7.x版本。 下载完成后,将其解压到指定目录(例如/usr/local
)。
wget https://downloads.apache.org/hadoop/common/hadoop-2.7.0/hadoop-2.7.0.tar.gz
tar -xzf hadoop-2.7.0.tar.gz
sudo mv hadoop-2.7.0 /usr/local/hadoop
接下来,设置Hadoop环境变量。 编辑 ~/.bashrc
文件,添加以下内容:
exp或 HADOOP_HOME=/usr/local/hadoop
导出 PATH=$PATH: $HADOOP_HOME/bin
导出 HADOOP_CONF_DIR=$HADOOP_HOME /etc/hadoop
保存文件并运行以下命令以创建有效的配置:
源 ~/.bashrc
3. 配置 Spark >
从Apache官网下载Spark安装包。 您可以选择下载Spark 2.4.x版本。 下载完成后,将其解压到指定目录(例如/usr/local
)。
wget https://downloads.apache.org/spark/spark-2.4.8/spark-2.4.8.tar.gz
tar -xzf Spark-2.4.8.tar.gz
sudo mv Spark-2.4.8 /usr/local/spark
接下来,设置 Spark 环境变量。 编辑~/将以下内容添加到您的 .bashrc 文件中:
export SPARK_HOME =/usr / local/spark
导出 PATH=$PATH: $SPARK_HOME/bin
导出 SPARK_CONF_DIR=$SPARK_HOME/conf
保存文件并运行以下命令以启用设置。
源 ~/.bashrc
4.启动Hadoop和Spark
首先,格式化Hadoop文件系统:
$HADOOP_HOME/sbin/hadoop namenode -format
接下来,启动 Hadoop 集群。
$HADOOP_HOME/sbin/start-dfs.sh
$HADOOP_HOME/sbin/start-yarn.sh
最后,开始Spark Web UI:
$SPARK_HOME/sbin/start-web-ui sh[h. ]
您现在可以通过在浏览器中访问 http://localhost:4040
来查看 Spark Web UI。
5. 使用 Spark
使用 pyspark
和 spark-shell
等命令行工具可以使用 Spark 使用 例如启动pyspark
:
$SPARK_HOME/bin/ pyspark
这将启动一个交互式 Python Spark shell,您可以在其中编写和运行 Spark 代码。
以上是在Ubuntu环境下配置Spark的详细过程。 请确保所有组件均按照上述步骤正确安装和配置,并根据需要进行调整。
评论前必须登录!
注册