关注分享主机优惠活动
国内外VPS云服务器

Ubuntu 上 Spark 与 Jupyter 的交互(spark udtf)

Ubuntu系统上,Spark和Jupyter的协作可以通过以下步骤实现。

安装Java和Maven

强>:

Spark是基于Java开发的,所以你。需要先安装Java。 您可以通过运行命令java -version来检查Java是否安装。 如果未安装,您可以使用 sudo apt install openjdk-11-jdk (或任何其他版本)进行安装。
Maven是Spark的构建工具,必须安装。 使用命令 mvn -version 检查 Maven 是否已安装。 如果尚未安装,您可以使用 sudo apt install maven 进行安装。

下载并解压Spark

从Spark官方下载Spark压缩包。 网站。
将下载的压缩包解压到/opt/spark等。

配置环境变量

~/.bashrc文件编辑添加以下内容(根据您的 Spark 提取路径进行更改):

export  SPARK_HOME=/opt/spark
 导出 PATH=$PATH:$SPARK_HOME/bin
导出 PYSPARK_PYTHON=python3
导出 SPARK_MASTER_HOST=localhost
导出 SPARK_MASTER_PORT=4000

保存文件后,source ~/.bashrc 启用配置

启动 Spark 集群


在Spark解压后的中打开终端,运行以下命令启动本地Spark集群:

$SPARK_HOME/sbin/start-all.sh

这将创建一个包含 1 个主节点和 4 个工作节点的 Spark 集群,并将启动

[h。 ]

安装 Jupyter Notebook

使用命令 使用 pip3 install jupyter 安装 Jupyter Notebook

启动 Jupyter Notebook

通过在终端中运行 jupyter Notebook 启动 Jupyter Notebook
这将在您的默认浏览器中打开 Jupyter Notebo。好的界面。

在 Jupyter Notebook 中使用 Spark

Jupyter Notebook 使用 pyspark 与 Spark 交互。 首先,通过运行 %run $SPARK_HOME/python/pyspark/shell.py 启动 PySpark shell。
PySpark shell 允许您执行各种 Spark 操作,例如创建 DataFrame 以及执行转换和计算。

通过上述步骤,您可以实现以下目的: Ubuntu 系统集成了 Spark 和 Jupyter,并利用 Jupyter Notebook 的可视化功能来探索和操作 Spark 数据。

未经允许不得转载:主机频道 » Ubuntu 上 Spark 与 Jupyter 的交互(spark udtf)

评论 抢沙发

评论前必须登录!

 

本站不销售/不代购主机产品,不提供技术支持,仅出于个人爱好分享优惠信息,请遵纪守法文明上网

Copyright © 主机频道 - ZHUJIPINDAO.COM ,本站托管于国外主机商

© 2021-2025   主机频道   网站地图 琼ICP备2022006744号