在 Ubuntu 上安装和使用 Spark Structured Streaming 需要几个步骤。 以下是一些基本准则:
安装 Java:Spark Structured Streaming 需要 Java 运行时环境。 您可以使用 OpenJDK 或 Oracle JDK。 您可以使用以下命令安装 OpenJDK:
sudo apt update
sudo apt install openjdk-11-jdk
下载并解压Spark:Spark可以从Spark官网下载。 选择并解压缩适合您的版本的二进制文件。 例如,要下载并解压 Spark 3.2.0,可以使用以下命令:
wget https://downloads.apache.org /spark/spark -3.2 .0/spark-3.2.0-bin-hadoop3.2.tgz
tar -xzf Spark-3.2.0-bin-hadoop3.2.tgz
cd Spark-3.2.0-bin-hadoop3.2
设置环境变量:编辑~/.bashrc
文件,添加以下行设置Spark 设置环境变量。 SPARK_HOME
环境变量:
导出 SPARK_HOME=/path/to/your/spark-3.2.0-bin-hadoop3.2
/path/to/your/spark 更改-3.2.0-bin-hadoop3.2
替换为 Spark 安装目录的实际路径。 然后运行 source ~/.bashrc
以使更改生效。
安装 Apache Kafka(可选):Spark 结构化流可以与 Apache Kafka 一起使用。 要安装Kafka,可以使用以下命令:
wget https://downloads.apache.org/kafka/2.8.1/kafka_2 .13-2.8 。 1.tgz
tar -xzf kafka_2.13-2.8.1.tgz
cd kafka_2.13-2.8.1
接下来,按照Kafka官方文档的说明配置并启动Kafka服务器。
5. 运行 Spark 结构化流应用程序:您现在可以创建并运行 Spark 结构化流应用程序。 要提交您的申请,您必须使用 spark-submit
命令。 例如,下面是一个简单的 Spark 结构化流应用程序,用于从 Kafka 读取和输出数据。
来自 pyspark.sql 导入 SparkSession
来自 pyspark.streaming 导入 StreamingContext
来自 pyspark.streaming.kafka 导入 KafkaUtils
# 创建 SparkSession 和 StreamingContext
spark = SparkSession.builder \
.appName(" KafkaSparkStructuredStreamingExample") \
.getOrCreate()
ssc = StreamingContext(spark.sparkContext, 1)
# 从 Kafka 读取数据
kafkaStream = KafkaUtils.createDirectStream(ssc, ["your_topic" ], { "metadata.broker.list": "localhost:9092"})
# 处理数据
def 处理(时间,rdd):
如果 不 rdd.isEmpty( ):
print("收到数据:", rdd.collect())
kafkaStream.foreachRDD(process)
# 启动 StreamingContext
ssc.start()
ssc.awaitTermination()
"your_topic"
在 Kafka 中 将其替换为您的主题名称,然后使用 spark-submit
> 命令提交您的应用程序:
spa。rk-submit --class "KafkaSparkStructuredStreamingExample" \
--master 本地[*] \[ Python 中的 your_spark_application.py
your_spark_application.py
替换为实际路径。 脚本文件。
请注意,这只是如何在 Ubuntu 上安装和使用 Spark 结构化流的简单示例。 根据您的需求和数据源,您的应用程序可能需要更复杂的配置和处理。
评论前必须登录!
注册