关注分享主机优惠活动
国内外VPS云服务器

Ubuntu 上的 Spark 结构化流

Ubuntu 上安装和使用 Spark Structured Streaming 需要几个步骤。 以下是一些基本准则:

安装 Java:Spark Structured Streaming 需要 Java 运行时环境。 您可以使用 OpenJDK 或 Oracle JDK。 您可以使用以下命令安装 OpenJDK:

sudo apt update
sudo apt install openjdk-11-jdk

下载并解压Spark:Spark可以从Spark官网下载。 选择并解压缩适合您的版本的二进制文件。 例如,要下载并解压 Spark 3.2.0,可以使用以下命令:

wget https://downloads.apache.org /spark/spark -3.2 .0/spark-3.2.0-bin-hadoop3.2.tgz
tar -xzf  Spark-3.2.0-bin-hadoop3.2.tgz
cd Spark-3.2.0-bin-hadoop3.2

设置环境变量:编辑~/.bashrc文件,添加以下行设置Spark 设置环境变量。 SPARK_HOME 环境变量:

导出 SPARK_HOME=/path/to/your/spark-3.2.0-bin-hadoop3.2

/path/to/your/spark 更改-3.2.0-bin-hadoop3.2 替换为 Spark 安装目录的实际路径。 然后运行 ​​source ~/.bashrc 以使更改生效。

安装 Apache Kafka(可选):Spark 结构化流可以与 Apache Kafka 一起使用。 要安装Kafka,可以使用以下命令:

wget https://downloads.apache.org/kafka/2.8.1/kafka_2 .13-2.8 。    1.tgz
tar -xzf kafka_2.13-2.8.1.tgz
cd kafka_2.13-2.8.1
 

接下来,按照Kafka官方文档的说明配置并启动Kafka服务器。
5. 运行 Spark 结构化流应用程序:您现在可以创建并运行 Spark 结构化流应用程序。 要提交您的申请,您必须使用 spark-submit 命令。 例如,下面是一个简单的 Spark 结构化流应用程序,用于从 Kafka 读取和输出数据。

来自 pyspark.sql 导入 SparkSession
来自 pyspark.streaming 导入 StreamingContext
来自 pyspark.streaming.kafka 导入 KafkaUtils

# 创建 SparkSession 和 StreamingContext
spark = SparkSession.builder \
 .appName(" KafkaSparkStructuredStreamingExample") \
 .getOrCreate()
ssc = StreamingContext(spark.sparkContext, 1)

# 从 Kafka 读取数据
kafkaStream = KafkaUtils.createDirectStream(ssc, ["your_topic" ], { "metadata.broker.list": "localhost:9092"})

# 处理数据
def 处理(时间,rdd):
 如果  rdd.isEmpty( ):
 print("收到数据:",  rdd.collect())
 
kafkaStream.foreachRDD(process)

# 启动 StreamingContext
ssc.start() 
ssc.awaitTermination()

"your_topic" 在 Kafka 中 将其替换为您的主题名称,然后使用 spark-submit> 命令提交您的应用程序:

spa。rk-submit --class "KafkaSparkStructuredStreamingExample" \
 --master 本地[*] \[ Python 中的 your_spark_application.py

your_spark_application.py 替换为实际路径。 脚本文件。

请注意,这只是如何在 Ubuntu 上安装和使用 Spark 结构化流的简单示例。 根据您的需求和数据源,您的应用程序可能需要更复杂的配置和处理。

未经允许不得转载:主机频道 » Ubuntu 上的 Spark 结构化流

评论 抢沙发

评论前必须登录!