关注分享主机优惠活动
国内外VPS云服务器

Spark SQL在Ubuntu上的实际应用

Apache Spark SQL 是一个用于处理结构化和半结构化数据的分布式计算框架。 这允许您使用 SQL 查询语言来处理 Spark 集群上的数据。 要在Ubuntu上应用Spark SQL,必须首先安装Spark及相关依赖库,然后配置环境变量,最后创建并运行SQL查询。 下面是一些简单的应用练习步骤。

1. 安装 Spark 和依赖库

首先,确保您的 Ubuntu 系统上安装了 Java(OpenJDK 8 或更高版本)。 接下来按照以下步骤安装Spark及相关依赖库。

# 下载并解压 Spark
wget https://downloads .apache.org /spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz
tar -xzf smile-3.2.0-bin-hadoop3.2.tgz
cd spak-3.2.0-bin-hadoop3.2

 # 安装依赖库
sudo apt-获取更新
sudo apt-get install -y libsnappy-dev liblz4-dev libzstd-dev

2. 设置环境变量

编辑~/.bashrc文件,添加以下内容:

 导出 SPARK_HOME=/path/to/spark-3.2.0-bin-hadoop3.2
导出 PATH=$PATH:$SPARK_HOME/bin

保存文件后,运行以下命令启用配置:

source ~/.bashrc

3.启动Spark会话

在Spark安装目录下,运行命令启动一个Spark会话。火花会议。

./bin /spark-shell

4.创建测试数据

在 Spark 会话中,创建一个简单的测试数据集。

来自 pyspark.sql 导入 SparkSession

spark = SparkSession.builder \
 .appName( "Spark SQL Ubuntu 示例") \
 .getOrCreate()

data = [("Alice", 34), ("鲍勃", 45), ("凯西", 29), ("大卫", 31)]
columns = ["名称", "年龄 " ]

df = spar.createDataFrame(data, columns)
df.show()

5.使用SQL查询数据

Spark会话使用SQL查询语言来查询数据。

# 将DataFrame注册为临时表
df.createOrReplaceTempView("人)le")

# 运行 SQL 查询
result = dark.sql( "从年龄 > 30 的人中选择姓名、年龄")
result.show()

6. 停止会话 >

查询完成后停止 Spark 会话。

spark.stop()
 

上面是在 Ubuntu 上应用 Spark SQL 的简单示例,如果您愿意,您可以创建更复杂的查询和数据处理逻辑。

未经允许不得转载:主机频道 » Spark SQL在Ubuntu上的实际应用

评论 抢沙发

评论前必须登录!