目录
Apache Spark SQL 是一个用于处理结构化和半结构化数据的分布式计算框架。 这允许您使用 SQL 查询语言来处理 Spark 集群上的数据。 要在Ubuntu上应用Spark SQL,必须首先安装Spark及相关依赖库,然后配置环境变量,最后创建并运行SQL查询。 下面是一些简单的应用练习步骤。
1. 安装 Spark 和依赖库
首先,确保您的 Ubuntu 系统上安装了 Java(OpenJDK 8 或更高版本)。 接下来按照以下步骤安装Spark及相关依赖库。
# 下载并解压 Spark
wget https://downloads .apache.org /spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz
tar -xzf smile-3.2.0-bin-hadoop3.2.tgz
cd spak-3.2.0-bin-hadoop3.2
# 安装依赖库
sudo apt-获取更新
sudo apt-get install -y libsnappy-dev liblz4-dev libzstd-dev
2. 设置环境变量
编辑~/.bashrc
文件,添加以下内容:
导出 SPARK_HOME=/path/to/spark-3.2.0-bin-hadoop3.2
导出 PATH=$PATH:$SPARK_HOME/bin
保存文件后,运行以下命令启用配置:
source ~/.bashrc
3.启动Spark会话
在Spark安装目录下,运行命令启动一个Spark会话。火花会议。
./bin /spark-shell
4.创建测试数据
在 Spark 会话中,创建一个简单的测试数据集。
来自 pyspark.sql 导入 SparkSession
spark = SparkSession.builder \
.appName( "Spark SQL Ubuntu 示例") \
.getOrCreate()
data = [("Alice", 34), ("鲍勃", 45), ("凯西", 29), ("大卫", 31)]
columns = ["名称", "年龄 " ]
df = spar.createDataFrame(data, columns)
df.show()
5.使用SQL查询数据
Spark会话使用SQL查询语言来查询数据。
# 将DataFrame注册为临时表
df.createOrReplaceTempView("人)le")
# 运行 SQL 查询
result = dark.sql( "从年龄 > 30 的人中选择姓名、年龄")
result.show()
6. 停止会话 >
查询完成后停止 Spark 会话。
spark.stop()
上面是在 Ubuntu 上应用 Spark SQL 的简单示例,如果您愿意,您可以创建更复杂的查询和数据处理逻辑。
评论前必须登录!
注册