要在 Ubuntu 上使用 Spark MLlib,必须首先安装 Apache Spark 和关联的 Python 库。 以下是一些基本步骤。
安装 Java 开发工具包 (JDK)。 Spark 需要 JDK 才能运行。 您可以从Oracle官网下载并安装JDK。
下载并解压 Spark。 从 Apache Spark 官方网站下载合适版本的 Spark,并将其解压到您选择的。
设置环境变量。 编辑 .bashrc
文件并添加以下行:
导出 SPARK_HOME=/path/to/your/spark
导入 PATH=$PATH:$SPARK_HOME/bin
导出 PYSPARK_PYTHON=python3
/path/to/your/spark
Spark 替换为解压后的路径。 然后运行 source .bashrc
以使更改生效。
安装 PySpark 和 MLlib。 您可以使用 pip 安装 PySpark 和 MLlib:
pip install pyspark
您现在可以在 Python 中使用 MLlib。 这是一个简单的例子:
来自 pyspark.ml.classification导入 LogisticRegression
来自 pyspark.ml.feature 导入 VectorAssembler
来自 pyspark.ml.linalg 导入 Vectors
来自 pyspark.sql 导入 创建 SparkSession
# SparkSession
spark = SparkSession.builder \
.appName("逻辑回归示例") \
.getOrCreate( )
# 创建样本数据
data = [(Vectors.dense([ 1.0, 2.0, 3.0]), 1),
(Vectors.dense([-1.0, -2.0 ) , -3.0]), 0),
(Vectors.dense( [ 2.0、4.0、6.0]) , 1),
(Vectors.dense([-2.0, -4.0, -6.0]), 0)]
# 将数据转换为 DataFrame
df = spar.createDataFrame(data, ["Feature" span >, "标签"])
# 创建LogisticRegression模型
lr = LogisticRegression(featuresCol="features", labelCol= "label ")
# 训练模型
model = lr.fit(df)
# 使用模型进行预测
predictions = model.transform(df)
# 输出预测结果
predictions.select("特征"、"标签"、"预测").show()
以上是使用Spark MLlib的基本步骤。 乌班图。 您可以根据需要创建更复杂的机器学习模型。
评论前必须登录!
注册