关注分享主机优惠活动
国内外VPS云服务器

在 Ubuntu 上开始使用 Spark MLlib

要在 Ubuntu 上使用 Spark MLlib,必须首先安装 Apache Spark 和关联的 Python 库。 以下是一些基本步骤。

安装 Java 开发工具包 (JDK)。 Spark 需要 JDK 才能运行。 您可以从Oracle官网下载并安装JDK。

下载并解压 Spark。 从 Apache Spark 官方网站下载合适版本的 Spark,并将其解压到您选择的。

设置环境变量。 编辑 .bashrc 文件并添加以下行:

导出 SPARK_HOME=/path/to/your/spark
 导入 PATH=$PATH:$SPARK_HOME/bin
导出 PYSPARK_PYTHON=python3

/path/to/your/spark Spark 替换为解压后的路径。 然后运行 ​​source .bashrc 以使更改生效。

安装 PySpark 和 MLlib。 您可以使用 pip 安装 PySpark 和 MLlib:

pip install pyspark

您现在可以在 Python 中使用 MLlib。 这是一个简单的例子:

来自 pyspark.ml.classification导入 LogisticRegression
 来自  pyspark.ml.feature 导入 VectorAssembler
来自 pyspark.ml.linalg 导入 Vectors
来自 pyspark.sql 导入 创建 SparkSession

# SparkSession 
spark = SparkSession.builder \
 .appName("逻辑回归示例") \
 .getOrCreate( )
 
# 创建样本数据
data = [(Vectors.dense([ 1.0, 2.0, 3.0]), 1),
 (Vectors.dense([-1.0, -2.0 ) , -3.0]), 0), 
 (Vectors.dense( [ 2.04.06.0]) , 1),
 (Vectors.dense([-2.0, -4.0, -6.0]), 0)]
 
# 将数据转换为 DataFrame
df = spar.createDataFrame(data, ["Feature" span >, "标签"])

# 创建LogisticRegression模型
lr = LogisticRegression(featuresCol="features", labelCol= "label ")

# 训练模型
model =  lr.fit(df)

# 使用模型进行预测
predictions = model.transform(df)

# 输出预测结果
predictions.select("特征""标签""预测").show()

以上是使用Spark MLlib的基本步骤。 乌班图。 您可以根据需要创建更复杂的机器学习模型。

未经允许不得转载:主机频道 » 在 Ubuntu 上开始使用 Spark MLlib

评论 抢沙发

评论前必须登录!