在 Ubuntu 上开始使用 Spark MLlib-主机频道

要在 Ubuntu 上使用 Spark MLlib，必须首先安装 Apache Spark 和关联的 Python 库。以下是一些基本步骤。

安装 Java 开发工具包 (JDK)。 Spark 需要 JDK 才能运行。您可以从Oracle官网下载并安装JDK。

下载并解压 Spark。从 Apache Spark 官方网站下载合适版本的 Spark，并将其解压到您选择的。

设置环境变量。编辑 .bashrc 文件并添加以下行：

导出 SPARK_HOME=/path/to/your/spark
 导入 PATH=$PATH:$SPARK_HOME/bin
导出 PYSPARK_PYTHON=python3

/path/to/your/spark Spark 替换为解压后的路径。然后运行 source .bashrc 以使更改生效。

安装 PySpark 和 MLlib。您可以使用 pip 安装 PySpark 和 MLlib：

pip install pyspark

您现在可以在 Python 中使用 MLlib。这是一个简单的例子：

来自 pyspark.ml.classification导入 LogisticRegression
 来自  pyspark.ml.feature 导入 VectorAssembler
来自 pyspark.ml.linalg 导入 Vectors
来自 pyspark.sql 导入 创建 SparkSession

# SparkSession 
spark = SparkSession.builder \
 .appName("逻辑回归示例") \
 .getOrCreate( )
 
# 创建样本数据
data = [(Vectors.dense([ 1.0, 2.0, 3.0]), 1),
 (Vectors.dense([-1.0, -2.0 ) , -3.0]), 0), 
 (Vectors.dense( [ 2.0、4.0、6.0]) , 1),
 (Vectors.dense([-2.0, -4.0, -6.0]), 0)]
 
# 将数据转换为 DataFrame
df = spar.createDataFrame(data, ["Feature" span >, "标签"])

# 创建LogisticRegression模型
lr = LogisticRegression(featuresCol="features", labelCol= "label ")

# 训练模型
model =  lr.fit(df)

# 使用模型进行预测
predictions = model.transform(df)

# 输出预测结果
predictions.select("特征"、"标签"、"预测").show()

以上是使用Spark MLlib的基本步骤。乌班图。您可以根据需要创建更复杂的机器学习模型。

在 Ubuntu 上开始使用 Spark MLlib

相关推荐

评论抢沙发

评论前必须登录！

交流互动

热门推荐

随机推荐