在PySpark中介绍逻辑回归

用PySpark介绍逻辑回归' (Introducing Logistic Regression with PySpark)

Databricks中运行第一个分类模型的教程

来自Unsplash的Ibrahim Rifath的照片

介绍

大数据。大规模数据集。云……

这些词无处不在,围绕着我们,出现在客户、面试官、经理和总监的思绪中。随着数据的增加,数据集的大小也在增加,有时候在本地环境中(也就是在单台机器上)无法运行机器学习模型。

因此,我们需要适应并找到其他解决方案,比如采用Spark进行建模,这是最常用的大数据技术之一。Spark支持SQL、Python、Scala、R等语言,并拥有自己的方法和属性,包括自己的机器学习库[MLlib]。例如,当你在Spark中使用Python时,它被称为PySpark。

此外,还有一个名为Databricks的平台,它在Spark的基础上创建了一个非常出色的层,使数据科学家能够像使用Anaconda一样使用它。

在Databricks中创建ML模型时,它也可以接受Scikit Learn模型,但由于我们更关注大数据,本教程都使用了Spark的MLlib,它更适用于大型数据集,并且这样我们还可以增加新的工具到我们的技能组合中。

让我们开始吧。

数据集

本练习的数据集已经在Databricks中。它是UCI数据集之一,《成年人》(Adults),是从人口普查中提取的,并标记了每年收入低于或高于5万美元的个体。此数据在此地址上公开可供使用:https://archive.ics.uci.edu/dataset/2/adult

我们的教程是构建一个二分类器,告诉我们一个人的年收入是低于还是高于5万美元。

编码

在本节中,让我们逐步介绍我们的模型的每个步骤。

这是我们需要导入的模块。

from pyspark.sql.functions import colfrom pyspark.ml.feature import UnivariateFeatureSelectorfrom pyspark.ml.feature import RFormulafrom pyspark.ml.feature import StringIndexer, VectorAssemblerfrom pyspark.ml import...