在PySpark中介绍逻辑回归

用PySpark介绍逻辑回归' (Introducing Logistic Regression with PySpark)

Databricks中运行第一个分类模型的教程

来自Unsplash的Ibrahim Rifath的照片 — 照片由Ibrahim Rifath在Unsplash上

介绍

大数据。大规模数据集。云……

这些词无处不在，围绕着我们，出现在客户、面试官、经理和总监的思绪中。随着数据的增加，数据集的大小也在增加，有时候在本地环境中（也就是在单台机器上）无法运行机器学习模型。

因此，我们需要适应并找到其他解决方案，比如采用Spark进行建模，这是最常用的大数据技术之一。Spark支持SQL、Python、Scala、R等语言，并拥有自己的方法和属性，包括自己的机器学习库[MLlib]。例如，当你在Spark中使用Python时，它被称为PySpark。

此外，还有一个名为Databricks的平台，它在Spark的基础上创建了一个非常出色的层，使数据科学家能够像使用Anaconda一样使用它。

在Databricks中创建ML模型时，它也可以接受Scikit Learn模型，但由于我们更关注大数据，本教程都使用了Spark的MLlib，它更适用于大型数据集，并且这样我们还可以增加新的工具到我们的技能组合中。

让我们开始吧。

数据集

本练习的数据集已经在Databricks中。它是UCI数据集之一，《成年人》(Adults)，是从人口普查中提取的，并标记了每年收入低于或高于5万美元的个体。此数据在此地址上公开可供使用：https://archive.ics.uci.edu/dataset/2/adult

我们的教程是构建一个二分类器，告诉我们一个人的年收入是低于还是高于5万美元。

编码

在本节中，让我们逐步介绍我们的模型的每个步骤。

这是我们需要导入的模块。

from pyspark.sql.functions import colfrom pyspark.ml.feature import UnivariateFeatureSelectorfrom pyspark.ml.feature import RFormulafrom pyspark.ml.feature import StringIndexer, VectorAssemblerfrom pyspark.ml import...

在PySpark中介绍逻辑回归

用PySpark介绍逻辑回归' (Introducing Logistic Regression with PySpark)

Databricks中运行第一个分类模型的教程

介绍

数据集

编码

提升人工智能的真实性：这项人工智能研究引入了自动RAG，以获得更准确和反映性更强的语言模型

评估人工智能的语言掌握能力：深入研究ChatGPT在不同语言中的形态学技能

《遇见IBM的沃森X代码助手：通过人工智能支持...

在新闻报道中拥抱人工智能——新闻轮播

谷歌的RealLife AI模型让人感觉像魔法一样

参加人工智能安全峰会的国家签署的布莱切利宣言

使用量子计算机寻找暗物质

多模态数据集成：人工智能如何改变癌症护理

人工智能