回归基本Week 3:机器学习入门

美丽时尚基础重返 Week 3:迈入机器学习的大门

 

加入VoAGI,参加我们的回归基础途径,开始一个新的事业或提升你的数据科学技能。回归基础途径分为四周和一个奖励周。我们希望你能将这些博客用作课程指南。

如果你还没有看过,请看一下:

进入第三周,我们将深入学习机器学习。

  • 第1天:揭秘机器学习
  • 第2天:从5步开始使用Scikit-learn
  • 第3天:理解监督学习:理论和概述
  • 第4天:实践监督学习:线性回归
  • 第5天:揭开无监督学习
  • 第6天:实践无监督学习:K均值聚类
  • 第7天:机器学习评估指标:理论和概述

 

揭秘机器学习

 

第三周 – 第一部分:揭秘机器学习

传统上,计算机需要遵循一套明确的指令。例如,如果你想让计算机执行一个简单的任务,比如相加两个数字,你必须详细说明每一步。然而,随着我们的数据变得更加复杂,这种手动指令的方法变得不足够。

这就是机器学习出现的变革之处。我们希望计算机能像我们从经验中学习一样,从例子中学习。想象一下,通过向一个孩子展示几次如何骑自行车,然后让他摔倒、自己摸索、学习。这就是机器学习的理念。这种创新不仅改变了行业,也成为当今世界不可或缺的必需品。

 

5步快速上手Scikit-learn

 

第三周 – 第二部分:5步快速上手Scikit-learn

本教程提供了一个全面的Scikit-learn机器学习实践指南。读者将学习关键概念和技术,包括数据预处理、模型训练和评估、超参数调优以及组合模型以提高性能。

学习如何使用Scikit-learn时,我们必须对机器学习的基本概念有一定的了解,因为Scikit-learn只是一个用于实现机器学习原理和相关任务的实用工具。机器学习是人工智能的子集,可以使计算机通过触发模式和洞见来进行预测或决策,而无需进行显式编程。这些算法使用训练数据来发现模式和洞见。

 

理解监督学习:理论与概述

 

第三周 – 第三部分:理解监督学习:理论与概述

监督学习是机器学习的一个子类,计算机通过带有标签的数据集来学习,该数据集包含输入和正确的输出。监督学习试图找到将输入(x)与输出(y)相关联的映射函数。你可以把它想象成教你的弟弟或妹妹如何认识不同的动物。你会给他们展示一些图片(x),告诉他们每种动物的名称(y)。

一段时间过后,他们将会学习到差异,并能正确识别新的图片。这是监督学习背后的基本直觉。

 

动手实践监督学习:线性回归

 

第三周 – 第四部分:动手实践监督学习:线性回归

如果你正在寻找一个详细且适合初学者的线性回归使用Scikit-learn实现的实践经验教程,那么你将会有一个有趣的旅程。

线性回归是基于输入特征预测连续目标变量的基本监督机器学习算法。顾名思义,它假设依赖变量与独立变量之间的关系是线性的。

因此,如果我们尝试绘制依赖变量Y与独立变量X之间的关系,我们将获得一条直线。

 

揭开无监督学习的面纱

 

第三周 – 第五部分:揭开无监督学习

探索无监督学习范型。熟悉关键概念、技术和流行的无监督学习算法。

在机器学习中,无监督学习是一种通过对未标记数据集进行训练的范型。因此,没有监督或标记的输出。

在无监督学习中,目标是发现数据本身中的模式、结构或关系,而不是基于标记示例进行预测或分类。它涉及探索数据的内在结构,以获取洞察并理解复杂信息。

 

动手实践无监督学习:K-Means聚类

 

第三周 – 第六部分:动手实践无监督学习:K-Means聚类

本教程提供了与K-Means聚类的关键概念和实现的实践经验,K-Means聚类是一种流行的无监督学习算法,用于客户细分和定向广告应用。

K-Means聚类是数据科学中常用的无监督学习算法之一,它用于根据数据点之间的相似性自动将数据集分割为聚类或群组。

在这个简短的教程中,我们将学习K-Means聚类算法的工作原理,并使用scikit-learn将其应用于真实数据。此外,我们将可视化结果以了解数据分布。

 

机器学习评估指标:理论与概述

 

第三周 – 第七部分:机器学习评估指标:理论与概述

对机器学习中评估指标的高级探索及其重要性。

构建能够在新数据上很好地推广的机器学习模型非常具有挑战性。需要进行评估以了解模型是否足够好或需要进行一些修改以提高性能。

如果模型没有从训练集中学习足够的模式,它将在训练集和测试集上表现不佳。这就是所谓的欠拟合问题。

如果模型对训练数据的模式了解太多,甚至包括噪声,它将在训练集上表现出色,但在测试集上表现不佳。这种情况称为过拟合。模型的泛化可以通过在训练集和测试集上测量性能来获得相似的结果。

 

总结

 

恭喜您完成第三周的学习!

VoAGI团队希望《回到基础》路径为读者提供全面和有结构的方法来掌握数据科学的基础知识。

第4周的内容将于下周一发布 – 敬请期待!

****[Nisha Arya](https://www.linkedin.com/in/nisha-arya-ahmed/)**** 是一位数据科学家和自由技术作家。她尤其对提供数据科学职业建议或教程以及基于理论的数据科学知识感兴趣。她还希望探索人工智能在人类寿命方面的不同益处/可能性。作为一个热心的学习者,她希望加深自己的技术知识和写作能力,同时帮助指导他人。