“如果你知道如何独自完成任务,请仅使用低层级机器学习模型(LLMs)”

只使用低层级机器学习模型(LLMs)能独自完成任务? 如果你知道如何做到,请说来听听

否则,您可能会遇到无声的错误或严厉的后果

(image created by author with Midjourney)

对于我们大多数人(或所有人)来说,LLM是神秘的盒子,可以出奇地快速完成复杂的任务。只要它们能提供我们所需的结果,我们通常不关心“如何”部分。

ChatGPT和其他LLM肯定是提高生产力的工具。它们可以轻松处理各种任务,否则将是枯燥和耗时的。

但是,我们不能完全依赖它们。例如,在进行数据分析时,我们如何确保ChatGPT对数据的洞察是准确的?是的,它了解Pandas,这是一个流行的数据分析库,但是如果它出错了怎么办?或者,如果它部分完成任务并且无法继续执行呢?

与ChatGPT最佳搭配的解决方案就是您自己。您需要知道如何独立完成任务,以便于:

  1. 您可以确保ChatGPT的解决方案是正确的。
  2. 在ChatGPT无法执行或者不知道如何执行的情况下,您可以替代它。

在本文章中,我将向您展示三个例子,来验证我前面提到的两个观点。

例子1:使用Pandas进行数据清洗

我有一个包含二手车价格和其他属性的数据集。这是一个比较杂乱的数据集,需要进行大量的清理工作。我使用了ChatGPT高级数据分析(ADA)插件来完成这个任务。

它在大部分情况下表现良好。然而,ChatGPT ADA在某个非常具体的操作上失败了。因此,如果我不知道如何自己完成它,这个任务就无法完成。

首先让我解释一下ChatGPT ADA无法处理的部分。

可能是由于数据输入错误,品牌(即汽车品牌或制造商)列的某些行包含年份值。当我研究这些行时,我意识到品牌值被记录在型号列中。要修复这个问题,需要从型号列中提取品牌部分,并用于替换品牌列中的年份值。

以下是修复的方法: