如何使用PandasAI自动探索和清洗数据

PandasAI自动数据探索和清洗使用方法

使用提示轻松清理数据

使用ideogram.ai生成的图像

我们正在迎来大型语言模型(LLM)的高速采用阶段,许多文本需求可以迅速得到满足。从问题回答、链接搜索和日常任务规划到内容创作,LLM现在可以满足这些需求。

在LLM研究领域,OpenAI是领先的公司之一,尤其以其GPT系列模型著称。随着ChatGPT的推出,公众开始认识到LLM的强大,难以离开。

Python编程语言有一个著名的数据处理库叫做Pandas。对于想在Python中进行任何数据探索的数据专业人员来说,它是一个必备工具。有了GPT模型,其中一个令人兴奋的应用就是将LLM的能力与Pandas相结合,这就是PandasAI。

通过使用生成式AI的能力,PandasAI可以帮助我们用自然语言处理数据。我们如何做到这一点呢?让我们进一步探索。

PandasAI

PandasAI是一个在Pandas中实现LLM的Python包。它旨在与Pandas相辅相成,而不是取而代之。通过使用PandasAI,我们可以将Pandas包转化为一个会话工具,能够自动探索和清理我们的数据。

要使用PandasAI,我们需要使用以下代码进行安装。

pip install pandasai

要使用PandasAI包,我们需要访问LLM的API。我们可以选择各种模型,从OpenAI GPT到HuggingFace模型。

在本示例中,我们将使用OpenAI模型,但如果您想将模型更改为其他模型,我将给出一个代码示例。我们还将在Notebook中执行这个示例,因此本文将假设在该环境中进行工作。

OpenAI

要使用OpenAI API,我们需要生成密钥。使用网站获取密钥,并在下面的代码中使用它。

from pandasai.llm import OpenAIllm = OpenAI(api_token="您的OpenAI API密钥")

HuggingFace