使用Tiktoken轻松估算您的OpenAI API费用

使用Tiktoken估算OpenAI API费用

计算您的令牌数量,避免在使用OpenAI API时破产

新鲜令牌!每公斤0.0015美元!

我认识的很多人都对使用OpenAI的大型语言模型(LLM)感兴趣。但是托管LLM是很昂贵的,因此,OpenAI的应用程序编程接口(API)等推理服务并不免费。但是在不知道推理成本将增加到多少的情况下,输入您的付款信息可能会有些令人生畏。

通常,我喜欢在文章中包含一个API成本的指示器,这样我的读者就知道可以期待什么,并且可以对推理成本有所了解。

本文介绍了我用来估计使用OpenAI基金会模型进行推理成本的tiktoken库。

tiktoken是什么?

tiktoken是由OpenAI开发的开源字节对编码(BPE)分词器,用于对其LLM中的文本进行分词。它允许开发人员在调用OpenAI端点之前计算文本中有多少令牌。

因此,它有助于估计使用OpenAI API的相关成本,因为根据OpenAI的定价页面[1],其成本以每1,000个令牌为单位计费。

GitHub — openai/tiktoken:tiktoken是用于OpenAI模型的快速BPE分词器。

tiktoken是用于OpenAI模型的快速BPE分词器。 — GitHub — openai/tiktoken:tiktoken是一个快速的BPE…

github.com

令牌和分词

令牌是文本中的常见字符序列,分词是将文本字符串拆分为令牌列表的过程。一个令牌可以等于一个单词,但通常一个单词由多个令牌组成。

自然语言处理(NLP)模型是在令牌上进行训练的,并理解它们之间的关系。因此,在NLP模型处理输入文本之前,文本被分词。

但是,如何对单词进行分词取决于所使用的分词器。

下面是一个示例,展示了如何对文本进行分词:

“爱丽丝有一只鹦鹉。

爱丽丝的宠物是什么动物?”