使用Tiktoken轻松估算您的OpenAI API费用
使用Tiktoken估算OpenAI API费用
计算您的令牌数量,避免在使用OpenAI API时破产
![新鲜令牌!每公斤0.0015美元!](https://miro.medium.com/v2/resize:fit:640/format:webp/1*Pw-lwev4XnwKHzq04tE0cw.png)
我认识的很多人都对使用OpenAI的大型语言模型(LLM)感兴趣。但是托管LLM是很昂贵的,因此,OpenAI的应用程序编程接口(API)等推理服务并不免费。但是在不知道推理成本将增加到多少的情况下,输入您的付款信息可能会有些令人生畏。
通常,我喜欢在文章中包含一个API成本的指示器,这样我的读者就知道可以期待什么,并且可以对推理成本有所了解。
本文介绍了我用来估计使用OpenAI基金会模型进行推理成本的tiktoken
库。
tiktoken是什么?
tiktoken
是由OpenAI开发的开源字节对编码(BPE)分词器,用于对其LLM中的文本进行分词。它允许开发人员在调用OpenAI端点之前计算文本中有多少令牌。
因此,它有助于估计使用OpenAI API的相关成本,因为根据OpenAI的定价页面[1],其成本以每1,000个令牌为单位计费。
GitHub — openai/tiktoken:tiktoken是用于OpenAI模型的快速BPE分词器。
tiktoken是用于OpenAI模型的快速BPE分词器。 — GitHub — openai/tiktoken:tiktoken是一个快速的BPE…
github.com
令牌和分词
令牌是文本中的常见字符序列,分词是将文本字符串拆分为令牌列表的过程。一个令牌可以等于一个单词,但通常一个单词由多个令牌组成。
自然语言处理(NLP)模型是在令牌上进行训练的,并理解它们之间的关系。因此,在NLP模型处理输入文本之前,文本被分词。
但是,如何对单词进行分词取决于所使用的分词器。
下面是一个示例,展示了如何对文本进行分词:
“爱丽丝有一只鹦鹉。
爱丽丝的宠物是什么动物?”