Hugging Face上的推理解决方案概述
Hugging Face推理解决方案概述
每天,开发者和组织都在采用托管在Hugging Face上的模型,将想法转化为概念验证演示,然后将演示转化为生产级应用。例如,Transformer模型已成为各种机器学习(ML)应用的流行架构,包括自然语言处理、计算机视觉、语音等。最近,扩散器已成为文本到图像或图像到图像生成的流行架构。其他架构也适用于其他任务,并且我们将它们全部托管在HF Hub上!
在Hugging Face,我们致力于简化ML开发和运营,同时不影响最先进的质量。在这方面,能够以最小的摩擦测试和部署最新的模型在整个ML项目的生命周期中至关重要。优化成本性能比同样重要,我们要感谢英特尔赞助我们的免费基于CPU的推理解决方案。这是我们合作的又一个重要步骤。对于我们的用户社区来说,这也是一个好消息,他们现在可以免费享受到英特尔Xeon Ice Lake架构带来的加速。
现在,让我们来回顾一下您使用Hugging Face的推理选项。
免费推理小部件
在Hugging Face Hub上,我最喜欢的功能之一是推理小部件。在模型页面上,推理小部件允许您上传示例数据并在单击一次的同时进行预测。
这是一个使用entence-transformers/all-MiniLM-L6-v2模型的句子相似性示例:
这是快速了解模型功能、输出以及在数据集的一些样本上的性能的最佳方法。模型在我们的服务器上按需加载,并在不再需要时卸载。您无需编写任何代码,该功能是免费的。有什么不喜欢的呢?
免费推理API
推理API是推理小部件的内部功能。通过简单的HTTP请求,您可以加载任何hub模型并在几秒钟内预测数据。您只需要模型URL和有效的hub令牌。
这是如何在一行中加载和预测xlm-roberta-base
模型:
curl https://api-inference.huggingface.co/models/xlm-roberta-base \
-X POST \
-d '{"inputs": "宇宙的答案是<mask>."}' \
-H "Authorization: Bearer HF_TOKEN"
推理API是构建预测服务的最简单方式,您可以在开发和测试期间立即从应用程序中调用该服务。无需特定的API或模型服务器。此外,您可以立即从一个模型切换到另一个模型,并比较它们在应用程序中的性能。而且你知道吗?推理API是免费使用的。
由于强制执行速率限制,我们不建议将推理API用于生产。相反,您应该考虑使用推理终点。
使用推理终点进行生产
一旦您对ML模型的性能满意,就可以将其部署到生产环境。不幸的是,当离开沙箱时,一切都成为问题:安全性、扩展性、监控等。这是很多ML项目遇到的问题,有时可能会失败。我们构建了推理终点来解决这个问题。
仅需几次点击,推理终点可以让您在您选择的AWS或Azure区域中部署任何hub模型,以安全且可扩展的基础设施上。附加设置包括CPU和GPU托管、内置自动扩展等。这使得轻松找到适当的成本/性能比成为可能,定价从每小时0.06美元起。
推理终点支持三个安全级别:
-
公共:终点在Hugging Face的公共子网中运行,任何互联网用户都可以在不需要任何身份验证的情况下访问。
-
受保护:终点在Hugging Face的公共子网中运行,任何拥有适当的Hugging Face令牌的互联网用户都可以访问。
-
私有:终点在Hugging Face的私有子网中运行,无法通过互联网访问。它只能通过您AWS或Azure账户中的私有连接访问。这将满足最严格的合规要求。
想要了解更多关于推理端点的内容,请阅读本教程和文档。
Spaces
最后,Spaces 是另一个可用于部署模型进行推理的生产就绪选项,它基于一个简单的 UI 框架(例如 Gradio),我们还支持硬件升级,如先进的 Intel CPU 和 NVIDIA GPU。没有比这更好的方式来演示您的模型了!
想要了解更多关于 Spaces 的内容,请查阅文档,并随时浏览帖子或在我们的论坛上提问。
开始使用
操作非常简单。只需登录 Hugging Face hub 并浏览我们的模型。一旦找到您喜欢的模型,您可以直接在页面上尝试推理小部件。点击“部署”按钮,您将获得自动生成的代码,以便在免费的推理 API 上部署模型进行评估,并获得一个直接链接,可以使用推理端点或 Spaces 将其部署到生产环境中。
请尝试一下,并告诉我们您的想法。我们非常乐意在 Hugging Face 论坛上阅读您的反馈意见。
感谢您的阅读!