使用Hugging Face Optimum将Transformers转换为ONNX

将Transformers转换为ONNX,使用Hugging Face Optimum

每天都有数百个 Transformers 实验和模型上传到 Hugging Face Hub。进行这些实验的机器学习工程师和学生使用各种框架,如PyTorch、TensorFlow/Keras或其他。这些模型已经被成千上万家公司使用,并成为AI驱动产品的基础。

如果你在生产环境中部署 Transformers 模型,我们建议首先将它们导出为序列化格式,以便在专用运行时和硬件上加载、优化和执行。

在本指南中,您将了解以下内容:

  1. 什么是ONNX?
  2. 什么是Hugging Face Optimum?
  3. 支持哪些 Transformers 架构?
  4. 如何将 Transformers 模型(BERT)转换为ONNX?
  5. 下一步是什么?

让我们开始吧!🚀


如果您有兴趣将模型优化以实现最大效率,请查看 🤗 Optimum 库。

5. 下一步是什么?

由于您成功将 Transformers 模型转换为 ONNX,现在可以使用整套优化和量化工具。可能的下一步可以是:

  • 使用 onnx 模型进行加速推理,结合 Optimum 和 Transformers Pipelines
  • 对您的模型应用静态量化以提高延迟约3倍
  • 使用 ONNX 运行时进行训练
  • 将您的 ONNX 模型转换为 TensorRT 以提高 GPU 性能

如果您有兴趣将模型优化以实现最大效率,请查看 🤗 Optimum 库。


感谢阅读!如果您有任何问题,请随时通过 Github 或论坛与我联系。您还可以在 Twitter 或 LinkedIn 上联系我。