“LLM能够在您的iPhone上运行吗?认识MLC-LLM:这是一个开放框架,可以直接将语言模型(LLMs)带入一类带有GPU加速的平台”
MLC-LLM是一个开放框架,可在带有GPU加速的平台上运行语言模型(LLMs)
大型语言模型(LLM)是人工智能领域当前的热门话题。在医疗保健、金融、教育、娱乐等广泛行业中已经取得了相当程度的进展。著名的大型语言模型如GPT、DALLE和BERT执行出色的任务,为人们的生活带来便利。GPT-3能够完成代码,像人类一样回答问题,并仅凭简短的自然语言提示生成内容,而DALLE 2可以根据简单的文本描述创建图像。这些模型正在对人工智能和机器学习进行一些巨大的转变,并帮助它们经历一次范式转变。
随着越来越多的模型的发展,需要强大的服务器来满足它们的广泛计算、内存和硬件加速需求。为了使这些模型变得超级有效和高效,它们应该能够独立运行在消费者设备上,这将增加它们的可访问性和可用性,并使用户能够在个人设备上访问强大的人工智能工具,而无需互联网连接或依赖云服务器。最近,MLC-LLM被引入,它是一个开放的框架,将LLM直接引入到像CUDA、Vulkan和Metal这样的广泛平台中,而且还可以通过GPU加速。
MLC LLM使语言模型能够在各种硬件后端上原生部署,包括CPU和GPU以及本地应用程序。这意味着任何语言模型都可以在本地设备上运行,而无需服务器或基于云的基础架构。MLC LLM提供了一个高效的框架,允许开发人员为自己的用例(如自然语言处理或计算机视觉)优化模型性能。它甚至可以使用本地GPU加速,使得在个人设备上运行复杂模型成为可能,同时保持高精度和速度。
- 一种新的人工智能理论框架,用于分析和限制机器学习模型中的信息泄漏
- 小心阴影:人工智能和黑暗模式在我们的数字生活中
- 扩散模型在图像分类中胜过生成对抗网络(GANs):这项人工智能研究发现,扩散模型在分类任务中表现优于类似的生成-判别方法,如BigBiGAN
为iPhone、Windows、Linux、Mac和Web浏览器提供了在设备上原生运行LLM和聊天机器人的具体指令。对于iPhone用户,MLC LLM提供了一个可以通过TestFlight页面安装的iOS聊天应用。该应用程序需要至少6GB的内存才能顺畅运行,并且已经在iPhone 14 Pro Max和iPhone 12 Pro上进行了测试。iOS应用程序上的文本生成速度有时可能不稳定,在开始时可能运行缓慢,然后恢复到正常速度。
对于Windows、Linux和Mac用户,MLC LLM提供了一个命令行界面(CLI)应用程序,在终端中与机器人进行聊天。在安装CLI应用程序之前,用户应该安装一些依赖项,包括Conda来管理应用程序以及Windows和Linux上的NVIDIA GPU用户的最新Vulkan驱动程序。安装完依赖项后,用户可以按照说明安装CLI应用程序并开始与机器人聊天。对于Web浏览器用户,MLC LLM提供了一个名为WebLLM的附属项目,将模型原生部署到浏览器中。一切都在浏览器内部运行,无需服务器支持,并通过WebGPU加速。
总之,MLC LLM是在各种硬件后端和本地应用程序上原生部署LLM的令人难以置信的通用解决方案。对于希望构建可以在各种设备和硬件配置上运行的模型的开发人员来说,这是一个很好的选择。