使用C优化LLMs,并在您的笔记本电脑上运行GPT、Lama和Whisper
使用C优化LLMs,在笔记本电脑上运行GPT、Lama和Whisper
在这篇首篇文章中,我们将深入探讨由Georgi Gerganov创建的令人惊叹的张量库ggml。它是如何工作的?张量的创建过程是怎样的?我们可以从一些简单的例子开始吗?

目录
- 实现一个简单的数学函数1.1 上下文的定义1.2 初始化张量1.3 前向计算和计算图1.4 编译和运行
- 对这一部分的最终评论
- 支持我的写作
大型语言模型(LLM)正在到处炒作。报纸花费了大量篇幅来描述一个新的即将到来的世界,确保“人工智能终于来了”。尽管LLM对我们的生活产生了明显影响,但我们必须冷静地对整个情况进行批判性分析。LLM的炒作让我想起几年前“数据科学家”工作的炒作。早在2014年,当我开始我的博士学位时,我看到数据科学家的职位数量稳步增长,达到了2018年左右的高峰。当时,新闻又再次炒作,写道:“数据科学家:100万美元的职业”或“21世纪最性感的工作”——这些标题听起来对LLM的标题很熟悉吗?
一方面,LLM是一项伟大的技术,是向更通用的人工智能框架迈进的一步。这些模型是深入研究人工智能的起点,我相信未来大多数应用和技术都将依赖这些模型。然而,我经常看到,包括VoAGI在内,有时对这些模型的理解缺乏清晰度。尽管它们具有强大的能力和出色的结果,但这些模型过于庞大,难以轻松运行或训练。因此,在决定任何战略业务方向之前,公司需要对LLM非常了解。其中最重要的一点是这些模型具有巨大的内存成本,它们需要用于训练的大型基础设施和推断所需的昂贵基础设施。
如果我们考虑基本的LLM结构,即transformer,我们可以认识到经典的编码器-解码器结构。在推断时,解码器需要具有内存机制来建立…





