遇见ChatGLM2-6B 开源双语(中英文)聊天模型ChatGLM-6B的第二代版本
自OpenAI推出了革命性的ChatGPT以来,该产品以最快的速度获得了1亿用户,自然语言对话代理领域取得了可观的进展。研究人员正在积极探索各种技术和策略,以增强聊天机器人模型的功能,使其能够与用户进行更自然和吸引人的互动。因此,市场上发布了几个开源且轻量级的ChatGPT替代品之一,其中之一是中国清华大学研究人员开发的ChatGLM模型系列。这个系列基于通用语言模型(GLM)框架,与更常见的生成式预训练转换器(GPT)组的LLM有所不同。该系列包括几个中英双语模型,其中最知名的是ChatGLM-6B,具有62亿个参数。该模型已经在超过1万亿个英文和中文标记上进行了预训练,并且还使用了强化学习和人类反馈等技术,进一步进行了中文问答、摘要和对话任务的微调。
ChatGLM-6B的另一个显著特点是,由于其量化技术,它可以在本地部署,并且需要非常少的资源。该模型甚至可以在消费级图形卡上进行本地部署。它在中国尤其受欢迎,全球下载量超过200万次,成为最有影响力的大规模开源模型之一。由于广泛应用,清华大学的研究人员发布了ChatGLM2-6B,双语聊天模型的第二代版本。ChatGLM2-6B包括了第一代模型的所有优点,以及新增加的一些功能,例如性能改进、对更长上下文的支持和更高效的推理。此外,研究团队还将模型权重的使用范围扩展到学术目的之外,使其可用于商业用途。
作为起点,研究人员将ChatGLM2-6B的基础模型与第一代版本进行了比较。ChatGLM2-6B使用GLM的混合目标函数,并且已经在超过1.4万亿个英文和中文标记上进行了预训练。研究人员评估了他们的模型在市场上大小约相同的其他竞争模型上的性能。结果显示,ChatGLM2-6B在MMLU、CEval、BBH等各种数据集上均取得了显著的性能改进。ChatGLM2-6B展示的另一个令人印象深刻的升级是对更长上下文的支持,从上一版本的2K提高到32K。FlashAttention算法在此方面发挥了重要作用,它加快了注意力并减少了注意力层对于甚至更长序列的内存消耗。此外,模型在对话对齐过程中的上下文长度为8K,以提供更多的对话深度。ChatGLM2-6B还使用了多查询注意力技术,从而成功实现了较低的GPU内存使用率和约42%的推理速度提升,相比第一代模型。
清华大学的研究人员已经开源了ChatGLM2-6B,希望鼓励全球的开发人员和研究人员推动LLM的增长和创新,并基于该模型开发出多个有用的应用程序。然而,研究人员也强调了一个事实,即由于模型规模较小,其决策往往会受到随机性的影响,因此必须仔细核对其输出的准确性。在未来的工作中,团队已经迈出了一步,并开始研究模型的第三个版本ChatGLM3。