这个AI通讯简报就是你所需要的 #77
这个AI通讯简报将带给你所需的一切 #77
本周AI动态回顾(Louie)
本周AI领域的新闻主要集中在Google(Gemini)和Mistral(8x7B)发布的新型大型语言模型。模型发布的方式大相径庭(发布会和演示视频 vs. 单条推文中的模型权重种子下载链接),体现了模型发布的不同理念和方式(闭源API vs. 开源)。这两个模型都非常重要——Google宣布了首个与GPT-4相媲美的LLM竞争对手,而Mistral发布了一个功能强大的开源Mixture of Experts模型。
Google的Gemini模型拥有一些令人惊叹的功能和基准分数,同时也引发了一些争议。该模型在多模态方面表现出色,在大部分基准测试中结果优于GPT-4,而在文本和代码基准测试方面的相对性能更为接近和混合。特别是Gemini的多模态功能更加内嵌,而GPT-4经常会访问Dalle-3等外部模型。 “Gemini模型的视觉编码受到我们自己关于Flamingo的基础工作的启发……但实现的细节仍不清楚。”
Gemini的两个较小模型已经在许多Google产品中投入使用。然而,最有趣且功能强大的Ultra模型仍在进一步测试中。Gemini模型发布后引发了一些争议,因为人们发现一个关于多模态视频分析能力的演示视频具有误导性。虽然我们认为这是一个令人尴尬和不必要的错误,但这并不影响Google和Deepmind工程师在这个看起来是前沿模型上的出色工作。
Mistral通过一系列不起眼的推文种子下载方式发布了其8x7B稀疏的专家模型(SMoE),与Google的争议形成了鲜明对比。虽然这不是第一个开源MoE模型,但它是最有能力和最全面的一个。测试结果已经显示出与更大模型相比令人印象深刻的能力。MoE模型是相对于以前主导的密集Transformer架构的重要发展,对训练、推断效率和功能都有潜在的好处。值得注意的是,广泛认为GPT-4是MoE模型,而Gemini架构并没有详细披露。
你为什么要关注?
随着Gemini的发布,我们非常高兴看到一个能够平衡生态系统、作为GPT-4的替代品的竞争对手出现。对于随着LLM模型在商业产品中的进一步推广,拥有一个高性能的多模态LLM作为GPT-4的备份是非常重要的。
Mistral模型的引入更接近于GPT 3.5类而非GPT-4。该发布非常重要,因为它有潜力在开源领域推动创新,让更多人能够尝试微调和构建Mixture of Experts(MoE)模型。
– Louie Peters – Towards AI联合创始人兼首席执行官
热门新闻
Google推出了三种规模的新模型Gemini:Ultra、Pro和Nano。Gemini是原生多模态的,在各种学术基准测试中表现出色。值得注意的是,Gemini Ultra在多任务语言理解测试中取得了突破性成绩,并在图像基准测试中表现出色,没依赖于OCR系统。
Mixtral 8x7B是一种稀疏的专家模型(SMoE),具有开放的权重。该模型兼容多种语言,上下文为32k个令牌。它可以被微调为一个遵循指令的模型。Mixtral 8x7B在大多数基准测试中表现优异,推理速度比Llama 2 70B快6倍。
欧盟官员达成了一项具有里程碑意义的协议,制定了全球最雄心勃勃的人工智能法律法规,为在未遵守的情况下对科技公司进行风险分类、强制透明度并处以经济处罚打下了基础。欧洲的AI法案确保AI的进步伴随监测,并禁止最高风险的使用。
谷歌承认其华丽的 Gemini 演示视频经过了大量的编辑和提示,以使模型看起来更令人印象深刻。据彭宇彤在彭博社报道,研究人员将静止图像馈送给模型,并将成功的回应编辑在一起,部分夸大了模型的能力。
5. Stability AI 推出 StableLM Zephyr 3B
StableLM Zephyr 3B 是一个新的 30 亿参数的聊天模型,作为 StableLM 3B-4e1t 模型的延续,从 Zephyr 7B 模型中汲取灵感。它专为高效的文本生成而设计,尤其适用于遵循指示和问答环境,并使用直接优化偏好算法在多个数据集上进行了精细调整。
你对 Gemini 演示有什么想法?在评论中分享吧!
五个 5 分钟阅读/视频,让你持续学习
在 2023 年,人工智能研究中的大型语言模型(LLM)取得了显著进展。本文提供了人工智能变革性研究的一瞥,在其中,语言模型得到了改进、简化,并与外部工具集成,以应对各种任务。
最新版本的 Claude (Claude 2.1) 有 20 万个令牌的上下文窗口,可以有效地回忆信息。然而,它在回答基于注入或错位于文档中的单个句子的问题时可能会犹豫不决。这篇博文中的实验使用了提示技术,引导 Claude 回忆最相关的句子。
3. RAG 与 GPT-4 中的上下文窗口:准确性、成本和延迟
作者在这篇文章中对 RAG 和 GPT-4 Turbo 的上下文窗口进行了 “大海捞针” 压力测试,并对准确性、成本和延迟三个关键指标进行了基准测试。他们比较了两种不同的 RAG 流水线:Llama-Index 和 OpenAI 的新助手 API 检索工具。结果显示,RAG 的性能更好,成本只有 4%。
谷歌在 Gemini 的博客中解释了研究人员是如何通过向模型展示图像以及提示它给出正确答案的方式进行多模式提示。这是一个了解 Gemini 可能性的良好入门指南。
5. StripedHyena-7B,开源模型 展示了变形金刚之外的世界
这篇博客介绍了一种用于长文本、改进训练和推理性能的新架构,相较于变形金刚架构,StripedHyena采用了我们最新的高效架构的扩展定律研究。
资源和工具
1. MotionDirector可以自定义文本到视频扩散模型,生成具有所需动作的视频。
2. Taskade定制AI代理是一套五个AI工具,旨在自动化日常活动,如研究、任务管理和内容创建。
3. Practical-tutorials/基于项目的学习是一个被策划的、使用不同主要编程语言的基于项目的编程教程清单。
4. Mamba Chat是一种基于状态空间模型架构的聊天语言模型。与相似规模的变换器相比,它具有更好的检索能力。
本周热门论文
一项研究探讨了“嵌入反演”概念,以从密集文本嵌入中重建完整的文本。研究人员使用多步方法,在生成受控文本方面取得了很高的成功率。该研究还揭示了从文本嵌入中提取敏感个人数据的潜力,强调了机器学习中改进隐私保护措施的必要性。
该研究引入了Mamba,一种硬件感知的并行算法,克服了变换器在处理语言处理任务中处理长序列时的低效。通过实现选择性状态空间,Mamba实现了快速推理、线性可扩展性,与更大规模的变换器模型相比性能竞争力较强。
本文提出了利用多视角深度的扩散模型MVDD在二维数据格式中表示复杂的三维形状。它可以生成具有细节的高质量、密集的点云,点数达到20K+。
DiffuSSM是一个旨在加速生成高分辨率图像的扩散模型的新模型,而无需牺牲细节质量。它用可扩展的状态空间模型骨干替换了注意力机制,在ImageNet和LSUN数据集上提高了性能,同时节省了计算资源。
SparQ注意力是一种通过减少内存带宽需求来增强大型语言模型效率的技术。它不需要对预训练或微调进行更改,并且在不损害准确性的情况下,大大减少了注意力内存需求。
快速链接
1.X.AI,埃隆·马斯克的人工智能初创公司将进行最高10亿美元的股权发行。根据SEC的文件显示,该公司已从四家投资者处融资将近1.35亿美元,首次销售发生在11月29日。
2. Meta推出了紫色羊驼,这是一个旨在为构建安全和可靠的生成式AI体验提供公平竞争环境的新项目。它以授予许可的工具、评估和用于研究和商业用途的模型作为起步。
3. IBM和Meta一同组建AI联盟,拥有50多个创始成员和合作伙伴。该联盟旨在推广AI项目,制定基准,增强开放模型,并确保安全和有益的AI发展。
谁在招聘AI人才
高级全栈软件工程师@Ledger Investing(远程工作)
技术产品经理@InStride Health(波士顿,美国)
云工程师@Dark Wolf Solutions(墨尔本,佛罗里达州,美国)
软件工程师-API/身份管理@Paidy Inc/Paidy(东京,日本)
有兴趣在此分享一个工作机会吗?联系 [email protected]。
如果您正在准备下一次机器学习面试,请毫不犹豫地访问我们领先的面试准备网站 confetti!
认为你的朋友也会喜欢这个?分享这份新闻稿并让他们加入对话。