这份AI新闻简报是您所需要的全部内容 #74

您所需的完整AI新闻简报 #74

本周人工智能动态回顾 – Louie专栏

本周，OpenAI的一系列事件引起了广泛关注，不幸的是这掩盖了一些有趣的新模型发布。可以说，你已经跟随着这些曲折和转折的戏剧情节，我们就不在这里详细介绍了。总之，OpenAI的董事会在上周五突然解雇了首席执行官Sam Altman，没有提前通知关键员工或利益相关者。董事会对他的行为进行了解释，称Sam “在与董事会的沟通中不一直坦诚。”即便是到现在，他们也没有向OpenAI的员工、高管或微软提供明确的原因。按目前的情况，770名OpenAI员工中有747名已经联合签署了一封信给OpenAI董事会，表示如果董事会不辞职并重新聘用Sam和Greg，他们可能会辞职，跟随他们加入微软的新人工智能团队。这封信还由联合创始人Ilya Sutskever签署，他现在对自己参与董事会行动感到后悔。

在这一切中，最奇怪的是OpenAI董事会的沉默和他们的行动未能解释清楚，这使得他们的动机变得非常不清楚。更不可思议的是，董事会显然对OpenAI高管表示，允许这家公司崩溃“与使命是一致的。”

假设董事会的最初决定是基于人工智能安全、对项目商业化和投资者利润分享的紧张关系，以及对Sam的领导能力和与董事会的沟通问题。那么我们认为，对他们来说，允许OpenAI崩溃不利于他们的目标，相对来说让OpenAI继续以目前的形式生存下去更为明智。假设OpenAI员工纷纷离职加入微软（微软没有同样的人工智能安全措施），这也意味着将OpenAI未来潜在利润（超过盈利限额分配给OpenAI慈善机构的部分）转移到微软这家企业。Sam仍然会负责团队，并且将完全没有OpenAI董事会与之沟通的渠道！减缓OpenAI的发展也会给谷歌、Meta等竞争对手以及中国等其他国家提供迎头赶上甚至超越的机会，而在这些情况下，OpenAI董事会对于控制人工智能的未来权力将更加有限。

为什么你应该关注？

这些事件的重要性可能从无关紧要的硅谷政治事件到人工智能进展的六到十八个月的倒退甚至是地球未来的关键时刻都有可能。这要取决于你对以下问题的看法：

在当前LLM进展的轨迹中会遇到哪些阻碍，以及LLM技术真正对全球的影响有多大？
通用人工智能真的是一个风险吗？在当前阶段，构建对这一技术的安全保障应该是一个优先事项吗？
在微软内重新建立OpenAI的GPT4.5/5模型管道需要多长时间，包括（1）来自ChatGPT每周1亿活跃用户的RLHF数据集和持续的管道、（2）预训练数据集和（3）训练软件基础设施？
谷歌、Anthropic、Meta、xAi和其他公司发布GPT-4.5/5级别模型时落后了多少？
这是否会造成足够的动荡，使得中国在人工智能领域超过美国并影响地缘政治局势？
在大多数市场中，先到者为赢家的情况下，人工智能会是赢家吗？
OpenAI的慈善机构地位和人工智能安全保障真的设立的目的是造福人类并重新分配财富吗（在达到数千亿美元利润上限后）这会比微软等上市公司更好吗？

人工智能领域的领导方向、组织结构、文化和所在地可能具有全球意义，但我们还需要等待并观察一切的发展！

– Louie Peters — Towards AI联合创始人兼首席执行官

保持学习的五个5分钟阅读/视频

应用OpenAI的RAG策略

OpenAI的RAG模型结合了各种检索策略：余弦相似度、多重查询、回退提示、重写-检索-阅读和高效路由。本文详细介绍了Open AI在一系列RAG实验中使用的每种方法，并展示了如何实施每种方法。

2. 使用LoRA（低秩适应）进行细调的实用技巧

本文探讨了细调语言模型中使用低秩适应（LoRA）的实际步骤，提供了见解和建议。实验证明，LoRA可以节省内存使用，但增加运行时间。在所有层上使用LoRA，调整秩和α值可以提高模型性能。

3. 2023年开始和提高LLM技能的完全指南

这是一个完整的指南，旨在帮助您在2023年开始和提高LLM技能，无需先进的背景知识，并与最新的新闻和最先进的技术保持同步。适用于具有一定编程和机器学习背景的任何人。

4. 根据DeepMind的说法，我们离实现AGI有多远

来自谷歌DeepMind的科学家团队提出了一种对AGI系统及其前体的能力和行为进行分类的新框架。本文探讨了该框架，包括衡量人工智能的标准、衡量性能和普适性的矩阵和衡量自主性和风险的另一个矩阵。

5. OpenAI的身份危机与AI未来之战

这篇文章对Open AI近期发生的一系列事件进行了阐述和评论。据作者称，AI安全与市场势头之间的平衡问题是解雇Sam Altman的决定中的一个因素。

代码库与工具

explodinggradients/ragas

Ragas是一个框架，可帮助您评估检索增强生成（RAG）流程。 RAG表示一类使用外部数据增强LLM上下文的应用程序。

2. abi / screenshot-to-code

该应用程序可将屏幕截图转换为HTML / Tailwind CSS。它使用GPT-4 Vision生成代码，使用DALL-E 3生成相似的图像。

3. Netmind Power

Netmind Power是一个分散式的机器学习和AI平台。您可以在该平台上训练自己的模型，他们将为您找到计算资源并分发代码。

4. BuilderIO / gpt-crawler

GPT Crawler可让您提供一个站点URL，它将对其进行爬行并用作GPT的知识库。您可以共享此GPT或将其集成为自定义助手到您的网站和应用程序中。

本周热门论文

比较人类、GPT-4和GPT-4V在抽象和推理任务上的表现

该研究使用ConceptARC基准测试比较了GPT-4及其多模式版本GPT-4V在抽象和推理任务方面与人类的表现。结果显示，即使使用了详细的一次性提示和简化的图像任务，两个版本的GPT-4都无法达到人类水平的抽象推理。

2. GPT-4V在仙境中：用于零射击智能手机GUI导航的大型多模式模型

本文介绍了MM-Navigator，它是一个基于GPT-4V的智能代理，使用大型多模式模型在智能手机上成功执行零射击GUI导航。它在理解和执行iOS屏幕指令方面表现出很高的准确性。

3. 代码的语言模型综述

这份综合性调查探讨了使用语言模型进行代码处理的发展和进展。它涵盖了50多种模型、30个评估任务和500项相关工作，重点关注通用语言和在代码上训练的专门模型。该调查报告开放并在GitHub代码库上更新。

4. Chain-of-Note：增强检索增强语言模型的鲁棒性

检索增强语言模型（RALM）可以增强语言模型的能力，但由于不可靠的检索信息，它们可能会生成误导性的响应。一种新方法Chain-of-Noting（CoN）生成顺序阅读笔记，评估文档相关性并改进RALM的响应。

快速链接

Meta宣布Emu Video和Emu Edit，它们是最新的AI图像编辑和视频生成突破。 EMU于9月份宣布，现在正在投入使用，为Meta AI的Imagine功能提供动力。
NVIDIA宣布通过引入NVIDIA HGX™ H200将全球领先的AI计算平台强化了。该平台配备了具有先进内存的NVIDIA H200 Tensor Core GPU。
IBM通过新的可持续项目和绿色技术技能的免费培训进一步承诺气候行动，以帮助脆弱社区。