这份AI通讯简报是你所需要的 #57

AI通讯简报 #57

本周AI动态

本周AI领域,LLM模型性能评估成为焦点话题。尤其是关于由斯坦福大学和伯克利学生进行的最新研究引发了激烈辩论。该研究提供了证据表明GPT-4模型的性能可能会下降,俗称为“变笨”。研究论文提供了一系列评估结果,如3月份的素数识别准确率从97.6%下降到6月份的2.4%,解决编码问题的准确率从52%下降到10%。

这引发了许多讨论,包括OpenAI是否将推理速度和成本置于模型性能之上。关于这些声明的准确性也存在持续的讨论。一些发现表明,后期模型通过改变输出格式可以显著提高性能。此外,另一项评估表明,无论是API的哪个版本,在素数分类问题上都无法超过纯粹的随机猜测。针对这些新发现,论文的作者澄清了他们的意图,表示实验的目的并不是证明OpenAI API的质量下降。相反,他们试图揭示模型的不稳定性问题,并提高人们对模型响应变化时应用程序崩溃的潜在风险的认识。此外,OpenAI在一篇博文中回应了这些声明,并向用户保证他们正在采取措施提高API的稳定性。他们提供了开发者指定和使用特定模型版本的功能,从而在应用程序中提供更多的控制和可预测性。

在本周关于GPT-4评估的另一项积极消息中,一项针对临床案例考试的独立研究将GPT-4与医学生进行了比较,结果显示GPT-4的表现超过了斯坦福大学一、二年级的学生。研究指出,他们没有使用任何特殊的提示技术。其中一位作者在Twitter上分享了有关研究结果的见解,引发了关于重新思考学生评估未来的讨论。

我们发现这两篇论文都很有趣,而GPT-4性能可能下降的可能性引发了重要的讨论。对于使用LLM API的商业化产品领域来说,LLM在特定任务和特定提示下的性能变化和不稳定性是开发者和公司面临的新挑战。对于潜在的医疗应用来说,这一点尤为重要!我们还相信,我们需要更多关于LLM评估标准的工作,包括对新的开源LLM(如Llama 2)的性能进行准确和一致的基准测试。

– Louie Peters — Towards AI联合创始人兼首席执行官

本期内容由以下赞助商提供:

https://ai4.io/usa/?

请加入我们参加业界领先的人工智能会议Ai4 2023,于8月7日至9日在拉斯维加斯的MGM Grand举行。这是您最后一个机会,加入2200多位AI领袖、240位演讲者和100个前沿AI展览。申请免费门票或立即注册以节省最终价格的12%。

热门新闻

  1. Meta发布Llama 2

Meta发布了Llama-2,这是一个带有商业许可的开源模型,其性能类似于ChatGPT。Llama-2在2T令牌上进行训练,并通过指导和强化学习的组合进行了进一步的微调和改进,其性能超过了其他开源模型,如Falcon和MPT。

2. 宣布LangSmith:LLM应用的统一平台

LangChain开发了LangSmith,这是一个旨在帮助开发者消除原型和生产之间差距的平台。通过提供必要的调试、测试、评估和监控功能,LangSmith帮助AI专业人员识别和解决意外结果、错误和延迟等问题。

3. 苹果正在测试类似ChatGPT的AI聊天机器人

苹果正在开发名为“Apple GPT”的聊天机器人,旨在挑战OpenAI和谷歌。尽管最初存在安全担忧,但现在这个聊天机器人对苹果员工的使用范围更广,用于原型设计,但使用受限,不允许有针对客户的功能。

4. Cerebras Systems与阿联酋G42签署了一项价值1亿美元的人工智能超级计算机交易

Cerebras Systems宣布与G42达成了一项价值1亿美元的交易,标志着人工智能超级计算机将有可能挑战Nvidia在市场上的地位。为了加快推出速度,Cerebras将在美国建造三个Condor Galaxy系统,第一台超级计算机计划于今年投入运行。

5. ChatGPT的定制指令

OpenAI正在引入ChatGPT的个性化定制指令,使用户能够获得更加个性化和适应性强的体验。这一功能强调了定制化在满足不同需求方面的重要性。定制指令将逐步向所有用户推出,首先向Plus计划订阅者提供测试版访问权限。

五个5分钟的阅读/视频,让您持续学习

  1. LLaMa 2 – 您所需的每个资源

这篇博客文章包含了所有相关资源,以帮助您开始使用LLaMa 2。它整理了诸如“什么是LLaMa 2”,您可以在哪里测试模型,模型背后的研究,模型的表现如何,如何正确地提示聊天模型等主题。

2. AI中的幻觉

AI中的幻觉推动了围绕基础模型和开源的夸张叙事。很难知道该相信什么和信任谁。这篇来自John Luttig的深入阅读探讨了一些在AI中容易被曲解或完全错误的叙事和趋势。

3. 构建一个AI WebTV

AI WebTV项目展示了像Zeroscope和MusicGen这样的文本到视频模型在生成娱乐视频方面的潜力。它使用Hugging Face服务创建,利用ChatGPT、Zeroscope V2和FILM的组合来创建带有配乐的高质量视频剪辑。

4. 害怕错误的事情

Mike Loukides认为,唯一值得担心的是无法过渡到AI辅助编程。他一直在谈论和写作关于编程的终结,但这在实践中意味着什么呢?在这篇文章中,Mike分享了为什么以及如何使用AI将改变整个学科。

5. 如何确保AI视觉的一致性

本教程着重于生成AI视觉的一致性。它提供了在稳定扩散、中途和InsightFace中实现一致性控制的基本和高级技术。

论文和知识库

  1. FlashAttention-2:更快的注意力与更好的并行性和工作分区

斯坦福大学推出了FlashAttention-2算法,它加快了语言模型中的注意力并减少了内存使用。更新版本比原版本快2倍,并通过更好的并行性和工作分区技术实现了更好的性能。

2. 在中间迷失:语言模型如何使用长上下文

这项研究调查了语言模型在利用扩展上下文进行问答和检索等任务时的性能。虽然模型在找到输入开头或结尾的相关信息方面表现出色,但在访问长上下文的中间部分时,它们的性能下降。这项研究强调了有效利用长上下文的挑战,并强调了未来在这个领域改进的必要性。

3. 朝着统一的基础模型代理

研究人员发现,在强化学习代理中结合语言模型和视觉语言模型可以解决该领域的重大挑战。通过利用这些模型中存储的知识,代理可以有效地探索稀疏奖励环境,重复使用学习数据,为新任务安排技能,并从专家观察中学习。

4. 学习为大型语言模型检索上下文示例

研究人员开发了一个框架,利用密集检索器自动选择用于LLM上下文学习的高质量示例。实验结果表明,通过检索相似和上下文相关的示例,该框架提高了LLM的性能。

5. ChatGPT的行为如何随时间变化?

一项研究调查了GPT-3.5和GPT-4在不同任务上随时间的性能。研究发现它们的行为存在一些显著变化,GPT-4在2023年3月至6月期间在识别质数方面的准确性下降。此外,两个模型在代码生成过程中的格式错误率增加。

喜欢这些论文和新闻摘要吗?每天在您的收件箱中获取摘要!

学习AI Together社区部分!

本周的梗图!

由rucha8062分享的梗图

来自Discord的精选社区帖子

Louvivien开发了一个开源的AI交易应用程序,可以无缝连接到Alpaca,使用户能够访问持仓、订单和进行股票交易。使用这个应用程序,用户可以导入协作交易策略并高效地管理AI交易资金。您可以在GitHub上探索这个项目,并支持其他社区成员。对于那些对AI交易感兴趣的人,您可以通过在此线程上连接来加入这个开源项目。

本周的AI投票!

在Discord上参与讨论。

TAI精选部分

本周文章

通过Boris Meinardus解读Fixing SimCLR的最大问题 — BYOL Paper

SimCLR成功实现了对比学习的思想,并在当时取得了新的最先进的性能。然而,该思想存在根本性的弱点,比如对特定增强的敏感性和对非常大的批量大小的要求。DeepMind的研究人员开发的一种名为Bootstrap Your Own Latent (BYOL)的全新自监督学习方法,实现了对自监督模型训练的全新方法。

我们的必读文章

通过Pere Martra利用向量数据库的力量:用个性化信息影响语言模型

通过Mastafa Foufa在非欧几里德空间中进行机器学习

通过Youssef Hosni了解10/7到16/7的顶级计算机视觉论文

通过Esmaeil Alizadeh将数据科学加速:ChatGPT代码解释器作为您的AI助手

如果您有兴趣在Towards AI上发表文章,请查看我们的指南并注册。如果符合我们的编辑政策和标准,我们将在我们的网络上发布您的作品。

职位空缺

内容主管+开发者关系 @ngrok Inc. (远程)

高级后端工程师 @远程 (远程)

高级基础架构软件工程师 @ClickHouse (远程)

产品开发人员 @Shiru (加利福尼亚州阿拉米达,美国)

高级软件测试工程师 @Clari (印度班加罗尔)

产品工程师 @Encord (英国伦敦)

有兴趣在此发布职位机会吗?请联系[email protected]

如果您正在准备下一次机器学习面试,请不要犹豫,参考我们领先的面试准备网站confetti!