Learn more about Technical blog

Acme：一种新的分布式强化学习框架

Acme是一个用于构建可读性强、高效、研究导向的强化学习算法的框架Acme的核心设计是为了实现对RL代理的简单描述，并能够在不...

Technical blog

dm_control：连续控制的软件和任务

dm_control 软件包是一个用于关节体仿真中的强化学习代理的 Python 库和任务套件集合MuJoCo 封装器提供了方便的函数和数据结...

Technical blog

模拟交互智能

我们首先创建了一个模拟环境，名为Playroom，虚拟机器人可以在其中进行各种有趣的互动，包括移动、操作物体和相互交流Playroo...

Technical blog

熔炉：多智能体强化学习评估套件

在这里，我们介绍了Melting Pot，这是一个可扩展的多智能体强化学习评估套件Melting Pot评估了在涉及熟悉和陌生个体的新型社...

Technical blog

关于马尔可夫回报的表达能力

我们的主要结果表明，尽管奖励可以表达许多任务，但存在每种任务类型的实例，无法通过马尔可夫奖励函数捕捉然后，我们提供了...

Technical blog

使用模仿学习创建交互式代理

我们展示了在模拟世界中通过模仿人际互动学习，结合自监督学习，足以产生一个多模态交互智能体，我们称之为MIA该智能体成功与...

Technical blog

通过从数万亿个标记中检索来改进语言模型

我们探索了一种改进语言模型的替代路径：我们通过在包括网页、书籍、新闻和代码的文本段落数据库上进行检索来增强Transformer...

Technical blog

虚假规范性增强了人工智能代理的合规和执行行为的学习

在我们最近的论文中，我们探讨了多智能体深度强化学习如何作为复杂社会互动的模型，例如社会规范的形成这一新的模型类别可以...

Technical blog

用语言模型对语言模型进行红队测试

在我们最近的论文中，我们展示了通过使用语言模型自身生成输入，可以自动找到触发有害文本的输入的可能性我们的方法为在用户...

Technical blog

探究图像-语言变换器对动词理解的作用

多模态图像-语言转换器在依赖微调的各种任务上取得了令人印象深刻的结果（例如，视觉问答和图像检索）我们对它们预训练表示的...

Technical blog

GopherCite：教授语言模型使用验证过的引用来支持答案

像Gopher这样的语言模型可以“产生幻觉”，虚构出看似可信但实际上是虚假的事实熟悉这个问题的人会进行自己的事实核查，而不是...

Technical blog

计算最优的大型语言模型训练的实证分析

我们提出了一个问题：“在给定的计算预算下，最佳的模型大小和训练标记数量是多少？”为了回答这个问题，我们训练了各种大小和...

Technical blog

AI对于桌游《外交》的应用

在历史上，成功的沟通和合作对于帮助社会进步至关重要棋盘游戏的封闭环境可以作为模拟和研究互动和沟通的沙盒，我们可以从中...

Technical blog

通过尺度解锁高准确性差分隐私图像分类

根据先前的实证证据，DP-SGD中的效用降低在更大的神经网络模型上变得更加严重，包括那些经常用于在具有挑战性的图像分类基准...

Technical blog

BYOL-Explore：使用引导预测进行探索

我们提出了BYOL-Explore，这是一种在视觉复杂环境中基于好奇心驱动的探索的概念简单而通用的方法通过在潜在空间中优化单一预...

Technical blog

以民主人工智能为基础的以人为中心的机制设计

在我们最近发表在《自然人类行为》杂志上的论文中，我们提供了一个概念验证的演示，即深度强化学习（RL）可以用于通过简单的...

Technical blog

感知器AR：通用的、具有长上下文的自回归生成

我们开发了Perceiver AR，这是一种自回归、模态不可知的架构，使用交叉注意力将远程输入映射到少量的潜变量，同时保持端到端...

Technical blog

发现系统中代理存在的时候

我们希望构建安全、符合设计者意图的人工通用智能（AGI）系统因果影响图（CIDs）是一种对决策情境进行建模的方式，它允许我们...

Technical blog

与人工智能对话：构建更好的语言模型

我们的新论文《与人工智能对话：将语言模型与人类价值观对齐》探索了一种不同的方法，即探讨人类与人工对话代理之间的成功沟...

Technical blog

如何通过正确的奖励机制产生不希望的目标

随着我们构建越来越先进的人工智能（AI）系统，我们希望确保它们不会追求不希望的目标AI代理的这种行为通常是由于规范游戏导...

Technical blog