MuZero从研究步入现实世界的第一步
MuZero迈入现实世界的第一步
与YouTube合作,优化开源VP9编解码器中的视频压缩。
2016年,我们推出了AlphaGo,这是第一个能够在古老的围棋游戏中战胜人类的人工智能程序。它的后继者,AlphaZero和MuZero,每一次都代表了通用算法追求的重要进步,能够在更少的预定义知识下掌握更多的游戏。例如,MuZero在不需要被告知规则的情况下,掌握了国际象棋、围棋、将棋和Atari游戏。但到目前为止,这些智能体都专注于解决游戏问题。为了解决DeepMind解决智能的任务,MuZero迈出了迈向掌握真实世界任务的第一步,即优化YouTube上的视频。
在arXiv上发表的一篇预印本中,我们详细介绍了我们与YouTube的合作,探索MuZero改进视频压缩的潜力。分析师预测,流媒体视频将占据2021年互联网流量的绝大部分。随着视频在COVID-19大流行期间激增,未来互联网流量的总量预计将增长,视频压缩成为一个越来越重要的问题,也是一个自然的领域,可以应用强化学习(RL)改进这一具有挑战性的领域的最新技术。自从在YouTube的一部分实时流量中投入使用以来,我们已经在大量多样化的视频中实现了平均4%的比特率降低。
大多数在线视频依赖于称为编码器的程序,在视频源处对视频进行压缩或编码,通过互联网传输到观众端,然后进行解压缩或解码以进行播放。这些编码器为视频的每一帧做出多个决策。经过几十年的手工工程优化,这些编码器为互联网上现有的许多视频体验做出了贡献,包括视频点播、视频通话、视频游戏和虚拟现实。然而,由于强化学习特别适用于像编码器中的连续决策问题,我们正在探索如何利用强化学习学习的算法来改进编码器。
我们最初的重点是VP9编码器(具体是开源版本libvpx),因为它被YouTube和其他流媒体服务广泛使用。与其他编码器一样,使用VP9的服务提供商需要考虑比特率 – 发送每一帧视频所需的1和0的数量。比特率是确定提供和存储视频所需的计算和带宽量的主要因素,影响视频加载所需的时间、分辨率、缓冲和数据使用量等方面。

在VP9中,比特率最直接通过速率控制模块中的量化参数(QP)进行优化。对于每一帧,该参数确定要应用的压缩级别。根据目标比特率,逐帧决定视频帧的QP,以最大化整体视频质量。直观地说,对于复杂场景应分配较高的比特率(较低的QP),对于静态场景应分配较低的比特率(较高的QP)。QP选择算法推理出视频帧的QP值如何影响其余视频帧的比特率分配和整体视频质量。强化学习在解决此类连续决策问题方面特别有帮助。

MuZero通过将搜索的能力与学习环境模型和相应规划的能力相结合,实现了在各种任务中超越人类的表现。这在大型组合行动空间中特别有效,使其成为视频压缩中速率控制问题的理想解决方案。然而,要使MuZero在这个真实世界应用中发挥作用,需要解决一整套全新的问题。例如,上传到YouTube等平台的视频集合在内容和质量上各不相同,任何智能体都需要在视频上传后泛化到包括全新视频在内的各种视频。相比之下,棋盘游戏往往只有一个已知的环境。许多其他指标和约束也会影响最终用户体验和比特率节省,例如峰值信噪比(PSNR)和比特率约束。
为了应对MuZero面临的挑战,我们创建了一种称为自竞争的机制,通过将视频压缩的复杂目标转化为通过比较代理当前性能与历史性能之间的简单的胜利/失败信号来实现。这使我们能够将一系列丰富的编解码器要求转化为可以通过我们的代理进行优化的简单信号。
使用先前的QP启发式方法对视频进行编码 使用MuZero-RC对视频进行编码 比特率节省4.7% 使用先前的QP启发式方法对视频进行编码 使用MuZero-RC对视频进行编码 比特率节省4.1% 使用先前的QP启发式方法对视频进行编码 使用MuZero-RC对视频进行编码 比特率节省3.5% 使用MuZero-RC,我们能够在每个视频中实现类似的质量,同时减少所需的比特率,表明在大量多样化的实时YouTube视频集合中平均比特率减少了4%。
通过学习视频编码的动态并确定如何最佳分配比特率,我们的MuZero速率控制器(MuZero-RC)能够在不降低质量的情况下减少比特率。QP选择只是编码过程中众多编码决策之一。尽管经过数十年的研究和工程,已经产生了高效的算法,但我们设想一种能够自动学习进行这些编码决策以获得最佳的速率-失真平衡的单一算法。
除了视频压缩,将MuZero应用于研究环境之外的这一第一步作为我们的强化学习代理解决现实世界问题的一个例子。通过创建具备一系列新能力的代理来改进各个领域的产品,我们可以帮助各种计算机系统变得更快、更高效和更自动化。我们的长期愿景是开发一种能够在各种领域优化数千个现实世界系统的单一算法。
在DeepMind:The Podcast的第5集中,听听Jackson Broshear和David Silver与Hannah Fry讨论MuZero的内容。通过在您喜欢的播客应用程序中搜索“DeepMind:The Podcast”立即收听。