如果您使用光学神经网络运行Transformer模型会发生什么?

深度学习模型的指数级扩展是推动最新技术进展的重要力量,也是人们越来越担心能源消耗、速度以及大规模深度学习的可行性的来源。最近,康奈尔大学的研究人员谈到了变压器拓扑结构,特别是当它们被扩展到数十亿甚至数万亿参数时,它们的效果显著改善,导致深度学习计算的利用率呈指数级增长。这些大规模变压器在许多任务中是一种受欢迎但昂贵的解决方案,因为数字硬件的能效没有跟上尖端深度学习模型不断增长的浮点运算需求。它们在计算机视觉、图形和多模态设置等领域的表现也越来越令人印象深刻。

此外,它们还具备传输学习的能力,使它们能够快速推广到某些活动中,有时甚至在无需额外训练的零样本环境中。这些模型的成本和它们的通用机器学习能力是有效和快速推理的硬件加速器的主要驱动力。深度学习硬件之前已经在数字电子学领域广泛发展,包括GPU、移动加速器芯片、FPGA和大规模人工智能专用加速器系统。光学神经网络被提出作为提供比数字计算机上的神经网络实现更高效和低延迟的解决方案之一。与此同时,对模拟计算也存在相当大的兴趣。

尽管这些模拟系统容易受到噪声和误差的影响,但神经网络操作通常可以以较低的成本进行光学实现,主要成本通常是与加载权重和数据相关的电气开销在大型线性运算中的摊销。因此,对于像变压器这样的大规模模型的加速效果尤为显著。从理论上讲,与数字系统相比,它们的能量效率在每个乘加运算的能量消耗方面是渐近更高效的。在这里,他们展示了变压器如何越来越多地利用这种扩展。他们从实际用于语言建模的真实变压器中采样操作,并在基于实际空间光调制器的实验系统上运行。然后,他们利用结果创建了一个光学运行的全面变压器的校准模拟。这是为了表明尽管存在噪声和误差特性,变压器仍然可以在这些系统上运行。

在他们的模拟中,他们使用了从这些带有系统误差、噪声和不精确性的试验中获得的权重和输入,发现变压器的性能几乎与数字操作一样好。以下是他们的主要贡献的摘要:

• 他们为光学变压器的性能和总能量成本与模型大小和光学能量使用之间的关系建立了扩展规则。他们实验证明,在真实的光学硬件上,变压器的线性运算可以准确地进行,尽管存在误差和噪声。

• 利用基于他们的模拟和测试的设计,他们预测了整个光学神经网络加速器的能量消耗。

• 他们计算出光学比尖端处理器的能量消耗低出数量级。

尽管他们的模拟和测试使用了特定的硬件作为示例,但他们的关注点更广泛。他们想知道光学能量扩展和噪声与变压器结构和性能之间的关系。因此,几乎所有的结论都普遍适用于线性光学处理器,而不论其具体的硬件实现细节。