伦理苏黎世研究人员推出UltraFastBERT:一种使用0.3%的神经元进行推理,并在性能上与类似的BERT模型相媲美的BERT变体

苏黎世研究人员推出UltraFastBERT:一种使用0.3%的神经元进行推理,并在性能上等同于类似的BERT模型的BERT变体

瑞士苏黎世联邦理工学院的研究人员开发的UltraFastBERT解决了在推理过程中减少使用的神经元数量的问题,同时保持与其他模型相似的性能水平。这是通过快速前馈网络(FFFs)实现的,与基准实现相比,显著加快了速度。

现有的方法得到了苏黎世联邦理工学院研究人员提供的代码、基准设置和模型权重的支持。他们还建议探索多个FFF树进行联合计算,并在像GPT-3这样的大型语言模型中进行潜在应用。该研究提出通过混合稀疏张量和设备特定优化进一步加速。

UltraFastBERT在推理过程中展示出高效的语言建模,通过简化的FFF替代了传统模型的前馈网络,并使用一致的激活函数和全节点输出权重,同时消除了偏差。多个FFF树共同计算中间层输出,允许使用多样化的架构。提供的高级CPU和PyTorch实现显著加速,并且该研究探索了通过多个FFF树加速和使用FFF替代大型语言模型前馈网络的潜力。建议使用Intel MKL和NVIDIA cuBLAS进行设备特定优化。

UltraFastBERT在推理过程中仅使用BERT-base的0.3%的神经元,实现了与之相当的性能。在单个GPU上训练了一天后,它至少保留了96.0%的GLUE预测性能。UltraFastBERT-1×11-long使用其神经元的0.3%与BERT-base相匹配的性能。较深的快速前馈网络会导致性能下降,但除了CoLA之外,所有的UltraFastBERT模型至少保留了98.6%的预测性能。比较显示出快速前馈层的显着加速,CPU上达到48倍到78倍的即时推理速度,GPU上实现了3.15倍的加速,表明存在替换大型模型的潜力。

总之,UltraFastBERT是对BERT的修改,实现了在推理过程中仅使用其很小一部分神经元的高效语言建模。该模型采用FFFs实现了显著的加速,在提供的CPU和PyTorch实现上分别实现了78倍和40倍的加速。该研究建议通过实施条件神经执行的基元进一步加速语言建模。尽管仅使用了0.3%的神经元,UltraFastBERT的最佳模型与BERT-base的性能相匹配,展示了高效语言建模的潜力。UltraFastBERT展示了高效语言建模的潜在进展,为未来更快和资源友好的模型铺平了道路。

进一步研究的建议包括使用混合向量级稀疏张量和设备特定优化来实现高效的FFF推理。建议探索条件神经执行的全部潜力,加速语言建模。讨论了通过使用FFFs替代前馈网络对大型语言模型进行优化的潜在性。未来工作可以专注于在流行的框架(如PyTorch或TensorFlow)中进行可复现实现,并进行广泛的基准测试,评估UltraFastBERT和类似高效语言模型的性能和实际影响。