苹果研究员引入并行假设采样(PaSS):语言模型效率和可扩展性的飞跃
苹果引入并行假设采样(PaSS):语言模型的效率与可扩展性取得飞跃
EPFL研究人员与苹果公司合作,引入了一种名为Parallel Speculative Sampling (PaSS)的新的猜测取样方法。这种新方法可以使用单个模型同时起草多个标记,结合了自回归生成和猜测取样的优点。PaSS方法在文本和代码完成任务上进行了评估,展示出有希望的性能而不影响模型质量。团队还探索了前瞻嵌入数量对方法的影响,发现了达到最佳结果的最佳数量。
PaSS解决了猜测取样的局限性,要求使用相同的分词器来使用两个模型来起草多个标记。与自回归生成和基线方法进行比较评估表明,PaSS具有更快的速度和性能。在文本和代码完成任务上进行测试产生有希望的结果,而不会影响整体模型质量。它还探索了取样方案和前瞻嵌入在PaSS性能上的影响。
大型语言模型在自然语言处理中面临限制,因为自回归生成需要为每个生成的标记进行前向传递,影响内存访问和处理时间。猜测取样提供了一种解决方案,但需要使用相同的分词器来要求两个模型,引入了瓶颈。PaSS是一种替代方法,可以使用单个模型起草多个标记,无需第二个模型。
所提出的方法利用了并行解码,消除了需要第二个模型的需求,并涉及两个阶段:起草和验证。在起草阶段,模型使用并行解码同时生成多个标记,如果被拒绝,第一个标记将被排除在起草之外,以进行分布匹配。这种方法在保持整体模型质量的同时实现了更快的速度和性能。
发现PaSS方法是一种生成语言模型的有效方式,与自回归生成相比,速度提高了高达30%,同时模型性能在误差范围内保持不变。PaSS还显示出生成具有较低方差和较高可预测性的标记的能力,如与使用不同取样方案的基线进行比较所示。研究还发现前瞻步数的数量稳定地影响了PaSS的性能,随着前瞻步数的减少而减少了运行时间。
PaSS是一种强大的语言模型生成技术,利用细调的前瞻嵌入进行标记解码的并行起草方法。通过用于文本和代码完成任务的评估,证明了其生成具有低方差和高可预测性的标记的有效性。通过前瞻票据进一步提升性能的改进正在被探索。
未来的研究方向建议探索增强带前瞻标记的并行生成质量的方法,认为这是提高PaSS性能的一个有前途的途径。研究人员强调需要进一步研究前瞻步数对PaSS的影响,因为增加步数可能会抵消该方法的好处。