普林斯顿大学和Meta AI的研究人员介绍了MemWalker:一种首先将长文本处理成摘要节点树的新方法

普林斯顿大学和Meta AI的研究人员推出MemWalker:一种将长文本转化为摘要节点树的全新方法介绍

采用了自注意力机制和模型规模和预训练数据的增加导致了大型语言模型(LLM)取得了显著进展。随着LLM的容量逐渐改善,用户更频繁地希望在推理过程中使用更长的输入序列。因此,对于能够分析长文本(如法律或科学研究)和处理长对话的服务的需求日益增长。在处理这些任务时,处理更长的上下文时间非常有用,因为它们需要大量信息处理。

尽管取得了进展,但随着序列长度的增加,自注意机制的局限性变得更加明显,因为它必须跟踪的记忆量也在增加。为应对这个问题,已经采用了几种方法,比如开发更紧凑和有效的注意机制、通过外推或内插位置嵌入进行微调、使用循环将信息从一个文本片段传递到下一个、以及检索相关段落。然而,这些方法仍然存在固有的限制。无论您如何拖动滑块,上下文窗口始终保持相同大小,并非每个位置都具有相同的权重。虽然循环可以处理无限长度的序列,但它经常遗忘以前部分序列的详情。

普林斯顿大学和Meta AI的研究人员提出了一种全新的方法,将有限上下文窗口作为一个交互式代理来处理模型,从而解决了上述问题。为实现这一目标,他们提出了MEMWALKER,一种以迭代LLM为基础引导模型浏览长文本的方法。

MEMWALKER是一个包含两个步骤的过程:

  1. 构建记忆树
  2. 使用该树进行引导

在第一阶段,将长材料分成可处理的小块,然后LLM将每个片段的信息压缩成统一的摘要节点。树结构由这些摘要节点构建,并进一步总结为更高级的摘要节点。在处理用户查询时,LLM将返回到树的起点。它会查看每个树枝并分析文本以找到回答问题的路径。这使得MEMWALKER能够快速处理文本,并在原生语言中识别长文本的关键部分,而无需用户进行任何微调。

在对MEMWALKER进行分析时,团队发现,与序列问答问题时的循环、检索和基准LLM相比,该系统的性能更好。其他能够处理8000到16000个标记的开放式长上下文系统无法与MEMWALKER的性能相比。他们对MEMWALKER的性能进行了评估,表明它可以思考导航决策,同时在浏览过程中使用工作记忆,并纠正在导航初期发生的错误。

团队还讨论了MEMWALKER的三个主要不足:

  1. 如果序列变得很长,记忆树的生成可能无法很好地扩展。
  2. 研究结果显示,LLM必须很大(超过700亿)并进行指令调优,MEMWALKER才能有效。
  3. MEMWALKER的交互阅读能力仅限于零-shot提示,不以任何方式使用微调。

尽管如此,团队认为MEMWALKER为未来开展许多令人兴奋的研究铺平了道路,包括将其用于除树以外的数据结构,并优化其在交互阅读任务中的性能。