LG AI研究提出QASA:一种新颖的人工智能基准数据集和计算方法

LG AI研究提出QASA:一种新颖的人工智能基准数据集和计算方法' QASA 一种新颖的人工智能基准数据集和计算方法

人类擅长推理,这使我们与其他生物有所区别。推理涉及到联想思维和逻辑推理。一种琐碎的推理方式是提出像什么、何时、何地和为什么这样的问题。这种推理可以引导人们获得新的发现和创新的思路。

现在,想象一下你自己在写自己的科学论文时遇到困难,无法提出正确的好奇问题。由于科学论文和专业文章的数量不断增长,传统的过程已不再可行,因为耗时。阅读科学文章会引发问题,并包含测试和深入的质疑,这需要全面的推理能力。为了回答这样的自然先进问题,LG的研究人员提出了一种基于科学文章的问答(QASA)方法,其中包括全面的认知推理。

研究人员设计了一个三步方案,引导读者和作者在阅读整篇科学论文时提出问题,而不仅仅是摘要。首先,允许读者提出高级表面、测试和深入的问题。其次,将这些问题和答案与专家读者提出的问题进行进一步收集和比较。最后,邀请读者和作者提出他们多方面的长篇回答。

研究人员声称QASA包含了1798个关于AI/ML论文的问答对,这是常规读者提出的。每篇论文平均有15.1到29个问题,其中39.4%是深入推理水平的问题。他们的QASA方法涉及关联选择,从段落中提取相关信息,生成证据推理,仅从每个提取的段落中获取证据推理,并进行系统组合,将证据推理与全面的答案联系起来。

为了确保真实的问题,提问者可以选择自己喜欢的论文,并选择是阅读所有章节(称为深度阅读)还是阅读特定的某一节(称为略读),并准备不包含答案的问题。回答者也可以选择来自提问者所工作的论文中的论文,提供相关的答案。回答者根据自己从所选段落中生成的证据推理,引导回答者以全面的篇章回答问题。

研究人员进行了一种成对评估方案,评估者比较同一个问题的两个答案。他们向评估者提供了两个答案,一个来自QASA方案,另一个来自InstructGPT。全面答案的答案比InstructGPT的答案更完整和可靠。

QASA方法利用预训练的语言模型(LM)对每个子任务进行建模,并带有多任务指令。公共和合成数据可以作为QASA的测试基础,为科学文章和手稿提供全面的认知推理。这将减轻人们在手动检索和重新排序相关信息以阅读和限制有用信息方面的工作。