普林斯顿研究人员推出InterCode:一种革命性的轻量级框架,简化人类语言到代码生成的语言模型交互

Princeton researchers release InterCode a revolutionary lightweight framework simplifying the interaction between human language and code generation in language models.

ChatGPT,由OpenAI开发的最新聊天机器人,自发布以来一直成为头条新闻。这个基于GPT转换器架构的模型像人类一样准确地回答问题,为博客、社交媒体、研究等生成内容,翻译语言,摘要长文本段落同时保留重要的关键点,甚至生成代码示例。像GPT、BERT、PaLM和LLaMa这样的大型语言模型成功地促进了人工智能领域的进步。这些深度学习模型有效地利用了自然语言处理和自然语言理解的潜力。

近来,能够根据自然语言规范自动生成代码的模型的开发越来越受欢迎。尽管这些模型在静态基准测试中表现出色,但由于在成千上万个代码库上进行了广泛的预训练,它们也存在一定的局限性,例如拼写错误、创建代码和执行代码之间的差距、有限的人类参与等。

为了解决这些挑战,普林斯顿大学计算机科学系的研究人员提出了一个轻量级和灵活的框架,称为InterCode,它将交互式编码作为标准强化学习(RL)环境。在InterCode中,代码被视为动作,执行反馈被视为观察。这种基于RL的方法使得编码更加迭代,并且可以与许多编程语言和环境一起使用,因为它是为语言和平台无关设计的。

InterCode还使用独立的Docker环境来保证安全和可重复的执行。它被设计为与传统的序列到序列(seq2seq)编码技术兼容,使其易于采用和结合当前方法。它可以轻松地启用针对交互式代码生成的新方法的开发。

为了评估,该团队构建了两个交互式代码环境,使用Bash和SQL作为行动空间,以说明InterCode的实用性。他们使用静态Spider和NL2Bash数据集的数据训练和评估了一些出色的语言模型,这些模型配备了各种提示策略,如ReAct和Plan & Solve。InterCode实验展示了交互式代码生成的优势,同时强调了其作为改进代码理解和生成能力的困难基准的潜力。

该团队总结了以下主要贡献:

  1. 引入了InterCode,一个新的通用交互式代码生成框架,提供了易用性、可扩展性和安全性。它用户友好且易于访问,使研究人员能够轻松地在他们的实验中使用它。
  1. 使用InterCode访问和评估了一些令人难以置信的最先进模型,并指出了一些潜在的增强点。
  1. InterCode基准为交互式代码生成任务提供了一个标准化的评估平台,使研究人员能够使用一个共同的框架比较不同模型的性能。它将任何新的静态代码数据集转化为交互活动。

总之,InterCode是一种有前景的方法,是人工智能领域发展的重要补充。它极大地推进了交互式代码生成,从而提供了一个标准化的评估平台,并促进了该领域的进一步研究和发展。