“遇见 SQLCoder:一种新的开源和顶尖模型,用于将自然语言问题转换为 SQL 查询”

SQLCoder a new open-source and cutting-edge model for transforming natural language questions into SQL queries.

Defog.ai发布了SQLCoder,这是一个先进的模型,用于将自然语言查询转化为数据库查询。针对Postgres中的通用SQL架构,SQLCoder明显优于所有主要的开源模型。当针对特定数据库架构进行优化时,其性能超过gpt-4。

该模型的大小使其可以在单个A100-40GB的16位浮点数或8位量化的高端消费级GPU(例如RTX 3090/4090)上执行。LLM生成的SQL的评估机制也将开源。评估SQL代码可能很困难。研究人员希望进行广泛、公开和可重现的测试,以推动开源文本到SQL系统的极限。

模型权重采用CC BY-SA 4.0许可。该模型对个人和商业用途均免费。如果您更改了后果(例如通过微调),则必须按照相同的许可证将这些更改释放为开源。

SQLCoder是StarCoder的优化版本,使用了150亿参数。SQLCoder经过逐步挑战的手工创建的SQL查询进行了微调。数据库架构特定的调优使其能够达到或超过GPT-4的性能。

在过去的三个月里,研究人员已经与医疗保健、金融服务和政府部门的企业客户一起使用了SQLCoder。对于不希望敏感数据离开其服务器的客户来说,自托管模型是唯一的选择。

研究团队对该模型进行了两个阶段的改进。他们使用了我们的温和到中等的查询来完善StarCoder的基础模型。然后,他们对困难和极困难的问题进行了微调,从而产生了SQLCoder。在我们的基准测试中,SQLCoder几乎超过了除GPT-4之外的所有热门模型。特别是,它超过了比它大十倍以上的模型,如gpt-3.5-turbo和text-da-vinci-003。这些结果仅代表SQLCoder在通用SQL数据库上的性能,而不是在特定数据库架构上的性能。当SQLCoder针对特定数据库架构进行优化时,它可以超越OpenAI的GPT-4,并且延迟更低。

SQLCoder的开源版本可在https://github.com/defog-ai/sqlcoder找到。它有许多潜在的应用,例如:

  • 在自己的领域中测试它
  • 将其部署到云端
  • 让其与其他程序一起工作

SQLCoder是一个强大的程序,可以简化和自动化数据处理操作。使用SQLCoder,可以轻松查询数据库,将自然语言的问题转化为SQL查询。

使用SQLCoder可以帮助您在多个方面:

  • SQLCoder的准确性使其能够构建正确和高效的SQL查询。
  • SQLCoder高效,可以快速轻松地生成SQL查询。
  • SQLCoder生成的查询符合SQL的规范。
  • SQLCoder的适应性意味着它可以根据您的程序的要求进行修改。