StarCoder：一种用于代码的先进LLM

StarCoder Advanced LLM code.

介绍 StarCoder

StarCoder 和 StarCoderBase 是用来进行代码的大型语言模型（Code LLMs），它们是通过使用来自 GitHub 的可许可许可证数据进行训练的，包括来自 80 多种编程语言、Git 提交、GitHub 问题和 Jupyter 笔记本的数据。与 LLaMA 类似，我们训练了一个包含大约 150 亿参数的模型，训练了 1 万亿个标记。我们对 StarCoderBase 模型进行了 350 亿个 Python 标记的微调，从而得到了一个我们称之为 StarCoder 的新模型。

我们发现，StarCoderBase 在流行的编程基准测试中表现优于现有的开源 Code LLMs 模型，并且与 OpenAI 的 code-cushman-001（最初用于支持 GitHub Copilot 早期版本的 Codex 模型）等封闭模型相媲美或超越。StarCoder 模型的上下文长度超过 8000 个标记，可以处理比任何其他开源 LLM 模型更多的输入，从而实现了广泛的应用。例如，通过使用一系列的对话作为提示，我们使 StarCoder 模型能够充当技术助手。此外，该模型可以用于自动完成代码、通过指令修改代码以及用自然语言解释代码片段。我们采取了几个重要步骤来确保安全的开放模型发布，包括改进的个人身份信息删除流水线、一种新颖的属性追踪工具，并使用改进版的 OpenRAIL 许可证公开提供 StarCoder。更新后的许可证简化了公司将该模型集成到其产品中的流程。我们相信，凭借其出色的性能，StarCoder 模型将为社区提供一个坚实的基础，以便将其用于各种用例和产品。

评估

我们对 StarCoder 和几个类似的模型以及各种基准进行了全面评估。一个流行的 Python 基准测试是 HumanEval，它测试模型是否能够根据函数的签名和文档字符串完成函数。我们发现，尽管 StarCoder 和 StarCoderBase 模型规模相对较小，但它们在超过 PaLM、LaMDA 和 LLaMA 等最大模型的基础上表现出色。它们也优于 CodeGen-16B-Mono 和 OpenAI 的 code-cushman-001（12B）模型。我们还注意到，模型的一个失败案例是它会生成 # Solution here 的代码，这可能是因为这种类型的代码通常是练习的一部分。为了强制模型生成实际的解决方案，我们添加了提示 <filename>solutions/solution_1.py\n# Here is the correct implementation of the code exercise。这显著提高了 StarCoder 在 HumanEval 中的得分，从34%提高到超过40%，创造了开源模型的新的最先进结果。我们还尝试过在 CodeGen 和 StarCoderBase 中使用此提示，但没有观察到太大的差异。

StarCoder 的一个有趣之处在于它是多语言的，因此我们在 MultiPL-E 上对其进行了评估，该基准将 HumanEval 扩展到许多其他语言。我们观察到，StarCoder 在许多语言上与 code-cushman-001 相匹配或超越。在一个名为 DS-1000 的数据科学基准测试中，它明显击败了 code-cushman-001 以及所有其他开放访问模型。但是，除了代码完成之外，让我们看看模型还能做什么！

技术助手

通过详尽的评估，我们发现 StarCoder 在编写代码方面非常有能力。但是我们还想测试它是否可以作为技术助手使用，毕竟它是在大量的文档和 GitHub 问题上进行训练的。受 Anthropic 的 HHH 提示的启发，我们构建了一个技术助手提示。令人惊讶的是，只需简单的提示，模型就能够充当技术助手并回答与编程相关的请求！

训练数据

该模型是在 The Stack 1.2 的一个子集上进行训练的。该数据集仅包含可许可许可证的代码，并包括一个选择退出的流程，以便代码贡献者可以从数据集中删除其数据（请参阅我是否在 The Stack 中）。我们与 Toloka 合作，从训练数据中删除了个人身份信息，例如姓名、密码和电子邮件地址。

关于 BigCode

BigCode 是由 Hugging Face 和 ServiceNow 共同领导的开放科学合作项目，致力于负责任地开发用于代码的大型语言模型。

其他发布内容

除了模型，我们还发布了一系列资源和演示：

包括 OpenRAIL 许可证的模型权重，包括中间检查点
用于数据预处理和训练的所有代码，使用 Apache 2.0 许可证
用于代码模型的全面评估测试工具
用于训练和评估 PII 删除的全面数据集
用于训练的完全预处理的数据集
用于在数据集中查找生成的代码的代码归属工具

链接

模型

论文：关于StarCoder的技术报告。
GitHub：关于使用或微调StarCoder的所有信息。
StarCoder：在Python上进一步训练的StarCoderBase。
StarCoderBase：从The Stack训练而来的80多种语言。
StarEncoder：在TheStack上训练的编码器模型。
StarPii：基于StarEncoder的PII检测器。

工具和演示

StarCoder聊天：与StarCoder聊天！
VSCode扩展：与StarCoder一起编写代码！
StarCoder Playground：使用StarCoder编写！
StarCoder Editor：使用StarCoder编辑！

数据和治理

StarCoderData：StarCoder的预训练数据集。
技术助手提示：使用此提示将StarCoder转换为技术助手。
治理卡：概述模型的治理情况。
StarCoder许可协议：该模型根据BigCode OpenRAIL-M v1许可协议授权。
StarCoder搜索：在预训练数据集中进行全文搜索。
StarCoder成员资格测试：快速测试代码是否存在于预训练数据集中。

您可以在huggingface.co/bigcode找到所有资源和链接！

StarCoder：一种用于代码的先进LLM

StarCoder Advanced LLM code.

介绍 StarCoder

评估

技术助手

训练数据

关于 BigCode

其他发布内容

链接

模型

工具和演示

数据和治理

使用StarCoder创建一个编码助手

如何安装和使用Hugging Face Unity API

大规模近似去重背后的BigCode

Hugging Face 和 IBM 在 watsonx.ai 上合作，...

Hugging Face与微软合作，在Azure上推出Huggin...

使用bitsandbytes、4位量化和QLoRA使LLMs更加...

优化稳定扩散：使用NNCF和🤗 Optimum对Intel C...

猎鹰已经登陆了Hugging Face生态系统

人工智能