Anthropic发布了他们的Claude 2模型,与之前的模型相比,在编码、数学和推理方面取得了显著的改进
Anthropic发布Claude 2模型,在编码、数学和推理方面有显著改进
Anthropic发布了名为Claude 2的新模型,它具有改进的性能、更长的响应时间,并通过API和公共测试版网站实现了可访问性。用户赞扬Claude的对话能力、清晰的解释、减少生成有害输出的可能性以及相比于以前的模型而言的记忆力的改善。值得注意的是,Claude 2在编程、数学和推理任务方面表现出更好的性能。例如,在巴尔考试的多项选择题部分,它得分为76.5%,超过了前任模型的73.0%的得分。与申请研究生的大学生相比,Claude 2在GRE阅读和写作考试中的成绩超过了90%的学生,并在量化推理方面与中位数申请者的成绩相当。
开发人员将Claude设想为一位友好而热情的虚拟同事或个人助手,能够理解自然语言指令以协助完成各种任务。面向企业的Claude 2 API的价格与其前任模型Claude 1.3相同。此外,美国和英国的个人已经可以使用测试版聊天体验。
已经采取了措施来提升Claude模型的性能和安全性。输入和输出长度已经增加,使用户可以每次输入多达100K个标记。这使得Claude能够处理大量的技术文档和书籍,并生成更长的文档,如备忘录、信件和包含数千个标记的故事。
最新的模型Claude 2在编码能力方面有了显著提升,在Codex HumanEval Python编码测试中得分为71.2%,而Claude 1.3的得分为56.0%。在GSM8k数学问题集中,Claude 2的得分为88.0%,而前任模型的得分为85.2%。未来的计划包括逐步部署Claude 2的能力改进。
安全措施是开发的重点,旨在减少有害和冒犯性的输出。内部的红队评估将Claude模型与一组代表性的有害提示进行评估,结合自动化测试和手动检查。相比于Claude 1.3,Claude 2在提供无害回应方面的有效性提高了一倍。虽然没有模型完全免疫于不良输出,但采用了安全技术和广泛的红队评估来提高输出的整体质量。
一些企业已经采用了Claude API,其中包括Jasper和Sourcegraph等合作伙伴,利用了Claude 2的能力。Jasper是一个生成型AI平台,强调Claude 2在各种用例中与最先进的模型的兼容性,并强调其在长篇、低延迟应用中的优势。Sourcegraph是一个代码AI平台,将Claude 2的改进推理能力融入到他们的编码助手Cody中。Cody可以对用户的查询提供更准确的答案,并通过多达100K上下文窗口传达更多的代码库上下文。Claude 2在最新数据上的训练使Cody具备了对更新框架和库的知识,使开发人员能够更高效地构建软件。
总的来说,Claude 2的发布标志着性能、安全性和多功能性的进步,使用户能够在各个领域中利用其能力。