亚马逊推出Bedrock:人工智能模型评估与人类基准测试

亚马逊推出Bedrock:人工智能模型评估及人类基准测试

在一个发展中,亚马逊Bedrock引入了评估、比较和选择适合您具体需求的最佳基础模型(FMs)的能力。现在预览中的模型评估功能为开发人员提供了一系列评估工具,提供自动和人工基准测试选项。

模型评估的力量

模型评估在开发的每个阶段都起着至关重要的作用。开发人员可以利用模型评估功能轻松构建生成式人工智能(AI)应用程序。这包括在平台的测试环境中尝试不同的模型,在启动阶段通过自动评估优化迭代过程,并通过人工审核确保质量。

自动模型评估简单易行

借助自动模型评估,开发人员可以无缝地整合自己的数据或利用精选的数据集和预定义的指标,如准确性、稳健性和有毒性。这个功能消除了设计和执行自定义模型评估基准的复杂性。对于开发人员寻求效率的开发人员来说,通过评估特定任务(如内容摘要、问题回答文本分类和文本生成)的模型的易用性是一个重大转变。

用于自定义指标的人工模型评估

亚马逊Bedrock还为友好性和风格等主观指标提供了直观的人工评估工作流程。开发人员只需点击几下就可以轻松定义自定义指标并使用自己的数据集。灵活性还包括选择利用内部团队作为评审人员或选择AWS管理团队。这种简化的方法消除了传统上与构建和管理人工评估工作流程相关的繁琐工作。

需要考虑的关键细节

在预览阶段,亚马逊Bedrock允许评估和比较基于文本的大型语言模型(LLM)。开发人员可以为每个自动评估作业选择一个模型,并为每个人工评估作业使用自己的团队选择两个模型。此外,对于通过AWS管理的团队进行人工评估,可以指定自定义项目要求。

定价是一个关键考虑因素,在预览阶段,AWS仅收取用于评估的模型推理费用,人工或自动评估不收取额外费用。亚马逊Bedrock定价的详细说明可提供有关相关费用的清晰信息。

我们的观点

亚马逊Bedrock的模型评估为开发人员提供了权力,这是基础模型决策的一个重要飞跃。自动和人工评估选项、简化的工作流程和透明的定价标志着人工智能开发的新时代。通过深入研究预览阶段,行业期待在人工智能领域带来的变革影响。开发人员们,请做好准备-模型选择的未来已经来临。