Anthropic在这次Claude3的重大更新中,宣布了3种场景的模型:
-
Claude 3 Haiku;
-
Claude 3 Sonnet;
-
Claude 3 Opus;
3种模型的定价也各不相同,
Claude 3 Haiku最为便宜,
Claude 3 Opus最为昂贵。
Opus是本次放开的最智能模型,在人工智能系统的大多数常见评估基准上都优于同行,包括本科生级专家知识(MMLU)、研究生级专家推理(GPQA)、基础数学(GSM8K)等。它在复杂任务上表现出接近人类水平的理解力和流利性,引领了一般智力的前沿。
1 Introduction
Claude 3系列模型在分析和预测、细致入微的内容创建、代码生成以及西班牙语、日语和法语等非英语语言的对话方面都显示出更强的能力。
低延时
-
Claude 3系列可以支持实时客户聊天、自动完成和数据提取任务,其中响应必须是即时的。
-
Haiku是市场上速度最快、性价比最高的模型。它可以在不到三秒的时间内阅读关于arXiv(~10K token)的信息和数据密集的研究论文,并提供图表。
-
对于绝大多数工作场景,Sonnet比Claude 2和Claude 2.1快2倍,智能水平更高。它擅长于要求快速响应的任务,如知识检索或销售自动化。Opus提供了与Claude 2和2.1相似的速度,但具有更高的智能水平。
2 模型细节
训练细节
-
unsupervised learning;
-
Constitutional AI;
训练平台:
-
亚马逊网络服务(AWS);
-
谷歌云平台(GCP);
训练框架:包括PyTorch、JAX和Triton;
-
Claude 3模型是根据截至2023年8月互联网上公开的信息、来自第三方的非公开数据、数据标签服务和付费承包商提供的数据以及我们内部生成的数据的专有组合进行训练的;
-
采用了多种数据清理和过滤方法,包括重复数据消除和分类;
-
进行了可信的数据爬取工作。
3 核心能力评估
3.1 Reasoning, Coding, and Question Answering
以下是Claude 3模型与其它在多个能力基准上的比较,Claude 3 Opus处于领先:
3.2 多模态能力
Claude模型擅长开放式对话和思想协作,在编码任务和处理文本时(无论是搜索、写作、编辑、概述还是总结)也表现得非常出色。Claude 3系列
有与其他领先模型不相上下的先进视觉功能。他们可以处理各种视觉格式,包括照片、图表、图表和技术图表。
3.3 更少的拒绝
先前的Claude模型经常做出不必要的拒绝,这表明缺乏上下文理解。我们在这一领域取得了有意义的进展:与前几代模型相比,Opus、Sonnet和Haiku拒绝回答系统护栏上的提示的可能性要小得多。如下所示,Claude 3模型显示出对请求的更细致理解,识别出真正的危害,并拒绝回答无害提示的频率要低得多。
Anthropic
使用两种关键方法评估
Claude 3
模型:
-
使用另一个模型通过少量的few-shot prompts对response进行评分;
-
使用字符串匹配来识别拒绝。通过集成这些方法,我们可以更全面地了解模型性能,以指导我们的改进。
3.4 人类偏好
我们要求评分者使用特定任务的评估说明,就一些任务与我们的模型进行聊天和评估。Crowdworkers每回合看到两个Claude回答,并根据说明提供的标准选择哪个更好。然后,我们使用二进制偏好数据来计算这些任务中每个模型的获胜率。
这种方法有其局限性:来自人类反馈的信号是嘈杂的,我们知道众包工作者创建的场景并不能完全代表Claude在现实世界中使用时会遇到的场景。
但它也有独特的好处:我们可以观察到模型行为的差异,这些差异对最终用户很重要,但不会出现在行业基准中。
使用Elo分数作为人类反馈指标。Elo分数差∆E对应于获胜率R
这意味着64%的获胜率对应于100分的Elo分数差异。因此,Claude 3 Sonnet比Claude 2模型提高了大约50-200 Elo点,具体取决于主题区域。
3.5 联网能力
Claude模型可以连接到搜索工具,并经过彻底的训练(通过网络或其他数据库)来使用它们,但除非特别说明,否则应假设Claude型号没有使用此功能。
3.6 多语言能力
Claude模型具有多语言功能,但在低资源语言上的性能较差。