Anthropic的Claude-3震撼发布！

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-03-07 04:24

正文

Anthropic在这次Claude3的重大更新中，宣布了3种场景的模型：

Claude 3 Haiku；
Claude 3 Sonnet；
Claude 3 Opus；

3种模型的定价也各不相同， Claude 3 Haiku最为便宜， Claude 3 Opus最为昂贵。

Opus是本次放开的最智能模型，在人工智能系统的大多数常见评估基准上都优于同行，包括本科生级专家知识（MMLU）、研究生级专家推理（GPQA）、基础数学（GSM8K）等。它在复杂任务上表现出接近人类水平的理解力和流利性，引领了一般智力的前沿。

1 Introduction

Claude 3系列模型在分析和预测、细致入微的内容创建、代码生成以及西班牙语、日语和法语等非英语语言的对话方面都显示出更强的能力。

低延时

Claude 3系列可以支持实时客户聊天、自动完成和数据提取任务，其中响应必须是即时的。
Haiku是市场上速度最快、性价比最高的模型。它可以在不到三秒的时间内阅读关于arXiv（~10K token）的信息和数据密集的研究论文，并提供图表。
对于绝大多数工作场景，Sonnet比Claude 2和Claude 2.1快2倍，智能水平更高。它擅长于要求快速响应的任务，如知识检索或销售自动化。Opus提供了与Claude 2和2.1相似的速度，但具有更高的智能水平。

2 模型细节

训练细节

训练方法：

unsupervised learning；
Constitutional AI；

训练平台：

亚马逊网络服务（AWS）；
谷歌云平台（GCP）；

训练框架：包括PyTorch、JAX和Triton；

训练数据：

Claude 3模型是根据截至2023年8月互联网上公开的信息、来自第三方的非公开数据、数据标签服务和付费承包商提供的数据以及我们内部生成的数据的专有组合进行训练的；
采用了多种数据清理和过滤方法，包括重复数据消除和分类；
进行了可信的数据爬取工作。

3 核心能力评估

3.1 Reasoning, Coding, and Question Answering

以下是Claude 3模型与其它在多个能力基准上的比较，Claude 3 Opus处于领先：

3.2 多模态能力

Claude模型擅长开放式对话和思想协作，在编码任务和处理文本时（无论是搜索、写作、编辑、概述还是总结）也表现得非常出色。Claude 3系列有与其他领先模型不相上下的先进视觉功能。他们可以处理各种视觉格式，包括照片、图表、图表和技术图表。

3.3 更少的拒绝

先前的Claude模型经常做出不必要的拒绝，这表明缺乏上下文理解。我们在这一领域取得了有意义的进展：与前几代模型相比，Opus、Sonnet和Haiku拒绝回答系统护栏上的提示的可能性要小得多。如下所示，Claude 3模型显示出对请求的更细致理解，识别出真正的危害，并拒绝回答无害提示的频率要低得多。

Anthropic 使用两种关键方法评估 Claude 3 模型：