专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
51好读  ›  专栏  ›  新智元

27岁华裔天才少年对打UC伯克利,首发SEAL大模型排行榜!Claude 3 Opus数学封神

新智元  · 公众号  ·  · 2024-05-30 13:08

正文



新智元报道

编辑:编辑部
【新智元导读】 一直以来,UC伯克利团队的LMSYS大模型排行榜,深受AI圈欢迎。如今,最有实力的全新大模型排行榜SEAL诞生,得到AI大佬的转发。它最大的特点是在私有数据上,由专家严格评估,并随时间不断更新数据集和模型。

前段时间,由27岁的华裔创始人Alexandr Wang领导的Scale AI刚刚因为融资圈了一波关注。
今天,他又在推特上官宣推出全新LLM排行榜——SEAL,对前沿模型开展专业评估。
SEAL排行榜主打三个特色:

- 私有数据

Scale AI的专有私有评估数据集无法被操控,确保了结果的公正性和无污染。

- 不断发展

定期使用新的数据集和模型更新排行榜,营造一个动态的竞赛环境。

- 专家评估

评估由经过严格审查的专家进行,确保最高的质量和可信度。

榜单地址:https://scale.com/leaderboard
这篇推特获得了Jim Fan大佬的转发,他认为SEAL是LMSys的非常好的补充和参照,提供公开模型的私密、安全、可信的第三方评估。
对此,Andrej Karpathy也深以为然。

代码

在代码任务中,GPT-4 Turbo Preview位列第一,然后是GPT-4o、Gemini 1.5 Pro(Post-I/O)。
而专门训练的代码模型CodeLlama 34B Instruct排在了第11位。
Scale AI编码提示集包含1,000个提示,涵盖各种编程语言、学科和编程任务,从调试到代码优化,从文档生成到理解复杂代码库,等等。
诸如HumanEva、Pass@k、MBPP、SWE-Bench、LiveCodeBench等评估基准在首次出现时很有用,但随着模型开始过拟合,它们已经变得不那么有价值了。
此外,这些模型与这些基准进行评估的方法往往不标准化,缺乏跨测试或随时间比较分数的核心要求。
Scale编码评估提供了一个标准化的LLM评估框架,能够跨模型进行比较并识别其优缺点。目前,它涵盖了最常请求的编程语言的用例集。
代码生成:根据给定的自然语言规范或描述创建新代码。
代码修复:识别并纠正现有代码中的错误。例如,调试、解决语法错误和修复逻辑错误。
代码理解:解释、阐明或澄清现有代码。例如,阐明某些代码段的工作原理,分解复杂算法。
代码修改:对现有代码进行更改或调整以满足新要求或条件。例如,更改功能,更新或增强特性。
代码优化:提高现有代码的性能。例如,提高效率,减少资源消耗(如内存或处理时间)。
学习辅助:帮助学习或理解编程概念、语言或工具。例如,提供最佳实践指导,解释编程概念。
代码翻译:将代码从一种编程语言转换为另一种语言,并根据目标语言的最佳实践调整代码结构、风格和习惯用法。
建议提供:提供关于编码实践、工具、库或框架的建议或意见。
注释改进:在现有代码中添加或改进注释。
测试开发:开发、增强或修复现有代码的测试。

用例分布

编码语言分布
为了确保评估过程的彻底性和可靠性,每个任务由不同的人工注释员并行执行了三次。
评分经过两个阶段的审查:初步审查层和最终审查层。
这种评估方法不仅生成总体排名,还有助于突出模型在不同领域的优势和劣势,并回答以下问题:
- 模型在SQL、Java、HTML/CSS和C++提示上的表现如何?
- 模型在复杂场景中的竞争力如何?

评估方法

测试栗子

结果分析

模型通常在「注释」和「理解」任务中表现良好,但在「翻译」和「生成」任务中常遇到困难。
此外,「正确性/功能性」和「可读性/文档」也是所有模型的两个主要错误来源。

- GPT

两个GPT-4模型在各种用例中表现最为一致。其中,较新的gpt-4o-2024-05-13相比gpt-4-0125-preview更容易出现可读性问题,有时会不必要地重复提示中的代码,导致响应更加冗长。

- Gemini

所有三个Gemini模型在建议任务中表现出色,分别排名第1、第2和第3,但在测试任务中表现较差。新的gemini-1.5-pro-preview-0514相比之前的gemini-1.5-pro-preview-0409有显著提升,特别是在「正确性/功能性」和「可读性/文档」方面。

- Claude

claude-3-opus-20240229通常比claude-3-sonnet-20240229表现更好,特别是在「正确性/功能性」类别中错误更少,除了某些翻译任务。

数学

在数学分类榜中,Claude 3 Opus竟打败了GPT-4 Turbo Preview霸占榜首,然后第三名是GPT-4o.
另外,Claude 3的「中杯」模型Sonnet,都超过了Gemini系列的模型。
不得不说,在数学这块,还是Claude3是王者。
数学和推理仍然是当前大语言模型(LLM)面临的主要未解决问题之一。然而,现有的公共基准如GSM8k却存在着致命的数据污染问题。
为全面评估模型的各方面能力,Scale AI设计了一个全新的数学和推理数据集——GSM1k。
GSM1k基于GSM8k基准的分布和难度,并引入全新的一组问题。其中,包含了一系列相当于五年级数学考试水平的数学问题。
它的构建花了不到3周的时间,标注团队的成员包括小学数学教育者和具有教育、数据分析、计算机科学、物理和经济学背景的专家。
值得注意的是,GSM1k的数据收集过程并没有用到LLM的帮助。
此外,为了防止模型在GSM1k上过拟合,团队决定仅公开1,000个问题中的50个样本。

测试栗子

指令跟随

针对模型指令跟随测试,GPT-4o、GPT-4 Turbo Preview、Llama 3 70B Instruct分别跃居前三。
同时,Mistral Large的实力也不输其他的模型。
这说明在能否准确遵循人类提示方面,GPT-4系列模型还是更厉害些。
Scale AI精确指令跟随提示数据集包含1,054个指令跟随提示,目的是评估AI模型解释和执行详细命令的能力,重点在于精确性和具体性,并解决过拟合问题。
数据集中的提示共分为9类,包括「扮演……的角色」、内容创作和头脑风暴,并涵盖指令跟随任务的实际应用和用例。
它由一个40多名人工标注员组成的多样化团队生成,并通过五个步骤的开发,确保提示能够测试模型理解和执行具体指令的能力。
最终,实现对模型对这些提示集的响应进行人工评估。

测试栗子

西班牙语


在西班牙语测试上,GPT-4o霸榜第一,而Gemini 1.5 Pro(Post-I/O)超过了GPT-4 Turbo Preview。
随后,Gemini另外两个模型也进入榜单前五。
在Scale AI多语言提示数据集中,每个语种都包含1,000个提示,目的是提升模型在多种语言中的交互能力。
数据集特别针对西班牙用户,包括来自西班牙、墨西哥和拉丁美洲其他地区的用户。
虽然排行榜目前只包含西班牙语,但在未来的更新中,会扩展到更多语言。

方法

如何计算Elo评分排名

在评估过程中,人工评审会比较两个模型对同一提示的回答,并在多个方面评估哪个更好。根据这些评分,便可以确定哪个模型赢了、哪个输了,或者打平。
此外,团队还采用了与Chatbot Arena相同的方法,使用Bradley-Terry模型对我们的数据点进行重新权重的最大似然估计。
首先是一些定义:
对于𝑀个模型,用𝐴={(𝑚,𝑚′):𝑚
在𝑡∈𝑁时,向人工评审提供一对模型𝐴𝑡∈𝐴,并记录评审的回应𝐻𝑡∈[0,0.5,1]。
其中,1表示模型𝑚优于模型𝑚′,而0.5则表示两个模型同样受欢迎。
通过Bradley-Terry,利用逻辑关系来模拟这种情况发生的概率:
其中,𝜉是一个M长的BT系数向量。然后,通过最小化二元交叉熵损失来估计BT系数:
其中,𝑙是二进制交叉熵损失:






请到「今天看啥」查看全文