专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

27岁华裔天才少年对打UC伯克利，首发SEAL大模型排行榜！Claude 3 Opus数学封神

新智元 · 公众号 · · 2024-05-30 13:08

正文

新智元报道

编辑：编辑部

【新智元导读】一直以来，UC伯克利团队的LMSYS大模型排行榜，深受AI圈欢迎。如今，最有实力的全新大模型排行榜SEAL诞生，得到AI大佬的转发。它最大的特点是在私有数据上，由专家严格评估，并随时间不断更新数据集和模型。

前段时间，由27岁的华裔创始人Alexandr Wang领导的Scale AI刚刚因为融资圈了一波关注。

今天，他又在推特上官宣推出全新LLM排行榜——SEAL，对前沿模型开展专业评估。

SEAL排行榜主打三个特色：

- 私有数据

Scale AI的专有私有评估数据集无法被操控，确保了结果的公正性和无污染。

- 不断发展

定期使用新的数据集和模型更新排行榜，营造一个动态的竞赛环境。

- 专家评估

评估由经过严格审查的专家进行，确保最高的质量和可信度。

榜单地址：https://scale.com/leaderboard

这篇推特获得了Jim Fan大佬的转发，他认为SEAL是LMSys的非常好的补充和参照，提供公开模型的私密、安全、可信的第三方评估。

对此，Andrej Karpathy也深以为然。

代码

在代码任务中，GPT-4 Turbo Preview位列第一，然后是GPT-4o、Gemini 1.5 Pro（Post-I/O）。

而专门训练的代码模型CodeLlama 34B Instruct排在了第11位。

Scale AI编码提示集包含1,000个提示，涵盖各种编程语言、学科和编程任务，从调试到代码优化，从文档生成到理解复杂代码库，等等。

诸如HumanEva、Pass@k、MBPP、SWE-Bench、LiveCodeBench等评估基准在首次出现时很有用，但随着模型开始过拟合，它们已经变得不那么有价值了。

此外，这些模型与这些基准进行评估的方法往往不标准化，缺乏跨测试或随时间比较分数的核心要求。

Scale编码评估提供了一个标准化的LLM评估框架，能够跨模型进行比较并识别其优缺点。目前，它涵盖了最常请求的编程语言的用例集。

代码生成：根据给定的自然语言规范或描述创建新代码。

代码修复：识别并纠正现有代码中的错误。例如，调试、解决语法错误和修复逻辑错误。

代码理解：解释、阐明或澄清现有代码。例如，阐明某些代码段的工作原理，分解复杂算法。

代码修改：对现有代码进行更改或调整以满足新要求或条件。例如，更改功能，更新或增强特性。

代码优化：提高现有代码的性能。例如，提高效率，减少资源消耗（如内存或处理时间）。

学习辅助：帮助学习或理解编程概念、语言或工具。例如，提供最佳实践指导，解释编程概念。

代码翻译：将代码从一种编程语言转换为另一种语言，并根据目标语言的最佳实践调整代码结构、风格和习惯用法。

建议提供：提供关于编码实践、工具、库或框架的建议或意见。

注释改进：在现有代码中添加或改进注释。

测试开发：开发、增强或修复现有代码的测试。