时隔三个月Anthropic 公司在6月20号又发布了最新的大模型Claude3.5 Sonnet,各项参数已经碾压了GPT4o,网友们都为OpenAI 着急,喊话让ChatGPT5早点出来。
Anthropic 是由OpenAI分裂出去的兄弟公司,新模型在推理、知识和编码能力评估方面超越了以前的版本和竞争对手GPT 4o模型,同时其运行速度是Claude 3 Opus的两倍。
第一列参数代表不同测试领域或任务的名称,这些任务用于评估各个模型的性能。具体来说,这些测试任务及其含义如下:
Graduate level reasoning (GPQA, Diamond):测试模型在研究生水平的推理能力。
Undergraduate level knowledge (MMLU):评估模型对本科水平知识的掌握程度。
Code (HumanEval):测试模型生成和理解代码的能力。
Multilingual math (MGSM):评估模型在多语言数学题目上的表现。
Reasoning over text (DROP, F1 score):测试模型在阅读理解和文本推理上的能力。
Mixed evaluations (BIG-Bench-Hard):使用多种难度较高的任务对模型进行综合评估。
Math problem-solving (MATH):评估模型在数学问题求解方面的能力。
Grade school math (GSM8K):测试模型在小学数学题目上的表现。
该模型在视觉推理任务上也超越了之前的版本,例如解释图表和从不完美的图像中转录文本
视觉能力也超越了OpenAI的GPT 4o
这些测试任务及其含义如下:
Visual math reasoning (MathVista, testmini):测试模型在视觉数学推理题上的表现。
Science diagrams (AI2D, test):评估模型在科学图表理解方面的能力。
Visual question answering (MMMU, val):测试模型在视觉问答任务中的表现。
Chart Q&A (Relaxed accuracy, test):评估模型在图表问答任务中的表现。
Document visual Q&A (ANLS score, test):测试模型在文档视觉问答任务中的表现。
其中Claude有一个重要的炸裂的功能发布Artifacts
让用户与 AI 生成的内容互动变得更加便捷。当你向 Claude 请求生成代码后,这段代码会直接显示在 Artifacts 窗口中。在这个窗口里,你可以立即修改代码,实时查看效果,并将修改后的代码直接集成到你的网站项目中。请看下面的视频:
在之前的文章也介绍过Claude怎么使用,它非常容易注册就封号,之前花了一点点小钱在万能的某宝上买了几个账号才能登录进去。
官方网站:https://claude.ai/
该模型可在http://Claude.ai和Claude iOS应用上免费使用。Claude 3.5 Sonnet的定价为每百万输入tokens 3美元和每百万输出tokens 15美元,具有200K tokens的上下文窗口。其性价比高,适合中高端应用场景。
最后
Cluade这个模型能力已经超越了OpenAI 的ChatGPT 4o能力,两个模型在日常的工作都可以用起来,免费账号在使用ChatGPT 4o时候会被限制频率可以切换到Cluade来,也可以参考自己之前的文章在某宝买一些中转的API搭建一个属于自己的应用,性价比非常高。
今天就分享到这里,如需加微信群讨论公众号相关内容在公众号回复关键字 “群” 获取群聊二维码。
如果觉得内容不错,欢迎点个关注,分享和在看~
参考历史文章:
《one-api 大模型 接口管理 & 分发系统 实测》
《手把手教大家使用Vercel免费部署属于你自己的ChatGPT4.0应用》
《刚刚发布的目前地表最强大模型Claude3 效果如何,简单注册测试~》