专栏名称: AIGC挖掘机
博主喜欢AI,Web3相关前沿内容,喜欢分享和折腾技术,也专注AI时代的创业与副业研究,目前在一线城市小厂工作,全干工程师,这里是他灵感的发源地,经常有一些奇思妙想。工作之余会分享一些相关的热门资讯,实践教程,稀缺资源。
目录
相关文章推荐
51好读  ›  专栏  ›  AIGC挖掘机

新皇登基,Claude3.5 Sonnet强势登场,性能超越GPT-4o,价格更具优势!

AIGC挖掘机  · 公众号  ·  · 2024-06-23 23:39

正文


时隔三个月Anthropic 公司在6月20号又发布了最新的大模型Claude3.5 Sonnet,各项参数已经碾压了GPT4o,网友们都为OpenAI 着急,喊话让ChatGPT5早点出来。

Anthropic 是由OpenAI分裂出去的兄弟公司,新模型在推理、知识和编码能力评估方面超越了以前的版本和竞争对手GPT 4o模型,同时其运行速度是Claude 3 Opus的两倍。


第一列参数代表不同测试领域或任务的名称,这些任务用于评估各个模型的性能。具体来说,这些测试任务及其含义如下:

  1. Graduate level reasoning (GPQA, Diamond):测试模型在研究生水平的推理能力。

  2. Undergraduate level knowledge (MMLU):评估模型对本科水平知识的掌握程度。

  3. Code (HumanEval):测试模型生成和理解代码的能力。

  4. Multilingual math (MGSM):评估模型在多语言数学题目上的表现。

  5. Reasoning over text (DROP, F1 score):测试模型在阅读理解和文本推理上的能力。

  6. Mixed evaluations (BIG-Bench-Hard):使用多种难度较高的任务对模型进行综合评估。

  7. Math problem-solving (MATH):评估模型在数学问题求解方面的能力。

  8. Grade school math (GSM8K):测试模型在小学数学题目上的表现。


该模型在视觉推理任务上也超越了之前的版本,例如解释图表和从不完美的图像中转录文本 视觉能力也超越了OpenAI的GPT 4o

这些测试任务及其含义如下:

  1. Visual math reasoning (MathVista, testmini):测试模型在视觉数学推理题上的表现。

  2. Science diagrams (AI2D, test):评估模型在科学图表理解方面的能力。

  3. Visual question answering (MMMU, val):测试模型在视觉问答任务中的表现。

  4. Chart Q&A (Relaxed accuracy, test):评估模型在图表问答任务中的表现。

  5. Document visual Q&A (ANLS score, test):测试模型在文档视觉问答任务中的表现。


其中Claude有一个重要的炸裂的功能发布Artifacts

让用户与 AI 生成的内容互动变得更加便捷。当你向 Claude 请求生成代码后,这段代码会直接显示在 Artifacts 窗口中。在这个窗口里,你可以立即修改代码,实时查看效果,并将修改后的代码直接集成到你的网站项目中。请看下面的视频:

在之前的文章也介绍过Claude怎么使用,它非常容易注册就封号,之前花了一点点小钱在万能的某宝上买了几个账号才能登录进去。

官方网站:https://claude.ai/

该模型可在Claude.ai和Claude iOS应用上免费使用。Claude 3.5 Sonnet的定价为每百万输入tokens 3美元和每百万输出tokens 15美元,具有200K tokens的上下文窗口。其性价比高,适合中高端应用场景。


回顾之前Claude发布的模型为:


最后

Cluade这个模型能力已经超越了OpenAI 的ChatGPT 4o能力,两个模型在日常的工作都可以用起来,免费账号在使用ChatGPT 4o时候会被限制频率可以切换到Cluade来,也可以参考自己之前的文章在某宝买一些中转的API搭建一个属于自己的应用,性价比非常高。

今天就分享到这里,如需加微信群讨论公众号相关内容在公众号回复关键字 “群” 获取群聊二维码。

如果觉得内容不错,欢迎点个关注,分享和在看~

参考历史文章:

《one-api 大模型 接口管理 & 分发系统 实测》

手把手教大家使用Vercel免费部署属于你自己的ChatGPT4.0应用

《刚刚发布的目前地表最强大模型Claude3 效果如何,简单注册测试~》