专栏名称: AIGC开放社区
专注AIGC(生成式人工智能)领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展应用和落地,以及国内LLM的发展和市场研究,社区秉承共建、共享、开放的理念,提供对社区会员有价值的商业化思路和服务。
目录
相关文章推荐
人工智能那点事  ·  罗福莉深夜发声:我不是天才少女,请收手吧! ·  16 小时前  
爱可可-爱生活  ·  【academic-project-temp ... ·  昨天  
柠檬工会  ·  太强了,所有版本都能破解,永久激活! ·  昨天  
51好读  ›  专栏  ›  AIGC开放社区

刚刚,马斯克发布Grok-3,反击DeepSeek、OpenAI

AIGC开放社区  · 公众号  · AI 科技自媒体  · 2025-02-18 13:22

主要观点总结

文章介绍了马斯克旗下的大模型平台xAI的最新大模型Gork3的发展和特点。Gork3在算力提升、性能提升、深度学习和强化学习结合等方面有显著进展,并在多个领域进行了基准测试,表现优秀。文章还提到了Grok3的应用案例以及xAI的一些背景信息,如融资情况和发展历程等。

关键观点总结

关键观点1: Gork3的技术特点和发展

Gork3在算力提升和性能提升方面有明显进步,使用了深度学习和强化学习相结合的方法。模型能够执行大规模训练,并具备深度搜索功能,可以为用户提供准确的答案。

关键观点2: Gork3的基准测试表现

Gork3在多个领域的基准测试中表现优秀,包括数学推理、STEM和科学的一般知识以及计算机科学编程等。此外,xAI还对Gork3进行了盲测,综合得分达到了1400分,在所有类别中排名第一。

关键观点3: Gork3的应用案例

文章提到了Gork3在游戏开发和物理问题求解方面的应用案例,展示了其在复杂任务中的强大性能。

关键观点4: xAI的背景信息和发展历程

xAI是一家专注于大模型开发的AI公司,成立时间较短,但发展迅速。其融资情况良好,并拥有来自知名企业的核心团队成员。Grok系列是其主要产品之一,已在开源和商业化方面取得进展。


正文

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和 应用 落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

今天中午12点20,马斯克旗下的大模型平台xAI进行技术直播,并发布了最新大模型——Gork3。

与第二代相比,Gork3使用的算力提升了310倍,性能提升了15倍,硬件基础相当的猛。

根据测试数据显示,Gork3在美国AIME数学竞赛、GPQA、代码编程方面,性能高于OpenAI的o1、o3mini以及DeepSeek的R1。

Gork3架构简单介绍

与其他大多数模型相比,Gork3属于含着金汤勺出生的大模型,直接使用了10万块H100进行了大规模训练,仅用了122天就完成了第一阶段的预训练,92天后再次将训练集群扩大相当有实力。

Grok3采用了深度学习和强化学习相结合的方法。通过深度学习,模型能够从大量数据中提取特征和模式。 强化学习使Grok3能够在训练过程中不断调整自身的策略,以获得更高的奖励信号。在推理任务中,Grok3通过多次尝试和验证,不断优化自身的推理路径,从而找到最优解。

Grok3的深度搜索功能是其架构中的另一个重要模块,够快速检索和验证信息,为用户提供准确的答案。深度搜索模块的设计灵感来源于当前最先进的搜索引擎技术,但Grok3在此基础上进行了显著的改进和优化。

深度搜索模块能够模拟人类的搜索过程,不仅能够快速检索大量的信息,还能通过推理和验证确保信息的可靠性。在搜索过程中,Grok3会生成一个高级进度条,展示其思考和搜索的过程。搜索完成后,在界面右侧会显示查询模型的启动摘要,包括浏览了哪些网站、验证了哪些来源,并且通常会交叉验证不同的来源,以确保答案的准确性。

该功能极大地节省了用户的时间,原本需要花费大量时间在互联网上搜索和筛选信息的任务,Grok3能够在短时间内完成,其效率远超传统搜索引擎。

Gork3测试数据

为了全面评估Grok3的性能,xAI团队在多个领域进行了基准测试,涵盖了一般数学推理、STEM和科学的一般知识以及计算机科学编程等方面。

测试结果显示,Grok3在各个领域的表现都很出色。在高中竞赛数学测试中,Grok3展现出了强大的解题能力;在博士级科学问题的解答上,也能够给出高质量的答案;在编程测试中,无论是竞争性编码还是面试问题,都非常出色。

除了基准测试,xAI 还对 Grok3 进行了盲测。该平台剥离了产品服务,仅对语言模型的引擎进行原始比较。用户在该平台上提交单一查询,会得到两个不同模型的响应,但无法知道这些响应来自哪个模型。

在这次盲测中,Grok3 的早期版本取得了令人瞩目的成绩,综合得分达到了 1400 分,在所有类别中均排名第一,且分数还在不断上升。这证明 Grok3 在实际应用中的强大性能,它能够在复杂的测试环境中脱颖而出,为用户提供高质量的答案。

Grok3应用案例

一个案例是要求Grok3现场创造一个融合《俄罗斯方块》和《宝石迷阵》的新游戏。Grok3生成的Python脚本定义了游戏中的常量、颜色、方块形状等元素。

在实际运行中,游戏呈现出了独特的玩法:当连接至少三个相同颜色的方块时,重力机制启动,方块消失,其他方块随之掉落,类似《宝石迷阵》的消除机制;同时,游戏也保留了《俄罗斯方块》的基本元素,但具体的行消除机制可能存在多种变体,这也为AI开发游戏奠定了基础。

在解决从地球到火星再返回地球的轨迹规划这一复杂物理问题时,Grok3展现出了强大的推理和编程能力。团队向Grok3提出生成一个动画3D图,展示从地球发射,降落在火星,然后在下一个发射窗口返回地球的过程的要求。

Grok3迅速给出了使用matplotlib的Python脚本代码。从代码逻辑来看,似乎在通过数值方法解决开普勒定律相关问题,以实现合理的轨迹规划。虽然实际轨道存在诸多复杂因素,但运行代码后生成的动画显示,航天器能够在地球和火星之间顺利往返,与实际情况非常接近。

说下本次观看直播的体验,「AIGC开放社区」曾在去年12月,连续参加了OpenAI举办的12场技术直播,在技术解读、产品介绍、直播宣传以及整个直播节奏方面,xAI距OpenAI还有很长的距离要走。单靠马斯克这一块金字招牌,还是太吃力了。

关于马斯克的xAI

xAI成立于2023年7月,是一家专注于大模型开发的AI公司。其核心团队成员来自OpenAI、谷歌DeepMind、微软研究院和特斯拉等知名企业。xAI的主打产品是类ChatGPT的大模型Grok系列,其中Grok-1于2024年3月17日正式开源,拥有3140亿参数,采用混合专家架构,能够生成文本、代码等内容,支持商业化用途。







请到「今天看啥」查看全文