专栏名称: AIGC开放社区

专注AIGC（生成式人工智能）领域的专业社区，关注GPT-4、百度文心一言、华为盘古等大语言模型（LLM）的发展应用和落地，以及国内LLM的发展和市场研究，社区秉承共建、共享、开放的理念，提供对社区会员有价值的商业化思路和服务。

刚刚，马斯克发布Grok-3，反击DeepSeek、OpenAI

AIGC开放社区 · 公众号 · AI 科技自媒体 · 2025-02-18 13:22

主要观点总结

文章介绍了马斯克旗下的大模型平台xAI的最新大模型Gork3的发展和特点。Gork3在算力提升、性能提升、深度学习和强化学习结合等方面有显著进展，并在多个领域进行了基准测试，表现优秀。文章还提到了Grok3的应用案例以及xAI的一些背景信息，如融资情况和发展历程等。

关键观点总结

关键观点1: Gork3的技术特点和发展

Gork3在算力提升和性能提升方面有明显进步，使用了深度学习和强化学习相结合的方法。模型能够执行大规模训练，并具备深度搜索功能，可以为用户提供准确的答案。

关键观点2: Gork3的基准测试表现

Gork3在多个领域的基准测试中表现优秀，包括数学推理、STEM和科学的一般知识以及计算机科学编程等。此外，xAI还对Gork3进行了盲测，综合得分达到了1400分，在所有类别中排名第一。

关键观点3: Gork3的应用案例

文章提到了Gork3在游戏开发和物理问题求解方面的应用案例，展示了其在复杂任务中的强大性能。

关键观点4: xAI的背景信息和发展历程

xAI是一家专注于大模型开发的AI公司，成立时间较短，但发展迅速。其融资情况良好，并拥有来自知名企业的核心团队成员。Grok系列是其主要产品之一，已在开源和商业化方面取得进展。

正文

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

今天中午12点20，马斯克旗下的大模型平台xAI进行技术直播，并发布了最新大模型——Gork3。

与第二代相比，Gork3使用的算力提升了310倍，性能提升了15倍，硬件基础相当的猛。

根据测试数据显示，Gork3在美国AIME数学竞赛、GPQA、代码编程方面，性能高于OpenAI的o1、o3mini以及DeepSeek的R1。

Gork3架构简单介绍

与其他大多数模型相比，Gork3属于含着金汤勺出生的大模型，直接使用了10万块H100进行了大规模训练，仅用了122天就完成了第一阶段的预训练，92天后再次将训练集群扩大相当有实力。

Grok3采用了深度学习和强化学习相结合的方法。通过深度学习，模型能够从大量数据中提取特征和模式。强化学习使Grok3能够在训练过程中不断调整自身的策略，以获得更高的奖励信号。在推理任务中，Grok3通过多次尝试和验证，不断优化自身的推理路径，从而找到最优解。

Grok3的深度搜索功能是其架构中的另一个重要模块，够快速检索和验证信息，为用户提供准确的答案。深度搜索模块的设计灵感来源于当前最先进的搜索引擎技术，但Grok3在此基础上进行了显著的改进和优化。

深度搜索模块能够模拟人类的搜索过程，不仅能够快速检索大量的信息，还能通过推理和验证确保信息的可靠性。在搜索过程中，Grok3会生成一个高级进度条，展示其思考和搜索的过程。搜索完成后，在界面右侧会显示查询模型的启动摘要，包括浏览了哪些网站、验证了哪些来源，并且通常会交叉验证不同的来源，以确保答案的准确性。

该功能极大地节省了用户的时间，原本需要花费大量时间在互联网上搜索和筛选信息的任务，Grok3能够在短时间内完成，其效率远超传统搜索引擎。

Gork3测试数据

为了全面评估Grok3的性能，xAI团队在多个领域进行了基准测试，涵盖了一般数学推理、STEM和科学的一般知识以及计算机科学编程等方面。

测试结果显示，Grok3在各个领域的表现都很出色。在高中竞赛数学测试中，Grok3展现出了强大的解题能力；在博士级科学问题的解答上，也能够给出高质量的答案；在编程测试中，无论是竞争性编码还是面试问题，都非常出色。

除了基准测试，xAI 还对 Grok3 进行了盲测。该平台剥离了产品服务，仅对语言模型的引擎进行原始比较。用户在该平台上提交单一查询，会得到两个不同模型的响应，但无法知道这些响应来自哪个模型。

在这次盲测中，Grok3 的早期版本取得了令人瞩目的成绩，综合得分达到了 1400 分，在所有类别中均排名第一，且分数还在不断上升。这证明 Grok3 在实际应用中的强大性能，它能够在复杂的测试环境中脱颖而出，为用户提供高质量的答案。

Grok3应用案例

一个案例是要求Grok3现场创造一个融合《俄罗斯方块》和《宝石迷阵》的新游戏。Grok3生成的Python脚本定义了游戏中的常量、颜色、方块形状等元素。

在实际运行中，游戏呈现出了独特的玩法：当连接至少三个相同颜色的方块时，重力机制启动，方块消失，其他方块随之掉落，类似《宝石迷阵》的消除机制；同时，游戏也保留了《俄罗斯方块》的基本元素，但具体的行消除机制可能存在多种变体，这也为AI开发游戏奠定了基础。

在解决从地球到火星再返回地球的轨迹规划这一复杂物理问题时，Grok3展现出了强大的推理和编程能力。团队向Grok3提出生成一个动画3D图，展示从地球发射，降落在火星，然后在下一个发射窗口返回地球的过程的要求。

Grok3迅速给出了使用matplotlib的Python脚本代码。从代码逻辑来看，似乎在通过数值方法解决开普勒定律相关问题，以实现合理的轨迹规划。虽然实际轨道存在诸多复杂因素，但运行代码后生成的动画显示，航天器能够在地球和火星之间顺利往返，与实际情况非常接近。

说下本次观看直播的体验，「AIGC开放社区」曾在去年12月，连续参加了OpenAI举办的12场技术直播，在技术解读、产品介绍、直播宣传以及整个直播节奏方面，xAI距OpenAI还有很长的距离要走。单靠马斯克这一块金字招牌，还是太吃力了。

关于马斯克的xAI

xAI成立于2023年7月，是一家专注于大模型开发的AI公司。其核心团队成员来自OpenAI、谷歌DeepMind、微软研究院和特斯拉等知名企业。xAI的主打产品是类ChatGPT的大模型Grok系列，其中Grok-1于2024年3月17日正式开源，拥有3140亿参数，采用混合专家架构，能够生成文本、代码等内容，支持商业化用途。