文章介绍了马斯克旗下的大模型平台xAI的最新大模型Gork3的发展和特点。Gork3在算力提升、性能提升、深度学习和强化学习结合等方面有显著进展,并在多个领域进行了基准测试,表现优秀。文章还提到了Grok3的应用案例以及xAI的一些背景信息,如融资情况和发展历程等。
Gork3在算力提升和性能提升方面有明显进步,使用了深度学习和强化学习相结合的方法。模型能够执行大规模训练,并具备深度搜索功能,可以为用户提供准确的答案。
Gork3在多个领域的基准测试中表现优秀,包括数学推理、STEM和科学的一般知识以及计算机科学编程等。此外,xAI还对Gork3进行了盲测,综合得分达到了1400分,在所有类别中排名第一。
xAI是一家专注于大模型开发的AI公司,成立时间较短,但发展迅速。其融资情况良好,并拥有来自知名企业的核心团队成员。Grok系列是其主要产品之一,已在开源和商业化方面取得进展。
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和
应用
落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
今天中午12点20,马斯克旗下的大模型平台xAI进行技术直播,并发布了最新大模型——Gork3。
与第二代相比,Gork3使用的算力提升了310倍,性能提升了15倍,硬件基础相当的猛。
根据测试数据显示,Gork3在美国AIME数学竞赛、GPQA、代码编程方面,性能高于OpenAI的o1、o3mini以及DeepSeek的R1。
Gork3架构简单介绍
与其他大多数模型相比,Gork3属于含着金汤勺出生的大模型,直接使用了10万块H100进行了大规模训练,仅用了122天就完成了第一阶段的预训练,92天后再次将训练集群扩大相当有实力。
Grok3采用了深度学习和强化学习相结合的方法。通过深度学习,模型能够从大量数据中提取特征和模式。
强化学习使Grok3能够在训练过程中不断调整自身的策略,以获得更高的奖励信号。在推理任务中,Grok3通过多次尝试和验证,不断优化自身的推理路径,从而找到最优解。
Grok3的深度搜索功能是其架构中的另一个重要模块,够快速检索和验证信息,为用户提供准确的答案。深度搜索模块的设计灵感来源于当前最先进的搜索引擎技术,但Grok3在此基础上进行了显著的改进和优化。
深度搜索模块能够模拟人类的搜索过程,不仅能够快速检索大量的信息,还能通过推理和验证确保信息的可靠性。在搜索过程中,Grok3会生成一个高级进度条,展示其思考和搜索的过程。搜索完成后,在界面右侧会显示查询模型的启动摘要,包括浏览了哪些网站、验证了哪些来源,并且通常会交叉验证不同的来源,以确保答案的准确性。
该功能极大地节省了用户的时间,原本需要花费大量时间在互联网上搜索和筛选信息的任务,Grok3能够在短时间内完成,其效率远超传统搜索引擎。
Gork3测试数据
为了全面评估Grok3的性能,xAI团队在多个领域进行了基准测试,涵盖了一般数学推理、STEM和科学的一般知识以及计算机科学编程等方面。
测试结果显示,Grok3在各个领域的表现都很出色。在高中竞赛数学测试中,Grok3展现出了强大的解题能力;在博士级科学问题的解答上,也能够给出高质量的答案;在编程测试中,无论是竞争性编码还是面试问题,都非常出色。
除了基准测试,xAI 还对 Grok3 进行了盲测。该平台剥离了产品服务,仅对语言模型的引擎进行原始比较。用户在该平台上提交单一查询,会得到两个不同模型的响应,但无法知道这些响应来自哪个模型。
在这次盲测中,Grok3 的早期版本取得了令人瞩目的成绩,综合得分达到了 1400 分,在所有类别中均排名第一,且分数还在不断上升。这证明 Grok3 在实际应用中的强大性能,它能够在复杂的测试环境中脱颖而出,为用户提供高质量的答案。
Grok3应用案例
一个案例是要求Grok3现场创造一个融合《俄罗斯方块》和《宝石迷阵》的新游戏。Grok3生成的Python脚本定义了游戏中的常量、颜色、方块形状等元素。
在实际运行中,游戏呈现出了独特的玩法:当连接至少三个相同颜色的方块时,重力机制启动,方块消失,其他方块随之掉落,类似《宝石迷阵》的消除机制;同时,游戏也保留了《俄罗斯方块》的基本元素,但具体的行消除机制可能存在多种变体,这也为AI开发游戏奠定了基础。
在解决从地球到火星再返回地球的轨迹规划这一复杂物理问题时,Grok3展现出了强大的推理和编程能力。团队向Grok3提出生成一个动画3D图,展示从地球发射,降落在火星,然后在下一个发射窗口返回地球的过程的要求。
Grok3迅速给出了使用matplotlib的Python脚本代码。从代码逻辑来看,似乎在通过数值方法解决开普勒定律相关问题,以实现合理的轨迹规划。虽然实际轨道存在诸多复杂因素,但运行代码后生成的动画显示,航天器能够在地球和火星之间顺利往返,与实际情况非常接近。
说下本次观看直播的体验,「AIGC开放社区」曾在去年12月,连续参加了OpenAI举办的12场技术直播,在技术解读、产品介绍、直播宣传以及整个直播节奏方面,xAI距OpenAI还有很长的距离要走。单靠马斯克这一块金字招牌,还是太吃力了。
关于马斯克的xAI
xAI成立于2023年7月,是一家专注于大模型开发的AI公司。其核心团队成员来自OpenAI、谷歌DeepMind、微软研究院和特斯拉等知名企业。xAI的主打产品是类ChatGPT的大模型Grok系列,其中Grok-1于2024年3月17日正式开源,拥有3140亿参数,采用混合专家架构,能够生成文本、代码等内容,支持商业化用途。