2025年2月10日,李飞飞在巴黎AI峰会发表开幕演讲,深入剖析现代AI崛起3大支柱,包括感知算法、认知科学和算力突破。她指出,AI正从感知智能向行动智能转型,空间智能与具身智能将成为未来发展新方向。
2025年2月6日,OpenAI前联合创始人、前特斯拉AI总监、李飞飞学生Andrej Karpathy,在YouTube发布3.5小时超长免费课程,进行大模型科普,花费近半小时,以DeepSeek-R1为例,详解背后强化学习技术路径巨大潜力。Andrej Karpathy称,R1在强化学习过程中涌现出思维能力,是最令人难以置信的成效。
2025年2月3日,
Fridman
Podcast发布长达5小时深度播客,大篇幅讨论DeepSeek对全球AI发展趋势影响、技术优势。节目嘉宾包括半导体行业咨询公司SemiAnalysis创始人Dylan Patel、艾伦AI研究院研究科学家Nathan Lambert。DeepSeek在技术创新上展现巨大潜力,DeepSeek的成功也引发海外竞争对手质疑与担忧,甚至被认为可能开启AI领域冷战。
本期长期主义,选择李飞飞演讲、Andrej Karpathy课程分析
DeepSeek-R1
、Fridman Podcast播客核心观点纪要,图灵AI、智东西发布,六合商业研选精校,分享给大家,Enjoy!
2月10日,李飞飞在巴黎AI峰会上发表开幕式演讲。近 100 个国家代表参加本次巴黎AI峰会,讨论 AI 安全发展与如何使AI具有包容性。
李飞飞在演讲中深入剖析现代AI崛起的三大关键要素:感知算法、认知科学、算力突破,指出AI正经历从感知智能、向行动智能的关键转型,空间智能与具身智能将成为未来发展新方向。
演讲核心理念,聚焦以人为本的AI,强调科技发展应始终服务人类福祉,具体阐释尊严、能动性、社区三大核心价值,以此构建AI伦理基石。
李飞飞阐述AI治理三大原则,倡导构建多元健康的AI生态系统,鼓励开放合作与公共参与,共同塑造科技向善的未来。
对我们许多人来说,AI通常被视为关于技术与现代世界的故事,也是关于未来的故事,这是我们今天齐聚于此的原因。
对我更是可以追溯到生命起源的故事,一个开始于 5 亿年前的故事。
那是极其遥远的时代,视觉的概念甚至不存在。眼睛尚未进化,没有任何生物亲眼目睹过这个世界,所有生命都处在各位在屏幕上看到的黑暗之中。
要用大约 10 分钟时间,回顾 5 亿年历史有点长,我在这里做个概括。
当进化赋予屏幕上这些简单生物,感知周围世界,做出反应的能力时,哪怕这种感知非常微弱,一场进化军备竞赛,便拉开序幕。
最初,这还只是一种被动的体验,简单让光线进入,很快变得更加丰富与活跃。
神经系统开始进化,视觉发展为洞察力,看到演变为理解。理解力进而催生行动,所有这些共同孕育智能。这一切,将永远重塑地球生命本质。
今天,快进到 5亿年后,人类智慧已经引导我们构想与塑造工作与生活方方面面。我们不再满足仅拥有大自然赋予的智能。现在,好奇心驱使我们创造像人类一样智能,甚至超越人类机器。
我们本周探讨这项开创性技术的探索之旅,始于 20 世纪中期。
英国伟大的数学家艾伦·图灵,极具远见卓识,甚至在计算机诞生前,他已经开始思考如何赋予计算机媲美人类的认知能力。他的著作始终是一种挑战,激励人类大胆想象,创造他所设想的智能机器。
同样的好奇心与雄心,深深吸引着早期的美国计算机科学家。他们不仅发起首个探索智能机器可能性的研究项目,更在 1956 年闷热的夏天,在AI术语被大众熟知几十年前,创造这个术语本身。这张幻灯片展示的,正是他们为那次研讨会撰写的最初研究论文。
有趣的是,他们当时认为只需2个月,就能解决这个问题绝大部分,并揭开智能之谜。
或许他们有些乐观,他们胆识令人钦佩。今天,这个2个月项目已经过去 820 个月,我们确实取得显著进展。
人们对AI另一个误解是,它仅是计算机与工程学问题。事实是,AI始终是充满活力的多学科交叉领域。我们今天所处的现代AI时代,是三项意义深远、又各具特色的技术与科学进步融合的成果。
在艾伦·图灵提出大胆猜想、达特茅斯AI夏季研讨会召开几年后,数学模型的创建成为可能。
神经生理学家Hubel 与 Wiesel ,率先揭示哺乳动物视觉皮层神经元处理的分层结构,荣获诺贝尔奖,彻底改变我们对视觉处理的理解。
大约同一时期,心理学家 Frank Rosenblatt 构建最早的神经网络原型之一,即感知器。
这些研究成果,持续激励后来计算机科学家,特别是早期先驱者,如 Kunihiko Fukushima、Jeff Hinton、Yann LeCun、Joshua Bengio 等,设计日益精密的模型,最终催生我们今天熟知的深度学习神经网络算法,使机器获得不可思议的能力。
第二个发展脉络开始显现,认知科学家深入探索人类自身思维,揭示我们感知周围环境能力的惊人深度与复杂性。
他们得出明确结论,我们大脑与塑造进化的环境密不可分。
大脑不仅是禁锢在我们头颅中的机器,更是孜孜不倦的学生,从生命最初时刻起,就渴望从每一丝光线、每一缕触感、每一声细语中学习。
我作为在 21 世纪初成长起来的科学家,那时感知算法,几乎是我研究领域的唯一焦点。
认知科学,给我带来的启示之一是规模。生物进化与发展进程,受益海量数据来驱动自身学习。我与合作者、学生们推测,机器学习也是如此。
这一次,数据不再通过生物传感器采集,而是来自现代数字设备与互联网。这启发我的实验室开展 ImageNet 项目,首个互联网规模的AI训练与评估数据集。
我们提出数据是神经网络等高容量算法的关键这一假设,使这些算法重获新生,性能达到前所未有水平,由此掀起全球范围内利用大数据发展AI的热潮,这是现在被称为AIscaling law的一部分。
最后,所有这些成就的取得,离不开算力强大的计算机。没有它们,一切都不可能实现。
这一切始于 20世纪 40 年代提出的计算机架构范式,冯·诺依曼架构等里程碑式的发展,这一架构至今仍被沿用,催生 20 世纪 70 年代初的首批微处理器。
有趣的是,正是视频游戏,推动硅芯片原始速度的飞速发展。
20 世纪 90 年代初,为制作更精细的游戏画面,兴起的家庭手工业,在短短20年内发展成全球产业巨头,英伟达等公司制造出越来越强大的图形处理器GPU。
GPU最终补上最后一块拼图,使神经网络算法,能够从互联网规模的大数据中进行学习。
早在 2012 年 ImageNet 挑战赛上,我们实验室率先将算法、数据、算力三大要素整合起来,首次实现如此大规模融合,几乎在一夜之间彻底改变我的研究领域。这是机器首次能够理解、可靠描述图像内容,还是数百万张图像。
如今,我们对此习以为常,在当时,这是尚未解决的难题,这项能力简直宛如科幻小说一般。
这是AI发展历程中,倒下的第一块多米诺骨牌,随之而来是一连串里程碑,这些里程碑的到来速度,似乎1年快过1年。
这项最初源于学术界的好奇心,如今正受到商业领袖、企业家、行业分析师、政治家们经久不息的热切关注。
我们现在所处的时代,历史学家们会定义为AI的第一个真正时代。
从哪个指标看,例如计算机科学学位、AI项目、投资、新兴创业公司等,AI革命都在不断扩展规模与范围。
过去几年里,随着大语言模型问世,AI领域再次迎来更加惊人的飞跃,大语言模型将现代AI的算法、数据、算力这三大要素,推向前所未有的高度。
新型架构Transformer,利用海量互联网数据进行训练,由数量惊人的最先进芯片提供算力支持,结果是机器能力实现比过去10年更加巨大飞跃。
我们已经习以为常认为,AI 可以用流利自然语言与我们对话,回答几乎任何领域问题,甚至可以生成各种复杂图像、声音、音乐、视频。
ChatGPT的巨大成功,创下用户采纳速度的新纪录,充分证明这项创新对我们日常生活的深刻影响,这些 AI 能力绝非只是表面功夫。
近年来,AI 模型在从手写识别,到博士级科学问题等一系列 benchmark 上的性能,都呈指数级增长,在某些对人类极具挑战性的任务中,AI 性能提升曲线近乎垂直。
在语言理解能力基础上,大语言模型开始在解决问题中扮演更积极角色,它们能够分解任务,为实现现实世界各种目标规划步骤。
AI 智能体是2025年对用户与企业都至关重要技术的最新篇章。精彩远不止于此,除了语言智能,还有更广阔天地。
思考一下人类,我们作为整体的智能生物,崭新的篇章正在开启。这个篇章中,视觉感知的应用,将扩展到更积极主动层面。我们研究领域,也是相机与机器人技术中,AI开始在数字或物理的 3D 空间中进行创造、理解、推理、交互。它可以用于与人或物进行互动,我们称为空间与具身智能。
看这张图片,我们视觉智能使我们能够轻松识别图中一切:猫、盆栽、桌子、牛奶。这真的是我们通过感知获得的所有信息吗?
在座各位,看到这张照片时,恐怕不只是理解图像的内容,还有不少人迫切想要伸手抓住那杯牛奶,以免它掉在地上摔碎。这只是简单的例子,它突显从观察到行动的巨大转变。
我相信我们正处在转折点,AI将从观察者,转变为与我们并肩行动的执行者。
对我所敬佩的艾伦·图灵,我现在认为他对未来AI愿景,可能过于狭隘与内向。
进化本身清晰表明,智能的真正力量,不仅在于思考,更在运用思想驱动行动。
想想人类空间智能,从古代金字塔到工业革命,从科学发现到艺术表达,它为人类文明的建设贡献何等巨大力量。
当 AI 扩展我们空间与具身智能后,我们与周围世界关系将发生怎样深刻变革,它将帮助我们创造什么,发现什么,我们又将共同构建怎样的未来?
展示我斯坦福学生与 World Labs 同事完成的四个案例,分别是:
大家看到的是梵高钟爱的画作《法国咖啡馆》,它通过我们生成式 AI 模型,栩栩如生展现在想象的 3D 世界中。
同样令人振奋的是,机器人技术,作为具身智能一种形式,也在快速发展。
这两项来自我们实验室的研究,代表将机器人学习与大语言模型、视觉模型相结合的最新进展,与上一代高度编程与预先设定动作的机器人相比,这些机器人能够在更加开放与真实执行日常的人类任务。
如果 AI 不仅能思考,更能行动,成为真正行动机器,我们引导这项技术的集体责任变得更加紧迫与重要。
我认为,这一切已将我们带到具有划时代意义的时刻,我们该如何应对AI发展带来的挑战?
多年来,这个问题一直指引我的工作。我深知这绝非易事,有个核心主题始终贯穿我的所有研究工作。
以人为本的 AI ,它包含三个朴素、重要的价值观:尊严、能动性、社区。
面对日益强大的技术,我们人类常常需要反思根本问题:究竟是什么定义我们人类自身?
抛开我们能够完成的各种任务,作为人类的自豪感,自主决策与行动能力,是我们存在的核心价值。
如果 AI 技术能够帮助保护,甚至帮助所有人重拾尊严感,特别是弱势群体,将无比欣慰。
例如,我们正在进行一个项目,展示机器人与 AI 技术如何在未来帮助重度瘫痪患者重获自主性。
在斯坦福大学,我合作者与学生们正在进行一个研究项目,通过非侵入式脑电图技术收集脑电波,AI 算法能够解码患者意念与指令,控制机械臂完成一系列精细动作,例如制作一份完整的日式寿喜烧料理。
我们实验室核心宗旨,一直是探索 AI 应用,以增强人类能力,非取代人类。
历史上每一次重大技术变革,都会重塑劳动力市场,AI 进步必将对就业产生深远影响。
我们不应将 AI视为替代劳动力,应充分利用 AI 增强人类自身能力,从激发创造力、到提升医疗健康水平,从加速科学发现、到赋能智能制造,AI 应用前景无比广阔。
AI 诸多技能与人类技能形成互补,意味着我们拥有大量机会,可以借助 AI 这种数字或物理合作,实现自身能力跃升。
过去10年,我们实验室在 AI 医疗健康领域研究表明,AI 在提升医疗质量、减轻医护人员负担方面具有巨大潜力。
例如,列举三个应用场景,展示如何利用 AI 算法驱动的智能摄像头帮助医院:1、提升临床医生手部卫生规范;2、辅助记录患者康复锻炼情况;3、协助手术器械跟踪管理。
另一条道路,通向由 AI 助力构建的更美好世界, AI 帮助我们建设更完善、更宏大、更有凝聚力的社区。
例如,AI 教育辅助工具,可以为越来越多人群,包括儿童与成年人,提供学习机会。
左侧,我们利用AI 与 VR 技术,为患有阅读障碍的大学生提供个性化学习工具;
右侧,美国布法罗大学创建AI 专家系统,旨在缓解言语语言病理学家的短缺,以便及早干预 3 ~ 10 岁儿童言语与语言障碍问题。
这个具有划时代意义的关键时刻,我们应如何同心协力,以理性、务实、负责任的态度治理 AI,最大限度发挥巨大潜力。
纵观 Main
Street 与 Wall Street,如今关于AI 大部分讨论,都充斥夸大其词与耸人听闻的论调,导致 AI 治理政策误入歧途。
我们需要用更科学的方法,评估 AI能力与局限性,制定更精准、可执行、基于现实的政策。
其次,AI 治理应采取务实态度,而非意识形态先行。
AI 是项强大技术,善用 AI,将有助改善我们生活与工作。
我们不应限制对这项新兴技术探索与上游研究,应将重点更多放在 AI 实际应用上,确保 AI 良性发展,防范潜在危害。
最后,我们需要构建更健康、更具活力的 AI 生态系统,这个生态系统中,学术界、创业者、开源社区、公共部门、大型企业都应积极参与,各自发挥关键作用,共同推动 AI 技术向前发展。
AI 将改变世界,需要各行各业的人,都参与到塑造这场变革中来。
如果这些资源过度集中在少数公司手中,AI 生态系统将因缺乏好奇心驱动的研究、顶尖人才、开源力量与跨学科探索而活力受损。
75
年前,艾伦·图灵预见未来,大胆提出制造思考机器的挑战。
今天,我们取得的进展已远超图灵的想象。AI 时代的科技进步令人叹为观止。
现在我们需要提出新的挑战:与其仅关注我们是否能创造 AI,不如思考如何让 AI 成为一股向善的力量。
Andrej
Karpathy
盛赞DeepSeek,称思维能力难以置信
近日,OpenAI前联合创始人、前特斯拉AI总监、李飞飞学生Andrej Karpathy在YouTube发布3.5小时超长免费课程,向普通观众做了一次全面大模型科普,花费近半小时时间,以最近爆火DeepSeek-R1为例,详解背后强化学习技术路径的巨大潜力。
Andrej
Karpathy认为,在大模型训练体系中,预训练、监督微调、强化学习是三个主要阶段,强化学习是一切调整到位的环节。
强化学习本质不复杂,即试错学习,在如何选择出最佳的解决方案、提示词分布等问题上还有许多细节尚未明晰,仅停留于各大AI实验室内部,缺乏统一标准,解决这些问题不容易。
DeepSeek-R1研究论文主要贡献是:它首次公开讨论强化学习在大语言模型应用,分享这项技术是如何让模型涌现出推理能力。
Andrej
Karpathy称R1在强化学习过程中涌现出思维能力,是最令人难以置信的成效。
未来,如果我们继续在大模型领域对强化学习路径进行Scaling,有望让大模型能解锁像AlphaGo第37步棋那样神之一手,创造出人类从未设想过的思考方式,比如用一门全新语言进行思考。这一切实现的前提是,我们需要创造足够大、足够多样问题集,让模型能自由探索解决方案。
DeepSeek-R1
验证强化学习魔力,Andrej Karpathy称非常可靠
强化学习基本工作方式,是让模型在可验证问题上,如数学、代码等领域不断试错,根据答案正误,激励得出正确答案的行为,最终引导模型实现能力提升。
Andrej
Karpathy称:强化学习是一切调整到位的环节。当前主流大语言模型训练体系,主要包含三个阶段:预训练、监督微调SFT、强化学习RL。
预训练,类似通读所有教科书基础知识,构建知识图谱;
监督微调SFT,类似模仿专家解题模板,学习规范化解题流程;
前两个阶段,预训练与SFT已发展成熟,被行业广泛采用。
OpenAI等公司内部有进行尝试,从未对外界直接披露。
在Andrej
Karpathy看来,DeepSeek-R1论文重要意义,正是在于它是第一篇公开讨论强化学习在大语言模型应用的论文,分享这项技术是如何让模型涌现出推理能力。
这篇论文激发AI界使用RL训练大语言模型兴趣,提供许多研究结果与技术细节。
DeepSeek在R1论文中,分享R1-Zero在AIME竞赛数学问题上准确性提升过程。
Andrej
Karpathy分析道,AIME数学题本身难度不是特别高,R1-Zero一开始表现不理想。随着强化学习步骤越来越多,模型准确性持续上升,它在这类问题上进行大量试错。
比正确率提升令人惊喜的是,模型在这过程中,打磨出独特解决方式。在优化的后期,模型倾向使用更长回答,也就是更多Token,来获得更高准确性。
R1在RL过程中,涌现出aha moment,这意味着它已经发现,尝试更多想法,从不同角度尝试、回溯、重构问题,能够明显提升准确率。
R1所做的事,与人类解决数学问题的模式类似。这一解决方案,不靠模仿人类,也不是靠硬编码,而是完全自然涌现。R1重新发现人脑思维过程,自学思维链CoT。
在Andrej
Karpathy看来,这是RL运用于大语言模型时,最令人难以置信的成效。
OpenAI员工先前的公开言论显示,OpenAI的o1、o3 mini等模型,都使用RL技术。
Andrej
Karpathy称就性能而言,这些模型与DeepSeek-R1大致相当,DeepSeek-R1是一款非常可靠的思考模型。
不是所有的模型,都适合使用思考模型进行处理,依照Andrej Karpathy个人经验,他大约80%~90%查询,依旧由GPT-4o完成,当他遇到非常困难的代码与数学问题时,才会使用思考模型。
RL是极其强大的学习方式,这一发现对AI领域并不新鲜,AI界已经在围棋领域见证这一点。
DeepMind开发的AlphaGo,通过自博弈与强化学习,突破人类棋手实力上限。当我们研究AlphaGo论文时,可以发现一张与DeepSeek论文中极为类似的图表。
这张图表显示,随着强化学习时间长度不断增加,强化学习模型蓝色实线在围棋上得分越来越高,最终超过蓝色虚线所表示的李世石的得分。
紫色实现所代表的监督学习模型,在逼近人类棋手得分后,未能实现超越。
监督学习模型,是在模仿人类专业棋手,如果只是试图模仿他们,能在一段时间里实现能力提升,最终会达到瓶颈,永远无法从根本上超越人类玩家。
强化学习过程中,模型力量要大得多。在围棋强化学习中,系统会广泛尝试在经验与统计学意义上能赢得比赛的棋步。
AlphaGo
会与自己对弈,使用强化学习来创建推演。系统在学习过程中,自主尝试很多棋步,最终制胜的策略会被加强。
强化学习不会受到人类表现限制,它甚至可以超越像李世石这样顶级玩家。
理论上,强化学习可以持续运行,成本原因,DeepMind团队选择在某些时候停止,但这一案例充分展示强化学习潜力。
通过DeepSeek-R1,我们才开始看到强化学习在大语言模型推理问题上更为泛化的潜力。
强化学习让AlphaGo能够提出更为新颖的制胜方法,这便是有名的第37步。AlphaGo战胜李世石比赛中,它下了一步极为罕见的棋,人类棋手走出这样一步棋的概率仅为万分之一。
事后看来,这是一步制胜的妙棋。AlphaGo在强化学习过程中,发现人类未知的下棋策略。
未来,如果我们继续在大语言模型领域,对强化学习路径进行Scaling,或许有可能解锁让人类摸不着头脑的解决方案。
Andrej
Karpathy认为,这有可能包括发现人类无法发现的类比,全新的思考策略,甚至是发明更加适合思考的语言。
原则上讲,强化学习系统行为的条条框框要少很多,它会尝试做任何能实现目标的事,也会逐渐偏离原始训练数据中的语言如英语。
实现这些的前提是,我们需要为模型创造足够大问题集,让模型能够不断优化与完善解决问题的策略,这正是目前许多大语言模型研究的前沿议题。
多模态AI与语言模型无本质区别,测试时训练将成为前沿方向
Andrej
Karpathy在课程中,预言未来将会出现的几大AI趋势。
音频、图片、视频等内容,对AI模型没有本质区别,都可以被Token化,只要采取大语言模型的训练逻辑与演进路线,便能提升模型在相关领域表现。
目前,大部分AI模型还是在执行人类安排的任务,没有自行规划长链条任务、并执行的能力,还是的重要一环。
测试时训练test-time
training,将会成为AI研究前沿。
先前训练模式中,训练后的参数不会再变化,这意味着模型停止学习,它们唯一学到的新东西是上下文窗口中的内容。
未来,随着多模态任务让输入Token量呈现指数级增长,一味提升上下文窗口的容量将无法满足模型性能提升的需求。
测试时训练,能让模型根据新数据微调参数,更擅长特定问题的解答。
强化学习作为上一个世代AI能力突破的重要方向,由DeepSeek在生成式AI时代再度发扬光大。
有不少海外竞争对手质疑、贬低DeepSeek成就与原创性。
在不少Andrej
Karpathy这样专注技术本身的广大AI开发者看来,DeepSeek获得的种种开源突破,对整个AI界未来发展,有利而无害,他们乐见DeepSeek创造出更多令人意想不到的惊喜。
DeepSeek
掀AI冷战,科技顶流播客5小时解读,30条观点一文速通
Fridman
Podcast近期发布长达5小时的深度播客,大篇幅讨论DeepSeek对全球AI发展趋势影响、技术优势。
节目嘉宾,分别为半导体行业咨询公司SemiAnalysis创始人Dylan Patel、艾伦AI研究院研究科学家Nathan Lambert。
Lambert将DeepSeek在强化学习上突破,称为DeepSeek时刻。针对OpenAI对DeepSeek抄袭指控,Lambert特别强调DeepSeek-R1不太可能窃取OpenAI o1推理链数据,是通过基于强化学习的试错型学习模式,让模型自然涌现出推理能力。
两位嘉宾详细拆解DeepSeek技术优势,DeepSeek创新的MLA机制与初代注意力机制相比,内存使用降低80%~90%。DeepSeek通过对MoE架构路由机制创新,提升专家模型使用效率,实现降本增效。
参与对谈的3人,都对DeepSeek开源模式深表赞同,Lambert称为真正开源,Fridman夸赞技术报告详尽,具备较好可操作性,是开源界一股积极力量,本地运行开源模型能更好保护用户隐私数据。
计算资源方面,Patel认为DeepSeek在全球名列前茅,仅次于OpenAI、Anthropic、Meta等少数几家公司,可能拥有5万张左右GPU。这一数字与国际巨头动辄10万量级的储备有差距,巨头们还需将这些算力分配给其他业务。
DeepSeek
贡献:最开放的前沿模型之一,推动AI知识普及
1、DeepSeek-R1上线后,立即开源,特别采用宽松的MIT许可证,没有对商用与具体用例进行限制,意味着其他开发者可以使用这款模型输出合成数据,训练高质量模型。
2、Llama开源权重,附带技术报告,DeepSeek技术报告可操作性更强,披露更多训练细节,包括开发过程中遇到困难,可能是目前最开放的前沿模型之⼀。
3、DeepSeek团队推动AI知识普及,他们论文详细披露技术细节,失败的经验都悉数分享,为全球其他团队改进自身训练技术提供切实可行的参考。
4、能通过优化芯片底层代码,实现高效训练的人才屈指可数,DeepSeek拥有此类人才。全球范围看,这种人才只存在美国前沿实验室与DeepSeek这样企业。
5、模型本身不会窃取数据,模型托管方,才有可能窃取数据。DeepSeek开源,意味着用户不必联网使用AI服务,对自己数据有完全掌控权。
6、梁文锋是马斯克、黄仁勋式的人物,事必躬亲,深入研究AI技术;坚信AGI愿景,希望让中国在AI生态系统建设方面发挥领导作用,是DeepSeek背后梦想家。
7、DeepSeek-R1在海外引发担忧,是提出新的模型训练方向。AI技术惊人发展,未来更多类似突破还会出现,目前有很多人在关注Agent,AI未来不止于此。
8、模型表现得好,应该尽快发布,AI发展迅猛,企业最好能缩短模型训练完成~正式发布间的时间差距。
如果运行良好,尽快发布,能提升用户对产品性能提升的感知,DeepSeek在这方面做得更好。
1、DeepSeek-R1亮点之一,是会展示完整思维链,模型思考过程本身,能提供独特的美感。o1-pro在许多问题上表现仍然比较亮眼,o3-mini-high聪明快速、平庸,缺乏新意与深度。
2、DeepSeek-V3倾向快速生成答案,通常会以格式化方式呈现,与大部分AI模型类似。DeepSeek-R1会先呈现大量思维链过程,转变语气,给出最终答案,答案形式与V3类似。
3、OpenAI与DeepSeek服务成本差异巨大,这是前者利润率很高,毛利超75%。DeepSeek是在赔钱运营,目前没有能力大规模提供服务。
4、DeepSeek-R1推理能力,不太可能是他们窃取OpenAI o1的推理链数据。即便DeepSeek真如OpenAI指控那样蒸馏模型,也在效率方面实现令人惊叹的成就。
5、DeepSeek-V3与DeepSeek-R1,都使用DeepSeek-V3 base作为基础模型。这一基础模型在预训练阶段,通过预测互联网海量文本中下一个词语,学习语言通用规律。主要功能是续写文本,并不像主流聊天机器人易于使用。
6、DeepSeek-V3采用的后训练流程,通过指令调优、基于人类反馈的强化学习RLHF等方法,构建出指令模型、聊天模型,或者 对齐模型、助手模型等。DeepSeek-V3性能出色,可以与GPT-4、Llama 405B等模型媲美。
7、DeepSeek-R1-Zero没有使用人工撰写的推理数据作为参考,而是运用强化学习方式,让模型自己在大量已有标准答案的可验证问题上进行训练,根据答案正确性给予模型奖励,让模型自发涌现出推理能力。
8、DeepSeek-R1完整版的推理能力,是预训练语言模型与强化学习结合的产物。在推理训练之后,进行基于人类反馈的强化学习。
1、DeepSeek创新的多头注意力机制,在长上下文处理过程中有很大优势。与初代注意力机制相比,这一创新能让注意力机制内存占用,减少大约80%~90%。
2、DeepSeek显著改进专家混合模型MoE的路由机制,引入额外参数,通过不断更新这个参数,积少成多,最终让模型能更均衡使用所有专家。
3、为实现性能最大化,DeepSeek进行CUDA层以下超底层编程优化,精细控制哪些核心负责模型计算、哪些核心负责通信,并在两者间进行动态切换。
4、通常MoE模型只包含8~16个专家模型,每次激活2个模型,DeepSeek采用极高的稀疏因子,从256个专家模型中激活8个,减少激活参数的规模,让成本更低。
1、苦涩的教训:深度学习领域,具有可扩展性的学习与搜索方法最终会胜出,研究人员最好减少人为先验知识影响,探索有效利用深度学习系统,解决宏大问题的简单方法。DeepMind没有使用人为数据,凭借强化学习训练出强大的AlphaZero模型,有效证明上述观点正确性,DeepSeek-R1在推理能力上实现的进步,也源自强化学习。
2、DeepSeek代码库很可能比较混乱,用于测试各种新想法。初期代码比较粗糙,但用于训练DeepSeek-V3与DeepSeek-R1的代码质量会比较高。
3、DeepSeek通过大量小规模失败,逐渐积累经验,证明专家混合模型的有效性、MLA方案的可行性等,最终找到超参数成功组合,这一过程需要不断试错。
4、在试错到一定阶段时,开发者需要发挥YOLO精神,即You Only Live Once,只活一次,大胆去做,将全部资源押注于一条路径上。
DeepSeek早期几乎赌上全部资源,正如OpenAI 2022年用公司100%资源训练GPT-4那样,都是极为大胆举措。
1、幻方量化2021年时,对外宣称拥有万张A100集群,这些模型不全部应用于大语言模型训练。
后期DeepSeek成立后,他们持续购入更多GPU,与幻方量化共享基础设施。
DeepSeek论文中提到V3模型训练时,用2千H800 GPU,SemiAnalysis认为他们实际拥有GPU数可能接近5万,分布于多个领域。
2、Meta训练开源模型,他们训练集群拥有约6万~10万H100等效GPU,Llama 3训练时使用1.6万H100 GPU,Meta 2024年披露总计购买40多万GPU,仅有很小一部分用于模型训练。
这一角度看,DeepSeek集群规模,在全球范围内名列前茅,仅次于OpenAI、Anthropic、Meta等少数几家公司。
3
、无论将超级AI应用于哪里,都需要大量算力,计算资源差距累积效应对美国至关重要。
如果未来世界只有2%~3%经济增长,维持芯片这样高科技产品出口是很愚蠢的,会损失大量经济利益。
在超级AI即将出现,产生重大影响背景下,美国单方面维持技术差距有利可图。随着AI对算力需求呈指数级增长,即便DeepSeek这样中国企业,也会在大规模普及AI过程中遇到困难。
1、AGI可能会在2030年之后实现,未来几年会持续出现快速、令人惊讶进展,DeepSeek-R1是这一进程中最新进展。
2、AGI竞赛,不会是赢家通吃局面,目前AI领域各大玩家都还在牌桌上,谷歌仍是AGI竞赛领跑者,OpenAI更具舆论优势,微软已经在AI方面实现盈利。
3
、DeepSeek出现,让中美双方都更为直接感受到AGI影响。DeepSeek时刻,很可能是冷战开始,这不是DeepSeek错,是⼀些因素共同作用的结果。
六合年度报告全库会员,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
智能时代专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
智能时代专题第二季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
智能时代专题第一季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
六合商业研选付费专题报告,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
元宇宙专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
头号玩家第二季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
头号玩家第一季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
智能电动汽车专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
【智能时代】现象级游戏《黑神话:悟空》的思考,游戏二元属性,文化与科技
【智能时代】自动驾驶:汽车iPhone时刻,中国三大流派演化形成中
诸神之战:美国科技巨头,从春秋五霸进入战国七雄|GBAT 2023 大湾区智能时代产业峰会
人类未来文明三部曲之二:智能时代专题预售开启,奇点临近,未来已来