2024年9月5日,投资播客《No Priors》发布OpenAI创始成员、前特斯拉AI高级总监Andrej Karpathy深度访谈,讨论自动驾驶汽车演变、特斯拉Optimus人形机器人、当前AI发展瓶颈、如何将AI能力进一步与人类认知结合、AI教育新项目Eureka Labs等内容。Andrej Karpathy凭借在OpenAI、特斯拉等顶尖科技公司丰富经验,输出独特、深刻见解。2024年9月4日,OpenAI联合创始人、前首席科学家Ilya Sutskever新公司安全超级智能SSI(Safe Super Intelligence),在成立2个多月、仅有10名员工情况下,宣布获得10亿美元融资,估值50亿美元。这不仅归功于Sutskever在AI领域影响力,还得益于合作伙伴Daniel Gross,Daniel Gross是有着丰富创投经验的神秘联合创始人,不仅在算力、筹款、人才引进方面发挥关键作用,还在硅谷拥有广泛人脉网络与复杂投资组合。本期长期主义,选择Andrej Karpathy访谈纪要、SSI联合创始人Daniel Gross背景介绍,Web3天空之城、智东西发布,六合商业研选精校,分享给大家,Enjoy!最新Andrej
Karpathy深度对话:从自动驾驶到教育革命,探索AI重塑人类未来AI领域大神级人物Andrej Karpathy与No Priors投资播客展开了关于AI现状与未来发展,及其对教育与认知影响的深度探讨。Karpathy凭借在OpenAI、特斯拉等顶尖科技公司丰富经验,输出独特、深刻的见解。访谈涵盖广泛主题,从自动驾驶技术现状与未来,到AI研究最新进展;从大语言模型发展潜力,到AI在教育领域革命性应用;从人机融合可能性,到AI对人类认知与学习方式深远影响。Karpathy强调AI不应该是取代人类,而是成为赋能人类的工具,深入探讨AI研究的技术细节,包括Transformer架构重要性、合成数据潜力与挑战、小型高效模型发展前景等。
教育方面,Karpathy正在开发创新的AI驱动教育平台,旨在为全球每个人提供高质量、个性化教育体验,对AI在改变学习动机、打破传统教育壁垒方面的潜力表示乐观。Karpathy认为特斯拉在解决软件问题方面处于领先地位,Waymo面临硬件挑战,预测特斯拉将在长期内占据优势,软件问题相对更容易解决。自动驾驶技术,从演示到实际产品化,经历漫长的10年,仍未实现真正全球化。Karpathy认为自动驾驶领域的进展,可以类比AGI的发展。Transformer架构被视为重大突破,它解决之前神经网络架构许多限制。当前研究重点,已转向数据集与损失函数的创新,而不是架构本身。合成数据在AI训练中被视为未来趋势,但需要小心处理以避免模型退化。Karpathy预测,未来AI模型,可能会更小、更高效,甚至可能只需10亿参数,就能实现强大认知功能。合成数据被视为解决AI训练数据不足问题的重要方法,Karpathy警告,使用合成数据时需要谨慎,以避免模型的隐性退化。他提出在合成数据中注入熵的重要性,以保持数据多样性与丰富性。Karpathy预测,未来可能会出现参数量大大减少,功能强大的AI模型。Karpathy认为,当前大型模型可能浪费大量容量来记忆不重要信息,未来AI系统可能更像是由多个专门化小模型组成的生态系统,而不是单一大模型。Karpathy正在开发以AI为基础的全球化教育平台,旨在为每个人提供高质量个性化教育。Karpathy认为AI可以实现教育的真正个性化,适应不同学习者背景与需求。AI教育助手,可以扮演类似个人导师的角色,大幅提高学习效率。Karpathy认为教育不应该仅仅是娱乐,而应该是一种挑战性、塑造思维的过程。谈话探讨AI如何改变学习动机,以及在后AGI时代,教育可能更多成为一种娱乐与自我提升的方式。Karpathy强调文化环境对学习动机与职业选择的重要影响。他希望AI教育能够打破传统精英主义与血统观念,使高质量教育更加民主化。Karpathy强调,数学、物理、计算机科学,仍将是塑造思维能力的核心学科,对于未来世界至关重要,建议年轻人应该专注培养解决问题的能力与逻辑思维,而不是仅仅积累知识。Karpathy预见未来教育将更加灵活,人们会更频繁回到学校学习新技能。NoPriors:今天我们与Andrej Karpathy一起聊天,他不需要再多介绍。Andrej是著名研究员,备受喜爱的AI教育家,OpenAI早期团队成员,曾担任特斯拉Autopilot负责人,现在致力教育领域AI。我们将与他讨论研究现状,他的新公司,以及我们对AI的期望。Andrej
Karpathy:我很高兴来到这里。NoPriors:你曾领导特斯拉Autopilot,现在我们确实有了完全自动驾驶的汽车,道路上的乘用车。你如何看待当前能力集,我们应该多快看到能力提升或普及的乘用车?Andrej
Karpathy:我在自动驾驶领域,可能花了大约5年时间,我认为这是迷人的领域。
目前在这个领域发生的事情是,我确实认为我会从自动驾驶中找到很多类比,我会说,类似AGI,这可能是因为我熟悉这个领域。我有点觉得我们在自动驾驶方面,已经有一点达到AGI,现在有一些系统,你可以带着它们四处转转,并作为付费客户使用。在旧金山,Waymo非常常见,你可能也坐过Waymo。我坐过很多次,非常惊人,它可以带你四处转转,而你是以产品形式付费。有趣的是,我第一次坐Waymo,是10年前,几乎正好是2014年左右。是一位在那工作的朋友,给我做了一个演示。10年前,它带我绕着街区开了一圈,是一次完美的驾驶。花了10年,从我看到的演示,变成我可以付费使用的产品,是在城市规模内扩展等。NoPriors:你认为有多少是监管因素,多大程度是技术因素?你认为技术什么时候准备好?是最近吗?Andrej
Karpathy:我认为是技术,你不可能在30分钟的一次演示驾驶中看到全部情况。你不会遇到他们10年来,必须应对的所有问题。演示与产品之间存在巨大差距,我认为很多与法规等方面有关。我确实认为,我们在这种意义上,在自动驾驶领域达到AGI的一点点成就。尽管如此,我认为真正令人着迷的是全球化根本没有发生。你有一个演示,你可以在南方使用它,但世界还没有改变,这需要很长时间。从演示到实际全球化,我认为还有个巨大差距。我会说,这与AGI相关,我怀疑当我们得到AGI时,它看起来会很相似。自动驾驶领域,人们普遍认为Waymo领先特斯拉。我个人认为,特斯拉领先Waymo。这看起来并非如此,我对特斯拉及自动驾驶计划非常看好。我认为特斯拉面临的是软件问题,Waymo面临的是硬件问题。在我看来,软件问题要容易解决得多。特斯拉已经在全球部署大量汽车,规模宏大,我认为Waymo需要达到这一点。一旦特斯拉能够真正部署正常工作,我认为这将是非常令人难以置信的。我昨天刚试驾最新版本特斯拉自动驾驶系统,现在它已经可以把我带到任何地方。我不得不说,他们最近有了非常好的改进。我最近一直在使用它,它运行得相当好。昨天它为我完成一次神奇的驾驶,我对团队工作印象深刻。我认为特斯拉主要面临的是软件问题,Waymo主要面临的是硬件问题。目前看起来Waymo有些领先,我认为当我们10年后回顾时,谁真正实现规模化,谁的收入来源最多,这个角度看,我认为特斯拉领先。NoPriors:你认为我们离解决软件问题的转折点有多远,何时才能达到某种程度的相等性?如果你看Waymo的车,它有很多非常昂贵的LiDAR与其他传感器,这些传感器支持了软件系统。特斯拉方法是只用摄像头,这样可以有效去除大量成本与复杂性,可以应用于多种不同类型的车,你认为这种转变什么时候会发生?Andrej
Karpathy:希望在未来几年左右。真正有趣的是,我不确定人们是否意识到,特斯拉也使用很多昂贵的传感器,他们只是在训练时使用这些传感器,有一堆装有LiDAR的车子在行驶。他们做了许多无法扩展的事情,还有额外传感器等,他们进行地图绘制与所有这些工作。在训练阶段完成这些工作,将其浓缩成部署到车上的仅基于视觉的测试包,这就像是在传感器与成本上套利。我认为这是很聪明的策略,还没有被充分理解。我认为这会有很好效果,像素已经包含信息,我认为网络会有能力做到这一点。训练阶段,这些传感器确实有用,但在测试阶段,它们并不有用。NoPriors:似乎另一个正在发生的转变,是从许多边界情况设计启发式方法,向端到端深度学习的转变,这就是最近发生的另一个转变。你要谈谈这个问题,介绍一下这个吗?
Andrej
Karpathy:我认为这一直是特斯拉从一开始就计划好的,我在谈论神经网络如何能够逐步取代整个栈。当我加入时,有大量C++代码。现在,车上运行的测试包中,C++代码已经少很多。我们没有谈论后端大量内容,神经网络有点像穿过系统。首先,它只是在图像层面做检测。然后它处理多张图像,给你一个预测。随着时间推移,多个图像给你一个预测。你正在丢弃C++代码,最终只是发出转向命令,我认为特斯拉是在逐步取代整个栈。我理解是,现在Waymo不是这样,他们尝试过,最终没有实现,这是我目前的理解。我不确定,他们没有谈论这个问题。我从根本上相信这种方法,如果你这样考虑的话,我认为这是最后一块拼图。我确实怀疑,像特斯拉这样端到端系统,在大约10年内,就是一个神经网络。意思是,视频流进入一个神经网络,然后输出指令。你必须逐步建立起来,一步步来。即使所有中间预测与我们所做的所有事情,我认为它们并没有误导开发。我认为它们是其中一部分,这有很多微妙原因。像端到端驾驶,当你只是模仿人类等行为时,你用很少监督信息来训练一个庞大的神经网络,训练这么多亿个参数信号太少了。这些中间表示等,有助于你开发所有特征与检测器,然后让端到端部分问题变得容易得多。我怀疑,我不确定,我不是团队的一员,有大量预训练正在进行,以便你可以进行端到端微调。我觉得有必要逐步推进,这就是特斯拉所做的,我认为这是正确的方法,看起来它正在发挥作用,我真的很期待。NoPriors:如果你从头到尾开始做,你无论如何都不会有数据,这说得通。你离开之前,在特斯拉的人形机器人项目上做过工作。我有很多问题,一个是从这里开始,有什么可以转移的?Andrej
Karpathy:所有东西都可以转移,我认为人们并没有意识到这一点。NoPriors:这是一个很大的声明,这看起来是一个完全不同的问题。Andrej
Karpathy:我认为汽车在实际观察时就是机器人,汽车是机器人。我认为特斯拉不是一家汽车公司,这种看法是误导性的,特斯拉是一家规模化的机器人公司。规模化也是一个完全独立的变量,他们不是在制造单一产品,而是在制造制造产品的机器,这是一个完全不同的事情,我认为特斯拉是一家规模化的机器人公司。从汽车到人形机器人之间的转变,并不费劲。早期版本Optimus机器人,它以为自己是辆车,它有完全相同的电脑与摄像头。这真的很有趣,我们在机器人运行汽车网络,它在办公室走来走去。它试图识别可驾驶空间,现在我想都是可行走的空间了。它有点泛化了,需要进行一些微调,它认为自己是在驾驶,但是在穿越一个环境。NoPriors:一种合理的方式来看待这件事,它是一个机器人,很多东西可以转移,但比如说你缺少执行与行动数据。Andrej
Karpathy:你肯定会缺少一些组件,我还想说的是,很多东西是可以转移的,比如说Optimus的启动速度,对我来说非常令人印象深刻。马斯克一说我们要做这个,大家就带着所有合适工具出现了。所有东西很快就出现了,所有这些CAD模型(计算机辅助设计Computer-Aided
Design模型)与供应链的东西。我感觉,特斯拉内部有这么多构建机器人方面的专业知识,用的工具都一样。就好像在重新配置,从一辆汽车变成电影《变形金刚》里那种。它们只是被重新配置与重新洗牌,但就像是同样东西。你需要所有相同组件,需要考虑所有相同种类东西,无论是在硬件方面、规模方面,还是在智能方面。关于智能,有很多转移,不仅是特定网络的转移,还有整个方法、标签团队,以及所有协调与人们采用的方法,我只是觉得有很多的转移。NoPriors:你认为人形机器人或人形设备的第一个应用领域,会是什么?Andrej
Karpathy:我认为很多人有这样愿景,比如说做洗衣服等,我认为那会来得很晚。我不认为B2C是一个正确起点,我不认为我们可以让机器人像是撞伤奶奶,这就是我的看法,有点像是这样,我觉得这会涉及太多法律责任,我认为这不是正确的方法。但比如说一个非常诡异的拥抱,它只会倒下之类的事情,你知道的,这些东西不完美,需要一些工作才能改进。我认为最好的客户,首先是自己,特斯拉可能会采取这种方式。如果人们能看得出来,我对特斯拉非常看好。第一个客户是自己,你在工厂里孵化它,可能进行大量物料处理等工作。这样,你不必与第三方合作签订合同,避免涉及律师等繁琐的事情。你孵化它,第二步是B2B。你去有巨大仓库的公司,我们可以进行物料处理,起草合同,安装围栏,完成所有这些事情。
当你在多家公司孵化后,我认为那时,你才开始进入B2C应用。我确实认为我们会看到B2C机器人,比如Unitree等公司,开始推出我非常想要的机器人。有一个G1机器人,我可能会买一个,可能会有一个人在平台上建立起来的生态系统。在规模上的优势,可能会使这种方法获胜。一开始,这涉及很多物料处理,逐渐向越来越多的具体应用发展。我真正感兴趣的是Friedman关于树叶吹机的挑战。我会很喜欢看到一个乐观主义者,走在街上,小心翼翼捡起每一片树叶,这样我们不需要树叶吹机。我认为这是可行的,是一个惊人的任务,我希望这是其中一个最早的应用。或者就算是耙叶也可以,应该行得通,只是非常安静耙叶。NoPriors:他们确实有一个正在工作的机器,只是不是人形机器人。我们可以谈一谈人形机器人这个论点吗?最简单的解释是,这个世界是为人类而建的,你只需要建造一套硬件,正确做法是建立一个可以在这套硬件上完成越来越多任务的模型。还有另一种观点认为,人类在任何特定任务上都不是最优的。你可以让他们更强大、更大、更小,或者其他任何方式,为什么我们不做超级人类的事情?Andrej
Karpathy:我认为人们可能低估进入任何单一平台固定成本的复杂性,你为任何单一平台支付大量固定成本,集中化,拥有一个可以完成所有任务的平台,非常有意义。类人外形非常吸引人,人们可以非常容易进行远程操作。这是一种非常有用的数据收集方式,人们能够很容易进行远程操作,我认为这一点通常被忽视。还有你提到为人类设计的世界等方面,我觉得也很重要。我认为我们将在类人平台上有一些变种,但任何平台都有很大固定成本。最后一个方面是,你可以从不同任务之间的迁移学习中受益良多。在AI中,你希望有一个单一神经网络,它是多任务,能够处理很多事情,这就是你获得所有智能与能力的地方。这也是为什么语言模型如此有趣的原因,你有一个单一体系,比如文本领域,在执行所有这些不同问题时,它们之间共享知识,这一切都耦合在一个神经网络中,我认为你需要那样的平台。你希望为捡叶子收集的所有数据,能为所有其他任务带来收益。如果你为某个单一用途构建一个特殊东西,你不会从所有其他任务转换中受益。NoPriors:是的,我认为有一种说法是,宇树科技人形机器人G1(2024年5月13日首次发布,2024年8月20日推出量产版),定价1.6万美元/9.9万元人民币,但似乎很难在某个特定物料清单BOM下,构建一个非常有能力的人形机器人。如果你想在轮子上装一个能做事情的手臂,也许在开始时,有更便宜的通用平台方法,这对你有意义吗?Andrej
Karpathy:更便宜的通用平台方法?从硬件角度看,是的,我认为这有意义。你可以给它装一个轮子,而不是脚等。我确实感觉,我想知道这是否会有点陷入局部最小值。我只是觉得,选择一个平台,并使其完美,是长期来看相当不错的赌注。另外一件事是,我觉得这会让人们感到熟悉,我认为人们会理解你可能想与它交流。我觉得这其中的心理层面因素,可能会更倾向于人类平台,除非人们害怕它更喜欢一个更加抽象的平台。我不知道这是否会只是一个类似八轮怪物在做事情,我不知道这会不会让人觉得更吸引或者更少吸引。NoPriors:有趣的是,我认为宇树科技Unitree另一种形式是狗,这几乎是一个更友好或更熟悉的形象。Andrej
Karpathy:是的,随后人们看《黑镜》,突然这只狗变得像一个可怕的东西,很难想透。我只是认为心理学上讲,人们会很容易理解正在发生的事情。NoPriors:你认为相对于证明这个未来,技术里缺少了什么里程碑?NoPriors:是的,特指机器人,或者是人形机器人或其他任何人类形态的东西?Andrej
Karpathy:我不确定我是否对这个问题有十分清晰看法,我确实认为在人形机器人形态中,对于下半身的控制,我不确定是否适合通过示范进行模仿学习。下半身涉及很多倒立摆控制等复杂问题。对于上半身,需要大量远程操作、数据收集、端到端的处理。在这个意义上,一切都变得非常混合化,我不清楚这些系统如何互动。NoPriors:当我与这个领域专家交谈时,他们很多关注的是执行机构、操作,以及某种数字操作等。Andrej
Karpathy:我预计在一开始,大部分项目是通过远程操作来启动、模仿它,直到能达到95%成功率。谈到人对机器人的比例,逐渐让人们成为机器人监督者,而不是直接执行任务,这些变化都会随着时间推移逐步发生。我不知道是否有任何我特别熟悉的具体障碍,我只是觉得这需要很多繁重的工作,很多工具已经可以使用。Transformers是一个美丽的组织块,你可以用它做任意任务。你只需要数据,把它以正确形式输入,训练它,进行实验,部署它,不断迭代,这确实是很多繁重的工作,我不知道是否存在某个单独的技术性问题,会阻碍我们进步。NoPriors:我们现在大块研究,处于什么状态?Andrej
Karpathy:我们处于非常好的状态,我认为,也许还没有完全被认可,但Transformer确实非常了不起,它不仅是另一个神经网络,而是一个非常通用的神经网络。例如,当人们谈论神经网络中缩放损失时,缩放损失在很大程度上是Transformer特性。Transformer之前,人们在玩LSTM与堆叠它们等(主要使用长短期记忆模型LSTM,并尝试堆叠多个LSTM层提高模型能力)。你得不到清晰的缩放损失,这个东西无法训练,也不起作用。Transformer首次实现真正的缩放,你得到了缩放损失,一切都变得合理。它就像是一个通用的训练计算机,我把它看作是一种计算机,它就像一个可微的计算机。你可以给它输入与输出,以及上亿数据,你可以用反向传播来训练它,它会自我安排完成任务。我认为这是我们在算法领域,偶然发现的一个神奇东西。其中有一些个别的创新,例如,残差连接已经存在。你有需要插入的层标准化,有注意力模块。没有像tanh之类的饱和非线性,它们会消除梯度信号,在Transformer中没有这些。有几项创新,大约四或五个,都被整合到Transformer中,这就是谷歌在他们论文中所做的,这种方法已经被训练出来。突然间,你获得缩放损失,有了可以在很大程度上训练的结构,这是重大突破。NoPriors:你觉得我们还没有达到这种突破的极限,会有关于数据壁垒以及规模进一步发展成本问题的讨论,你怎么看这个问题?Andrej
Karpathy:我们开始进入的领域是,我不认为神经网络架构再从根本上限制我们,它已经不是瓶颈。以前Transformer是一种瓶颈,现在已经不再是瓶颈。现在我们更多在讨论什么是损失函数,数据集在哪里,这些问题几乎成为瓶颈。这不再是一个基于你想要它变成什么,而重新配置的通用组织,这就是为什么许多活动已经转移到这个领域。很多公司与其他应用这种技术的企业,不再怎么考虑Transformer,他们不再怎么考虑架构。Llama发布中,Transformer没有太大变化。我们增加RoPE相对位置编码,这是主要变化。其他一切都无关紧要,像是一些小东西3%的提升。RoPE是唯一插入的东西,这就是Transformer过去5年左右的变化,在这方面没有太多创新。大家都认为这是理所当然的,让我们训练它等。大家主要在数据集与损失函数的细节上进行创新,所有活动都集中在那里。NoPriors:在那个领域,以前我们用的是互联网数据,现在互联网数据已经用完,问题主要围绕合成数据或者更昂贵的数据收集。Andrej
Karpathy:我觉得这是个好观点,现在很多活动都在大型语言模型LLM方面。互联网数据,不是你想要的用于训练Transformer的数据。它像是一个最近邻,让你走得更远,令人惊讶。互联网数据是一堆互联网网页,你真正想要的是你大脑里的内心独白,你大脑中的轨迹。在你解决问题时,大脑中的路径,如果我们有10亿个这样的路径,比如AGI就在这里,大致来说,这在很大程度上是准确的,而我们根本没有这种情况。现在很多活动所在领域,我认为,是通过互联网数据来实现接近这一点,互联网碰巧有足够推理痕迹与大量知识,加上变换器使其工作的还不错。我认为现在很多活动,集中在将数据集重构为内心独白格式。大量合成数据的生成,对此很有帮助。有趣的是,当前模型在多大程度上帮助我们创建下一代模型,就像是一种改进的阶梯。NoPriors:你认为合成数据有多大用处,或者说能带我们走多远?每个数据、每个模型,都有助于更好训练后续模型,至少在创建工具、数据标注等方面,也许部分是合成数据。你认为合成数据的部分有多重要?Andrej
Karpathy:当我与人们谈话时,他们说,我认为这是我们能够取得进展的唯一途径,我们必须让它发挥作用。但在使用合成数据时,你必须小心,这些模型会悄无声息退化,这是一个主要问题之一。
如果你去ChatGPT,让它告诉你1个笑话,你会发现它只知道大约3个笑话。这就像是唯一的情况,它大多数时候只给你1个笑话,有时候会给你大约3个笑话。这是模型退化了,退化得悄无声息。当你看任何单一输出时,你只看到一个单一例子。当你实际查看分布时,你会注意到这不是一个非常多样化的分布,悄无声息退化了。当你进行合成数据生成时,这是一个问题,你非常需要那种熵。你需要数据集中有丰富多样性与丰富性,否则,你得到的数据集会变得收缩。当你查看任何单个示例时,你看不到它,但分布已经失去大量熵与丰富性,它在无声中变得更糟。这就是为什么你必须非常小心,必须确保在数据集中保持熵,为此有很多技术。例如,有人发布Persona数据集作为示例。Persona数据集,是包含10亿个个性特征的数据集,像人的背景:我是老师或者我是艺术家,我住在这里,我做这件事等,它就像是虚构的人类背景的小段落。当你进行合成数据生成时,不只是说,完成这个任务,并用这种方式做,而是想象你在向这个人描述,加入这些信息,现在你迫使它探索更多空间,获得一些熵。你必须非常小心注入熵,保持分布。我认为这是困难的部分,也许人们一般不会充分意识到这一点。我认为合成数据,绝对是未来,我印象是我们不会缺乏数据,我只是觉得你必须小心。NoPriors:你觉得我们现在从这项研究中,学到什么关于人类认知的东西?我不知道我们是否在学习,有人可以争辩说,弄清我们想要的推理轨迹的形状,例如,有助于实际理解大脑的运作方式。Andrej
Karpathy:我会小心对待类比,总的来说,我确实认为这是完全不同的事物,有些类比还是可以做的。举个例子,我认为Transformer在很多方面比人脑更好,它们是更高效的系统。它们不如人脑工作的原因,主要是数据问题,大体上说,这是我认为的一阶近似。Transformer记忆序列的能力,远超过人类。比如,如果你给它一个序列,并在该序列中进行一次前向与反向传播传递,如果你给它序列前几个元素,它会完成序列其余部分。它记住序列,它对这个非常擅长。如果你给人类一次演示一个序列,人类绝对记不住。我确实认为,基于梯度的优化,我们在训练神经网络时一直进行前向-反向更新,在某些方面比人脑更高效。这些模型更好,它们还没有准备好大放异彩。许多认知方面,我认为它们可能会突出。只要有了正确输入,它们会变得更好。NoPriors:这是计算机在各种应用中都具有的算术能力,不是吗?Andrej
Karpathy:我认为人类大脑有很多限制,工作记忆非常小,Transformers有更大的多的工作记忆,这将继续保持下去,它们是更高效学习者。人脑在各种限制下运作,不明显的是人脑是否使用反向传播,也不明显那将如何工作。它是一个非常随机的动态系统,在各种限制条件下工作,包括环境条件等。我确实认为我们实际拥有的东西,潜力上比大脑更好,只还没达到那一步。NoPriors:你如何看待随着时间推移,人类与不同AI系统的增强?你认为这是一个可能的发展方向吗?用AI模型增强人类?Andrej
Karpathy:我认为总体来说,绝对是这样。NoPriors:有一种抽象的版本,你将其用作工具,那是外部版本。还有,合并的场景,很多人最终谈到这个。Andrej
Karpathy:我们已经在某种程度上融合,问题是,有输入输出的瓶颈。大多数情况下,如果你有这些模型中任何一个,你已经在使用它们了。NoPriors:是的,有点不一样,我想人们已经争论40~50年,认为科技工具只是人类能力的延伸,计算机是人类思维的自行车等。NoPriors:有一部分AI社区认为,我们可以通过某种形式解决与未来AI或其他事物的潜在冲突。例如,像Neuralink的提议等。Andrej
Karpathy:没错,就是这样。我不知道这种合并会是什么样,我肯定能看出你想要减少工具使用的输入输出,我认为这有点像外皮层。我们是在我们新皮层上构建,不是吗?这只是下一层。它恰好在云中等,但它是大脑的下一层。NoPriors:早在2,000年代初《Accelerando》一书中就有一个版本,所有东西都体现在一副计算眼镜中,这副眼镜与大脑连接,佩戴它们。如果你失去它们,你就会觉得失去一部分个性或记忆。Andrej
Karpathy:我认为这很有可能。今天,手机几乎已经是这样,我认为情况会变得更糟。当你把科技产品放在一边时,你就像大自然中裸体人类,或者你失去部分智慧,这非常令人焦虑。NoPriors:一个非常简单的例子是地图,我注意到现在很多人不再能很好导航他们城市,他们总是使用转弯提示方向。Andrej
Karpathy:如果我们有这样一个东西,比如通用翻译器,我认为离这不远了。如果你把东西放在一边,你就会失去与不讲英语人交流的能力。NoPriors:我很乐意重新利用我大脑那部分来做进一步研究。Andrej
Karpathy:我不知道你是否看过视频,就像有个孩子,他拿着一本杂志,却在杂志上滑动。令我着迷的是,这个孩子不理解什么是自然存在的,什么是技术附加在自然之上的,它变得如此透明。我认为这看起来可能类似,人们将开始假设这些工具的存在。然后,当你把它们拿走时,你会意识到,人们好像不知道什么是技术,什么不是。如果你戴着这个东西,它总是在为你翻译所有人或者为你做类似事情,可能人们就会失去基本的认知能力,我认为存在这种可能性。我们将会专精化。你不能理解说西班牙语的人吗?这是什么情况?或者,当你去到物体面前,就像在迪士尼,所有物体都是有生命的。我认为我们可能会走向那样一个世界,为什么不能与物体说话?就像今天,你可以与Alexa说话,向对方询问一些事情等。NoPriors:我见过一些玩具公司,它们试图在玩具中嵌入大语言模型LLM,以便能够与孩子互动。Andrej
Karpathy:是不是很奇怪,当你走到一扇门前,不能直接说开门?另一个我喜欢的例子是《超能敢死队》或《机械公敌》,有人取笑说,你不能随便与东西对话,真是见鬼了。NoPriors:如果我们在谈论外部大脑,这是一件非常重要的事情,需要将其民主化。你怎么看当前市场结构,以及在大规模语言模型研究中发生的事情?只有少数几家大型实验室,有机会在下一代训练中取得进展。这对于未来人们能够访问的技术来说,意味着什么?Andrej
Karpathy:你可能暗示的是生态系统的状态,我们有几个封闭平台形成的寡头垄断,也有相对落后的开源平台,比如Meta
Llama等,这反映了开源生态系统的状况。当我们开始把这些东西看作是一个外部大脑时,有一句加密货币的说法叫没有你的密钥,就没有你的Token。如果说,这就像不是你的权重,就不是你的大脑?NoPriors:这很有趣,一个公司在控制你的外皮质,很大一部分你的……Andrej
Karpathy:这开始感觉有点侵入性了。如果这是我的外皮质,我认为人们会更加在意所有权。你意识到你是在租用你的大脑,似乎租用你的大脑有点奇怪。NoPriors:这个思想实验就像是,你愿意放弃所有权与控制权,来租用一个更好的大脑?我愿意,是的。我认为这是一个权衡,我们会看看这如何运作。Andrej
Karpathy:也许有可能默认使用封闭版本,它们很出色,但你可以在各种情况下有一个后备方案,我认为这有点像今天事情的发展。就像当一些闭源提供商API宕机时,人们开始实现对开放生态系统的后备方案,他们完全控制,并感到由此而来的赋权。这也许就是对大脑未来样子的扩展,如果发生什么事情,你就依靠开源资源。大多数时候,你……Andrej
Karpathy:我认为是这样,百分之百。这不是显而易见的观点,或者现在人们可能不一定同意的事情,我百分之百认为是这样。NoPriors:我一直在想的是,最小、高效的模型是什么,你可以在某种意义上达到,无论是参数大小,还是你想怎么考虑?还有就是你的观点,你对蒸馏、小模型有很多思考,我有些好奇。Andrej
Karpathy:我认为它可以出奇的小,我确实认为当前模型浪费大量容量来记住不重要的东西。比如,它们记住SHA哈希码,记住一些古老的东西,数据集没有得到最好的整理。我认为这种情况会有所改变,我们只需要到达认知核心。我认为认知核心可以非常小,它只是一个会思考的东西。如果它需要查找信息,它知道如何使用不同工具。Andrej
Karpathy:我认为甚至10亿,10亿就足够了,我们可能会达到那一点,模型可以非常非常小。我认为它们可以非常小的原因根本上,就像蒸馏一样,蒸馏出乎意料有效。蒸馏是你得到一个非常大的模型,或者大量的计算资源之类的东西,监督一个非常小的模型,你可以把很多功能塞进非常小的模型里。NoPriors:这是某种数学表示或信息理论公式?几乎感觉你现在应该能够计算这个。Andrej
Karpathy:可能。也许可以这样考虑这个问题:我们回到互联网数据集,这是我们正在处理的东西。互联网大约是0.001%的认知,99.99%的信息垃圾,我认为大部分信息对思考部分没有用。NoPriors:也许换个方式来问这个问题就是,有没有一种数学表示形式,可以体现认知能力相对模型大小的关系?或者你如何在想要达成的目标中捕捉认知,知道这是最小值或最大值?也许没有一个好的方式来表示这一点。Andrej
Karpathy:我认为即使是10亿参数也太多了,我不知道,我们拭目以待。NoPriors:考虑到设备边缘与云端的区别,以及使用模型的原始成本,一切都很令人兴奋。在不到10亿参数情况下,我也在本地设备上有我的外脑。Andrej
Karpathy:可能不是一个单一模型,对我来说,思考这会如何发展,是很有趣的,我认为你想要从并行处理中受益。你不想有一个顺序过程,你想要有一个并行过程。我认为公司在某种程度上,也有点像工作的并行化。公司中有一个层级结构,这是组织内进行信息处理与简化所需要的一种方法。我认为我们最终可能会拥有一个大语言模型公司的结构,我认为你拥有各种不同能力、专注独特领域的模型,并不是什么不太可能的事情,这将在很大程度上开始类似公司。程序员与项目经理等角色在并行工作,并为你协同运算,也许这样思考是不正确的,它更像是一个蜂群。你的外皮层,就像是一个大型语言模型的蜂群,这更像是一个生态系统,就像一个生物生态系统,你在其中有专门角色与生态位,我认为它将开始趋同那样。你有自动将问题上升到蜂群的其它部分,具体取决于问题难度。也许CEO就像一个非常聪明的云模型,工人可以便宜得多,甚至可能是开源模型或其他什么。我的成本函数与你的成本函数不同,这可能会很有趣。NoPriors:你离开OpenAI,从事教育工作,你一直是一名教育者,为什么要这样做?Andrej
Karpathy:我的起点是,我一直是一名教育者,我热爱学习,也热爱教学,这是一个我长期以来一直非常热衷的领域。另一件事是,我认为有一个宏观图景在推动我,我认为在AI领域有很多活动,我认为大多数是想要取代或替代人类,这主题就像是把人滑到一旁。我总是对能赋能人的任何事物,更感兴趣。从一个更高层面看,我是站在人类一边。我对AI能做什么来赋能人类感兴趣,我不希望未来人们只是处于自动化的一边。我希望人们处于一种非常有权能的状态,我希望他们变得非常出色,比今天出色得多。另一个非常有趣的方面是,如果一个人有全科的完美导师,他们能走多远?我认为如果人们有完美的课程安排,他们可以走得非常远。我们看到这一点,假如有些富人可能有导师,他们确实走得很远。我认为我们可以通过AI实现类似效果,甚至是超越。NoPriors:80年代开始,就有非常明确的文献支持这一点,一对一辅导可以帮助人们提高一个标准差,是布鲁姆的东西,有很多非常有趣的先例。你如何通过AI视角来看待这一点?或者说,什么样的第一类产品,能真正帮助实现这一点?有像《钻石时代》这样的书,他们讨论《年轻女士的插图入门》之类的东西。Andrej
Karpathy:我会说,我肯定受到它某些方面启发。实际操作中,我正在尝试建立一个单一课程,希望它能成为人们学习AI时首选课程。我认为基本问题,在于如何扩大这些课程的规模。例如,我曾在斯坦福教授过231N,这是第一门深度学习课程,相当成功。问题是,如何真正扩大这些课程规模?如何让地球上80亿人都能受益?他们讲不同语言,能力水平各不相同,单个教师无法覆盖如此广泛受众。问题在于,如何使用AI来扩大一个优秀教师影响力。我这样思考这个问题:老师负责大量课程创建与设计,以目前AI能力,我不认为这些模型能够创建一个好的课程。我认为它们适合成为学生的前端,向他们解释课程内容。老师不再直接面对学生,而是在后台设计课程材料,AI作为前端,能够说各种不同语言,引导学生完成整个课程。NoPriors:这种情况,可以理解为类似助教TA的体验?Andrej
Karpathy:AI助教,作为学生的前端,与学生互动,引导他们完成课程。我认为这是可以解决的,尽管现在不存在,它可以变得非常好。随着时间推移与能力提高,课程设置,可能会以各种方式重构。我喜欢找到一些东西,今天的AI能力与对它有一个良好的模型。我认为很多公司,可能并不直观理解今天能力在哪里,最终会构建一些超前于现有能力的东西,或者可能不够雄心勃勃。我确实认为,这是一个可能性与真正有趣、激动人心的结合点。NoPriors:回到你刚才提到的某件事,我觉得非常鼓舞人心,特别是考虑到你的背景,以及你对我们目前研究状况的理解。我们不知道从学习角度看,人类表现极限是什么。考虑到更好工具,这里有一个很简单的类比。我们1个月前,刚举办奥运会,一个跑者以及最好的英里时间或者任何体育运动,今天的水平比以前好多了。抛开像10年前兴奋剂不谈,仅仅你开始训练得更早,拥有非常不同的计划,我们有更好科学理解,我们有技术,我们有装备。你相信如果我们从工具与课程开始,人类可以取得更大进步,这一点令人惊叹。Andrej
Karpathy:是的,我认为我们甚至还没有触及到可能实现的任何一部分。我认为有两个维度,第一个是全球化维度,我希望每个人都能接受到真正优质教育,另一个是一个人可以走多远,我认为这两个问题都非常有趣、令人兴奋。NoPriors:通常当人们谈论一对一学习时,他们关注的是自适应性,即在挑战与水平相当的人。你认为今天可以用AI实现这一点吗?还是说这是未来的事情,今天更多是扩大影响力、多语言与全球化?Andrej
Karpathy:显而易见的是,诸如不同语言之类的事情非常容易实现。我认为当前模型在翻译方面非常好,可以实时定位与翻译材料。很多事情都是显而易见、容易实现。根据一个人背景进行适应,我觉得这不像是容易摘到的果实,也不至难到遥不可及。这确实是你需要的东西,不是每个人都有相同背景。如果你过去熟悉其他学科,利用你知道的东西,来做类比,也是非常有帮助的。这在教育中非常强大,这是一个你想要利用的维度。我认为这开始变得不显而易见,需要一些工作。一个简单的版本不会太难,你可以想象只是提示模型,比如,我懂物理或者我懂这个,你可能会得到一些东西。我指的是一些真正有用的东西,不是那种你可以演示,有时能工作的东西。我指的是它真的起作用,以一种人的方式起作用。NoPriors:这就是为什么我问到适应性问题,人们学习速度不同,或者有些事物他们觉得有挑战性,其他人则不然,反之亦然。这种情况下,你怎么去调整?我猜你可以随着时间推移,将某人在某方面优劣重新引入到模型中。Andrej
Karpathy:这就是AI的特点。我觉得很多这些功能就像提示一样,你总是会看到演示,但你真的会得到一个产品吗?你知道我的意思吗?这个意义上,我会说演示很近,产品还很远。NoPriors:我们之前讨论过一件有趣的事情是,研究界发生的某种血统关系。你来自某些实验室,每个人都在谈论彼此来自哪个实验室。我认为有相当高比例诺贝尔奖得主,曾经在前诺贝尔奖得主实验室工作过。这大概是某种文化、知识或品牌传播,不知道是哪一种。在一个以AI教育为中心世界里,你如何保持谱系,或者这不重要?或者你如何看待这些关于网络与知识传播方面的问题?
Andrej
Karpathy:我不想生活在一个非常看重谱系的世界里,我希望AI可以帮助你稍微打破这种结构。这感觉有点像某种稀缺资源的把关机制,好像是说,有有限数量的人拥有这个谱系等,我认为这有点像是某种方面的表现,我希望它能够打破这种结构。NoPriors:这确实是一个方面,比如实际学习的一部分谱系,这也像是聚集效应。为什么所有或者大部分AI社区都在湾区?为什么大部分金融科技社区都在纽约?我认为很多时候,是你把一些有共同兴趣与信念的聪明人聚集在一起,他们从这个共同核心中延伸出来,以一种有趣的方式分享知识。你必须在某种程度上,让这种行为转移到线上,尤其是对年轻人而言。Andrej
Karpathy:其中一个方面有点像教育方面。比如今天如果你是某个社区一员,你会获得大量教育与学徒机会等,非常有帮助,会让你在那个领域达到一种有权能的状态。另一个方面是文化方面,也就是你受什么激励,以及你想要从事什么工作。文化重视什么、推崇什么、奉什么为神圣?在学术界,举例来说,就是H指数。每个人都关心H指数,你发表的论文数量等。我曾是社区的一员,我见证了这一点。我感觉现在我到了不同地方,各个社区都有不同偶像。我认为这对人们动机、他们的社会地位,以及他们真正关心的事物,产生巨大影响。我觉得我曾是不同社区的一部分,比如在斯洛伐克长大,那是一个非常不同的环境,在加拿大也是一个非常不同的环境。举个例子,我会说在加拿大,我在多伦多大学与多伦多。我不认为它是一个非常具有企业家精神的环境,根本不会想到你应该创业。人们不这么做,你不会有朋友在做这个,你也不知道你应该仰望它。人们不会读所有这些创始人们的书籍,然后讨论他们,这根本不是你向往或在意的事情。每个人都在谈论的是,你在哪里找到实习?你以后打算去哪工作?大家似乎都接受有一套固定的公司列表,你应该从中选择,并与其中一家对齐,这就是你仰望或者追求的目标。这些文化方面的因素非常强大,可能是主要变量。我几乎觉得,如今教育方面的问题,已经相对容易,比如说有大量资源已经可用等。NoPriors:这一点上,我们几周前聊的一个话题是,我记得你在网上发过,学习与娱乐是有区别的。学习确实应该是困难的,我认为这涉及到地位的问题,地位是一个伟大的激励因素,比如说谁是偶像。你认为,通过这样系统,在动机方面,你能够改变多少,如果这是一个阻碍因素?你是否专注给予人们资源,使他们能够在自己能力范围内,尽可能在过程中走得更远,比历史上任何时候都更进一步,已经是鼓舞人心?或者你是想改变有多少人愿意学习,或者至少激励他们走上学习的道路?Andrej
Karpathy:愿意是一个有负担的词。我会说,我想让学习变得容易得多,然后可能会有人不愿意学习。今天,比如人们为了实际原因愿意学习,比如他们想找到工作等,这是完全有道理的。在一个前AGI社会中,教育是有用的。我认为人们会因此有动机,他们在经济上不断攀升等。NoPriors:但在后AGI社会,我认为教育在很大程度上将是一种娱乐。包括像成功的结果教育,不仅是让内容从你身上流过。Andrej
Karpathy:是的,我认为是这样。结果就像理解、学习、能够贡献新知识,或者你如何定义它。NoPriors:我认为这不是偶然的,如果你回到200年前、300年前,做科学的人是贵族或有钱人,我们都会成为与安德烈一起学习的贵族。Andrej
Karpathy:是的。我确实认为,我看到它非常类似你之前的引用。我觉得学习某些东西有点像去健身房,但这是对大脑的锻炼,就像去健身房的感觉。去健身房是很有趣的,人们喜欢举重等。有些人不去健身房,有些人去,但需要努力。它是努力的,也有点有趣。你也有一个回报,比如你在各方面对自己感觉良好,我认为教育等同于那样的感觉。这就是我说教育,不应该是有趣的时候的意思等。这有点有趣,我认为这是一种特定的乐趣,我确实认为,也许在一个后AGI世界里,我希望发生的是人们,他们确实经常去健身房,不仅是身体上,还包括精神上。这是我们仰望的东西,有很高的教育程度。NoPriors:我可以问你关于Eureka的最后一个问题吗,只是我觉得这会让人们感兴趣,比如第一个课程的受众是谁?Andrej
Karpathy:第一个课程的受众,我主要认为这是本科水平的课程。如果你在技术领域读本科,我认为这将是一个理想的受众。我确实认为我们现在看到的是一种陈旧的教育概念,你上学,毕业去工作。这样的模式,在一个变化如此迅速的社会里,会完全崩溃。随着科技快速发展,人们会更加频繁回到学校学习。
这种学习,有点像本科水平,我认为任何年龄段的人都在范围之内。年龄上会非常多样化,主要是技术性的人,他们大多数是真正想要了解不少内容的人。Andrej
Karpathy:我希望是在2024年底。我确实有很多干扰正在积累,我认为2025年初可能是个时间节点。我在努力把它做好,这确实需要时间才能完成。NoPriors:如果你今天有小孩,你认为他们应该学习什么,以确保一个有用的未来?Andrej
Karpathy:在我看来,有一个正确答案。正确答案,大概是数学、物理、计算机科学这些学科。我这么说的原因,是我认为它对思维能力有帮助,这是最佳的思维技能核心。我有特定的背景,我会这么想,这只是我的看法。我觉得我上过的物理课与其他课,都塑造了我思维方式,这对解决问题非常有用。如果我们处在一个AGI前的世界,这会有用。AGI之后,你希望有能力的人类,可以在任何任意能力中发挥作用。我认为这是对人们正确答案,他们应该做与学的事情,要么有用,要么好。我认为很多其他东西,你可以稍后再添加,但在人们有大量时间与注意力的关键时期,应该主要用来做简单操作密集型的任务与工作负载,而不是记忆密集型的任务与工作负载。我学的是数学学位,觉得在学习过程中,感觉自己大脑正在开辟一条新沟槽,这种沟槽在以后会更难开辟。我还会把很多其他东西加入进来,比如,我不排斥所有其他学科。我认为拥有多样性的事物是很美的,我确实认为其中80%应该像这样。NoPriors:首先,与我们的工具相比,我们不是有效记忆者。Ilya融资10亿幕后大佬:复刻OpenAI创始人,21岁当苹果AI总监,手握千卡算力集群酷似Sam Altman的投资人,能帮助Ilya
Sutskever再获成功?OpenAI前首席科学家Ilya Sutskever创业项目安全超级智能SSI在成立2个多月、仅有10名员工情况下,拿下10亿美元融资,估值冲破50亿美元/约356亿元人民币。SSI官宣最新融资信息,NFDG、a16z与红杉等参投为何SSI能以如此之快速度,拿下大额融资?除了Ilya
Sutskever在AI圈影响力外,SSI另一位拥有丰富创投经验的神秘联合创始人Daniel
Gross也做出重要贡献。2024年6月,Daniel Gross与Ilya Sutskever,与另一位从OpenAI出走的研究科学家Daniel
Levy共同创立SSI,Ilya Sutskever是首席科学家,Daniel Levy是主要科学家,Daniel Gross负责算力、筹款、人才引进。从左至右:Daniel Gross、Ilya Sutskever、Daniel LevyDaniel
Gross是硅谷知名个人投资人,曾投资150余家企业,拥有极为复杂的投资组合与人脉网络。Daniel
Gross 18岁创业,21岁时他的搜索引擎创业项目Cue被苹果收购。Daniel Gross随着收购加入苹果,担任4年苹果AI与搜索部门总监,2024年才33岁。拿着从苹果收购中获取的4,000万美元,Daniel Gross开始创投生涯。目前,Daniel
Gross与人合伙管理的投资基金规模达20亿美元,拥有多个其它投资实体,总资产规模成谜。AI与搜索,是Daniel Gross投资中一条不可忽视的主线。除了通过与硅谷知名个人投资人Nat
Fridman合伙的投资实体NFDG参投SSI本轮融资之外,Daniel Gross还投资了AI搜索独角兽Perplexity AI、自动驾驶创业项目Cruise、AI开发平台Weights&Biases、AI笔记软件Notion等知名AI创业项目。Daniel
Gross与他人合伙建立拥有近3,000块英伟达H100 GPU的算力集群,用算力换初创公司股权。作为深刻理解技术的投资人,Daniel
Gross受到不少创业者好评。Stripe
CEO称:只有真正了解实际技术的人,才能做好投资,Daniel
Gross要比大多数人都更好、更深入了解实际技术。Daniel
Gross人生轨迹,像素级复刻OpenAI
CEO Sam Altman,两人首次创业时年龄仅相差1岁,前后脚加入孵化器YC,创业项目成功退出后,都成为投资人。Daniel
Gross在Sam
Altman任YC总裁时,开启YC首个AI垂类项目,两人都投资过目前估值650亿美元的金融科技创业项目Stripe。两人唯一区别或许是,Daniel
Gross之前不希望在创业项目担任重要职位,他在SSI上打破自己惯例,成为联合创始人,深度参与SSI各项工作。曾投资150余家创业项目,打破惯例,深度参与SSI日常工作
过去10年,Daniel Gross投资150多家创业项目,包括自动驾驶创业项目Cruise、加密货币平台Coinbase、AI搜索引擎创业项目Perplexity
AI等。在Ilya Sutskever创业项目SSI上,Daniel Gross未像往常那样仅是投入资金,还亲自作为联合创始人参与其中。一位与Daniel Gross共事过人士透露,Daniel
Gross目前将大部分时间都花在SSI上,他的投资办公室距离SSI总部只有几步之遥,他正在确保公司能获取强大芯片来训练AI模型。另一位了解招聘流程的人士称,Daniel
Gross积极参与SSI人才招聘工作,经常要求面试的人完成挑战、谜题或者玩电子游戏,以了解候选人在快速变化环境中敏捷程度。Daniel
Gross对SSI的参与,让人不禁联想起硅谷另一位多产投资者,OpenAI
CEO、联合创始人Sam
Altman。Daniel
Gross 18岁创业,Sam
Altman 19岁创业。两人在创业时,都申请加入YC孵化器,成功退出后,两人都拿着自己捞到的第一桶金下场投资,都投资过当时名不见经传的金融科技创业项目Stripe。Sam
Altman在2009年用1.5万美元换取Stripe 2%股份,Daniel Gross具体投资情况不详。目前,Stripe已经是估值650亿美元的超级独角兽,Sam
Altman、Daniel
Gross与Stripe创始人两兄弟,也成为硅谷最有权势的几个人。近期风投行业萎缩,导致许多创业项目投资新手离开这一行业,这让Daniel
Gross日益增长的影响力更为引人注目。科技行业,目前依赖在硅谷有人脉网络的内部人士,如Daniel
Gross、Sam
Altman、个人投资者Elad
Gil与谷歌前CEO
Eric Schmitt等。微软前副总裁、代码托管平台GitHub前CEO Nat Friedman也是这样一位投资人,他与Daniel
Gross一同建立仙女座Andromeda计算集群,拥有近3,000块英伟达H100 GPU与700多块A100 GPU。创业项目可申请以优惠价格使用这一计算集群内的算力,作为交换,Nat
Friedman与Daniel
Gross可获取AI创业项目部分股权。The
Information称,两人通过投资实体NFDG管理的总资产超过20亿美元,这一数字之前尚未被公布。与许多投资人不同,Daniel
Gross是一位真正理解技术的投资人。与Ilya Sutskever一样,Daniel Gross具有以色列背景。Ilya
Sutskever 5岁时迁居以色列,Daniel
Gross从小就在耶路撒冷长大。Daniel
Gross母亲是一名记者,父亲是一名计算机科学家。他小时梦想是前往硅谷,创办一家公司。18岁时,Daniel Gross填写硅谷知名孵化器YC申请书,他在2010年被正式纳入YC当年冬季批次创始人中。2011年,Sam Altman以合伙人身份重返YC,负责指导旗下创业项目,发现投资机会。Daniel
Gross创业成功后,曾在YC创业学校分享经验2013年,Daniel Gross人生迎来重要转折点,苹果用总价值约4,000万美元现金与股票,买下Daniel
Gross搜索引擎创业项目Cue。Daniel
Gross加入苹果,担任4年苹果AI与搜索部门总监。与此同时,Daniel
Gross开始用出售Cue换取的资金,投资创业项目。Daniel
Gross与金融科技巨头Stripe创始人Patrick Collison有很深交情,之后也曾投资Stripe。Stripe是2009年夏季批次YC创业项目,Patrick Collison可以说是Daniel Gross学长。Patrick Collison回忆,2010年时,他正在努力将Stripe与当时流行的Web框架集成,当他向Daniel
Gross求助时,Daniel
Gross直接接手这项工作,在1天内就编写好集成。Daniel
Gross投资过的AI开发平台独角兽Weights & Biases CEOLukas
Biewald称,Daniel
Gross是一名nerd。这原本是人们对硅谷技术宅们的嘲讽,但在许多创始人眼中,这种理解技术的投资人正是他们想要的。Daniel
Gross曾主导Perplexity
AI 2024年初C轮融资,这轮融资后,Perplexity
AI正式成为估值超10亿美元独角兽。他至今,会定期向Perplexity AI创始人Aravind Srinivas发送自己在Perplexity中发现的错误。Daniel Gross在Perplexity AI中有大量投资,他直言不讳向Aravind
Srinivas分享,他认为Perplexity
AI仅有2种可能,要么成为一个自杀式任务,要么成为马斯克级别的成功故事。Aravind
Srinivas称,他很欣赏Daniel
Gross极端坦率的幽默。
Daniel
Gross曾运营Pioneer孵化器,2024年关停。知情人士透露,若Pioneer之前投资过的企业表现不错,Daniel
Gross可能还会重新开始招募新的企业加入。Patrick
Collison称,Daniel
Gross相信了解技术与创业的早期投资人,对创业项目来说极为重要。Patrick
Collison现在也在与Daniel
Gross合作进行天使投资,Patrick
Collison称:只有真正了解实际技术的人,才能做好投资,Daniel
Gross要比大多数人都更好、更深入了解实际技术。除了理解技术外,Daniel
Gross擅长达成交易与发现投资机会,这与他的性格特质密不可分。在YC时代见过Daniel Gross的人都说,即使是在一群A型人格,富有竞争力、干劲、野心与紧迫感的人当中,他的野心也很突出。他们记得,在集体场合中,Daniel
Gross总能吸引最著名、人脉最广的人。这点与Sam
Altman很像。在2010年YC路演日,YC毕业创业项目向投资人介绍自己活动上,Daniel
Gross将来的投资伙伴Nat
Fridman一眼就发现Daniel
Gross。Nat
Fridman向YC创始人Paul Graham说,他最喜欢的演讲就来自Daniel
Gross。Daniel Gross与Nat Fridman一同接受采访,上方左侧为Daniel
Gross,下方为Nat
Fridman2017年,Daniel Gross以合伙人身份重返YC,在内部构建专门针对AI的创业项目,YC AI。此时,Sam Altman刚从Paul Graham手中接管YC,正极为激进扩大投资类别、批次规模与业务类型,YC
AI也是其中之一。Daniel
Gross与Sam
Altman,或许在YC有过不少交集。大约同一时间,Daniel Gross与Nat Fridman合作启动AI Grant项目,用现金或计算资源帮助开源AI项目启动。两人自费资助第一批企业,又为后续批次企业拉到捐赠。随后几年中,AI
Grant推出类似YC的加速器,Nat Fridman与Daniel Gross通过加速器入股初创公司。该项目的毕业创业项目,包括Perplexity
AI与明星文生视频创业项目Pika。与Sam Altman一样,Daniel Gross成为一位资深交易撮合者,他组建一系列令人眼花缭乱的基金,让外部人士更难追踪他所有投资。文件显示,他与Nat Fridman合作的基金包括C2Investments、C2023、CTRY。
接受过这些实体投资的人士透露,Daniel
Gross从D
Gross Holdings的实体进行投资,Nat
Fridman从NF
Capital进行投资,The
Information称这些实体之前不为人所知。Stripe创始人两兄弟,曾向这些实体提供投资基金。Daniel
Gross再次成为创业者之际,他面临主要挑战,可能是要为公司配备合适的AI研究人员。了解招聘流程的人士透露,Daniel
Gross目前寻找的不是另一位像Ilya
Sutskever的明星人物,首要任务是寻找年轻的AI研究人员,让这些人才接受公司资深员工指导。另一位与Daniel Gross关系密切的人士称,Daniel
Gross不愿在初创公司担任高调角色,他觉得SSI需要他更多参与其中,帮助筹集资金、获得芯片,履行其他职责。结语:Ilya
Sutskever技术+Daniel
Gross资源,SSI能与OpenAI分庭抗礼?6月19日,Ilya Sutskever公布自己新创业项目时,他们便自信称公司开发,不会受短期商业压力影响,能心无旁骛实现安全超级智能。OpenAI在成立之初,也曾许下相同诺言,最终他们不得不屈服AI高昂开发成本,开发产品缓和资金压力。Ilya
Sutskever这位OpenAI元老,与硅谷另一位资源丰富的投资人合作后,能否再造一个像OpenAI的AI超级独角兽,并实现安全的AI?
宏观说:全球各大国政要、商业领袖等
社会说:比尔·盖茨等
成长说:洛克菲勒、卡内基等
科学说:历年诺奖获得者、腾讯科学WE大会等
科技说:马斯克、贝索斯、拉里·佩奇/谢尔盖·布林、扎克伯格、黄仁勋、Vitalik Buterin、Brian Armstorng、Jack Dorsey、孙正义、华为、马化腾、张小龙、张一鸣、王兴等
投资说:巴菲特、芒格、Baillie Giffrod、霍华德·马克斯、彼得·蒂尔、马克·安德森、凯瑟琳·伍德等
管理说:任正非、稻盛和夫等
能源说:曾毓群等
汽车说:李想、何小鹏、王传福、魏建军、李书福等
智能说:DeepMind、OpenAI等
元宇宙说:Meta/Facebk、苹果、微软、英伟达、迪士尼、腾讯、字节跳动、EpicGames、Roblox、哔哩哔哩/B站等
星际说:中国国家航天局、NASA、历年国际宇航大会,SpaceX、Starlink、蓝色起源、维珍银河等
军事说:全球主要航空航天展等
消费说:亚马逊、沃尔玛、阿里、京东、拼多多、美团、东方甄选等
每个系列聚焦各领域全球顶尖高手、产业领军人物,搜集整理他们的致股东信、公开演讲/交流、媒体采访等一手信息,一起学习经典,汲取思想养分,做时间的朋友,做长期主义者。
六合年度报告全库会员,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
智能时代专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买智能时代专题第二季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
智能时代专题第一季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
六合商业研选付费专题报告,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买元宇宙专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买头号玩家第二季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买头号玩家第一季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买智能电动汽车专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买