专栏名称: 六合商业研选
六合咨询立足新经济,挖掘明日之星,发现价值,传播价值;国际化视野、多角度观察、深度思考、体系化研究,持续提升研究广度与深度,全面覆盖一级、新三板、二级(A股+美股+港股);深度剖析优质企业商业模式与投资价值,前瞻性洞察行业本质与发展趋势。
目录
相关文章推荐
CareerIn投行PEVC求职  ·  突发!数万名投行人 开年首日收到被裁邮件 ·  昨天  
薪人薪事企小薪  ·  “工资的厚度,会影响一个人的工作状态” ·  3 天前  
人力资源法律  ·  视同工伤"48小时"之限该延长还是取消?人社 ... ·  3 天前  
51好读  ›  专栏  ›  六合商业研选

【长期主义】第299期智能说:最新Andrej Karpathy深度对话,Ilya融资10亿幕后大佬

六合商业研选  · 公众号  ·  · 2024-09-14 06:30

正文


202495日,投资播客《No Priors》发布OpenAI创始成员、前特斯拉AI高级总监Andrej Karpathy深度访谈,讨论自动驾驶汽车演变、特斯拉Optimus人形机器人、当前AI发展瓶颈、如何将AI能力进一步与人类认知结合、AI教育新项目Eureka Labs等内容。Andrej Karpathy凭借在OpenAI、特斯拉等顶尖科技公司丰富经验,输出独特、深刻见解。

 

202494日,OpenAI联合创始人、前首席科学家Ilya Sutskever新公司安全超级智能SSISafe Super Intelligence),在成立2个多月、仅有10名员工情况下,宣布获得10亿美元融资,估值50亿美元。这不仅归功于SutskeverAI领域影响力,还得益于合作伙伴Daniel GrossDaniel Gross是有着丰富创投经验的神秘联合创始人,不仅在算力、筹款、人才引进方面发挥关键作用,还在硅谷拥有广泛人脉网络与复杂投资组合。

 

本期长期主义,选择Andrej Karpathy访谈纪要、SSI联合创始人Daniel Gross背景介绍,Web3天空之城、智东西发布,六合商业研选精校,分享给大家,Enjoy

 

正文:

全文19,361

预计阅读39分钟

 

最新Andrej Karpathy深度对话:从自动驾驶到教育革命,探索AI重塑人类未来

时间:202496

来源:Web3天空之城

字数:16,040

 

AI领域大神级人物Andrej KarpathyNo Priors投资播客展开了关于AI现状与未来发展,及其对教育与认知影响的深度探讨。Karpathy凭借在OpenAI、特斯拉等顶尖科技公司丰富经验,输出独特、深刻的见解。

 

访谈涵盖广泛主题,从自动驾驶技术现状与未来,到AI研究最新进展;从大语言模型发展潜力,到AI在教育领域革命性应用;从人机融合可能性,到AI对人类认知与学习方式深远影响。

 

Karpathy强调AI不应该是取代人类,而是成为赋能人类的工具,深入探讨AI研究的技术细节,包括Transformer架构重要性、合成数据潜力与挑战、小型高效模型发展前景等。

 

教育方面,Karpathy正在开发创新的AI驱动教育平台,旨在为全球每个人提供高质量、个性化教育体验,对AI在改变学习动机、打破传统教育壁垒方面的潜力表示乐观。

 

本次访谈重点内容:

 

自动驾驶技术现状与未来:

 

Karpathy认为特斯拉在解决软件问题方面处于领先地位,Waymo面临硬件挑战,预测特斯拉将在长期内占据优势,软件问题相对更容易解决。自动驾驶技术,从演示到实际产品化,经历漫长的10年,仍未实现真正全球化。Karpathy认为自动驾驶领域的进展,可以类比AGI的发展。

 

AI研究现状与趋势:

 

Transformer架构被视为重大突破,它解决之前神经网络架构许多限制。当前研究重点,已转向数据集与损失函数的创新,而不是架构本身。合成数据在AI训练中被视为未来趋势,但需要小心处理以避免模型退化。Karpathy预测,未来AI模型,可能会更小、更高效,甚至可能只需10亿参数,就能实现强大认知功能。

 

合成数据与AI训练:

 

合成数据被视为解决AI训练数据不足问题的重要方法,Karpathy警告,使用合成数据时需要谨慎,以避免模型的隐性退化。他提出在合成数据中注入熵的重要性,以保持数据多样性与丰富性。

 

小型高效模型的未来:

 

Karpathy预测,未来可能会出现参数量大大减少,功能强大的AI模型。Karpathy认为,当前大型模型可能浪费大量容量来记忆不重要信息,未来AI系统可能更像是由多个专门化小模型组成的生态系统,而不是单一大模型。

 

AI在教育领域的革命性应用,教育动机与未来方向:

 

Karpathy正在开发以AI为基础的全球化教育平台,旨在为每个人提供高质量个性化教育。Karpathy认为AI可以实现教育的真正个性化,适应不同学习者背景与需求。AI教育助手,可以扮演类似个人导师的角色,大幅提高学习效率。Karpathy认为教育不应该仅仅是娱乐,而应该是一种挑战性、塑造思维的过程。

 

谈话探讨AI如何改变学习动机,以及在后AGI时代,教育可能更多成为一种娱乐与自我提升的方式。Karpathy强调文化环境对学习动机与职业选择的重要影响。他希望AI教育能够打破传统精英主义与血统观念,使高质量教育更加民主化。

 

Karpathy强调,数学、物理、计算机科学,仍将是塑造思维能力的核心学科,对于未来世界至关重要,建议年轻人应该专注培养解决问题的能力与逻辑思维,而不是仅仅积累知识。Karpathy预见未来教育将更加灵活,人们会更频繁回到学校学习新技能。

 

NoPriors今天我们与Andrej Karpathy一起聊天,他不需要再多介绍。

 

Andrej是著名研究员,备受喜爱的AI教育家,OpenAI早期团队成员,曾担任特斯拉Autopilot负责人,现在致力教育领域AI。我们将与他讨论研究现状,他的新公司,以及我们对AI的期望。

 

Andrej Karpathy我很高兴来到这里。

 

NoPriors你曾领导特斯拉Autopilot,现在我们确实有了完全自动驾驶的汽车,道路上的乘用车。你如何看待当前能力集,我们应该多快看到能力提升或普及的乘用车?

 

Andrej Karpathy我在自动驾驶领域,可能花了大约5年时间,我认为这是迷人的领域。

 

目前在这个领域发生的事情是,我确实认为我会从自动驾驶中找到很多类比,我会说,类似AGI,这可能是因为我熟悉这个领域。

 

我有点觉得我们在自动驾驶方面,已经有一点达到AGI,现在有一些系统,你可以带着它们四处转转,并作为付费客户使用。

 

在旧金山,Waymo非常常见,你可能也坐过Waymo。我坐过很多次,非常惊人,它可以带你四处转转,而你是以产品形式付费。

 

有趣的是,我第一次坐Waymo,是10年前,几乎正好是2014年左右。是一位在那工作的朋友,给我做了一个演示。10年前,它带我绕着街区开了一圈,是一次完美的驾驶。花了10年,从我看到的演示,变成我可以付费使用的产品,是在城市规模内扩展等。

 

NoPriors你认为有多少是监管因素,多大程度是技术因素?你认为技术什么时候准备好?是最近吗?

 

Andrej Karpathy我认为是技术,你不可能在30分钟的一次演示驾驶中看到全部情况。你不会遇到他们10年来,必须应对的所有问题。

 

演示与产品之间存在巨大差距,我认为很多与法规等方面有关。

 

我确实认为,我们在这种意义上,在自动驾驶领域达到AGI的一点点成就。尽管如此,我认为真正令人着迷的是全球化根本没有发生。

 

你有一个演示,你可以在南方使用它,但世界还没有改变,这需要很长时间。

 

从演示到实际全球化,我认为还有个巨大差距。我会说,这与AGI相关,我怀疑当我们得到AGI时,它看起来会很相似。自动驾驶领域,人们普遍认为Waymo领先特斯拉。我个人认为,特斯拉领先Waymo。这看起来并非如此,我对特斯拉及自动驾驶计划非常看好。

 

我认为特斯拉面临的是软件问题,Waymo面临的是硬件问题。在我看来,软件问题要容易解决得多。特斯拉已经在全球部署大量汽车,规模宏大,我认为Waymo需要达到这一点。一旦特斯拉能够真正部署正常工作,我认为这将是非常令人难以置信的。

 

我昨天刚试驾最新版本特斯拉自动驾驶系统,现在它已经可以把我带到任何地方。我不得不说,他们最近有了非常好的改进。我最近一直在使用它,它运行得相当好。昨天它为我完成一次神奇的驾驶,我对团队工作印象深刻。

 

我认为特斯拉主要面临的是软件问题,Waymo主要面临的是硬件问题。目前看起来Waymo有些领先,我认为当我们10年后回顾时,谁真正实现规模化,谁的收入来源最多,这个角度看,我认为特斯拉领先。

 

NoPriors你认为我们离解决软件问题的转折点有多远,何时才能达到某种程度的相等性?如果你看Waymo的车,它有很多非常昂贵的LiDAR与其他传感器,这些传感器支持了软件系统。

 

特斯拉方法是只用摄像头,这样可以有效去除大量成本与复杂性,可以应用于多种不同类型的车,你认为这种转变什么时候会发生?

 

Andrej Karpathy希望在未来几年左右。

 

真正有趣的是,我不确定人们是否意识到,特斯拉也使用很多昂贵的传感器,他们只是在训练时使用这些传感器,有一堆装有LiDAR的车子在行驶。他们做了许多无法扩展的事情,还有额外传感器等,他们进行地图绘制与所有这些工作。

 

在训练阶段完成这些工作,将其浓缩成部署到车上的仅基于视觉的测试包,这就像是在传感器与成本上套利。

 

我认为这是很聪明的策略,还没有被充分理解。我认为这会有很好效果,像素已经包含信息,我认为网络会有能力做到这一点。训练阶段,这些传感器确实有用,但在测试阶段,它们并不有用。

 

NoPriors似乎另一个正在发生的转变,是从许多边界情况设计启发式方法,向端到端深度学习的转变,这就是最近发生的另一个转变。你要谈谈这个问题,介绍一下这个吗?

 

Andrej Karpathy:我认为这一直是特斯拉从一开始就计划好的,我在谈论神经网络如何能够逐步取代整个栈。当我加入时,有大量C++代码。现在,车上运行的测试包中,C++代码已经少很多。我们没有谈论后端大量内容,神经网络有点像穿过系统。

 

首先,它只是在图像层面做检测。然后它处理多张图像,给你一个预测。随着时间推移,多个图像给你一个预测。你正在丢弃C++代码,最终只是发出转向命令,我认为特斯拉是在逐步取代整个栈。

 

我理解是,现在Waymo不是这样,他们尝试过,最终没有实现,这是我目前的理解。我不确定,他们没有谈论这个问题。我从根本上相信这种方法,如果你这样考虑的话,我认为这是最后一块拼图。

 

我确实怀疑,像特斯拉这样端到端系统,在大约10年内,就是一个神经网络。意思是,视频流进入一个神经网络,然后输出指令。你必须逐步建立起来,一步步来。即使所有中间预测与我们所做的所有事情,我认为它们并没有误导开发。我认为它们是其中一部分,这有很多微妙原因。

 

像端到端驾驶,当你只是模仿人类等行为时,你用很少监督信息来训练一个庞大的神经网络,训练这么多亿个参数信号太少了。这些中间表示等,有助于你开发所有特征与检测器,然后让端到端部分问题变得容易得多。

 

我怀疑,我不确定,我不是团队的一员,有大量预训练正在进行,以便你可以进行端到端微调。我觉得有必要逐步推进,这就是特斯拉所做的,我认为这是正确的方法,看起来它正在发挥作用,我真的很期待。

 

NoPriors如果你从头到尾开始做,你无论如何都不会有数据,这说得通。

 

你离开之前,在特斯拉的人形机器人项目上做过工作。我有很多问题,一个是从这里开始,有什么可以转移的?

 

Andrej Karpathy所有东西都可以转移,我认为人们并没有意识到这一点。

 

NoPriors这是一个很大的声明,这看起来是一个完全不同的问题。

 

Andrej Karpathy我认为汽车在实际观察时就是机器人,汽车是机器人。

 

我认为特斯拉不是一家汽车公司,这种看法是误导性的,特斯拉是一家规模化的机器人公司。规模化也是一个完全独立的变量,他们不是在制造单一产品,而是在制造制造产品的机器,这是一个完全不同的事情,我认为特斯拉是一家规模化的机器人公司。

 

从汽车到人形机器人之间的转变,并不费劲。早期版本Optimus机器人,它以为自己是辆车,它有完全相同的电脑与摄像头。这真的很有趣,我们在机器人运行汽车网络,它在办公室走来走去。它试图识别可驾驶空间,现在我想都是可行走的空间了。它有点泛化了,需要进行一些微调,它认为自己是在驾驶,但是在穿越一个环境。

 

NoPriors一种合理的方式来看待这件事,它是一个机器人,很多东西可以转移,但比如说你缺少执行与行动数据。

 

Andrej Karpathy你肯定会缺少一些组件,我还想说的是,很多东西是可以转移的,比如说Optimus的启动速度,对我来说非常令人印象深刻。

 

马斯克一说我们要做这个,大家就带着所有合适工具出现了。所有东西很快就出现了,所有这些CAD模型(计算机辅助设计Computer-Aided Design模型)与供应链的东西。

 

我感觉,特斯拉内部有这么多构建机器人方面的专业知识,用的工具都一样。就好像在重新配置,从一辆汽车变成电影《变形金刚》里那种。它们只是被重新配置与重新洗牌,但就像是同样东西。你需要所有相同组件,需要考虑所有相同种类东西,无论是在硬件方面、规模方面,还是在智能方面。

 

关于智能,有很多转移,不仅是特定网络的转移,还有整个方法、标签团队,以及所有协调与人们采用的方法,我只是觉得有很多的转移。

 

NoPriors你认为人形机器人或人形设备的第一个应用领域,会是什么?

 

Andrej Karpathy我认为很多人有这样愿景,比如说做洗衣服等,我认为那会来得很晚。我不认为B2C是一个正确起点,我不认为我们可以让机器人像是撞伤奶奶,这就是我的看法,有点像是这样,我觉得这会涉及太多法律责任,我认为这不是正确的方法。

 

但比如说一个非常诡异的拥抱,它只会倒下之类的事情,你知道的,这些东西不完美,需要一些工作才能改进。

 

我认为最好的客户,首先是自己,特斯拉可能会采取这种方式。如果人们能看得出来,我对特斯拉非常看好。

 

第一个客户是自己,你在工厂里孵化它,可能进行大量物料处理等工作。这样,你不必与第三方合作签订合同,避免涉及律师等繁琐的事情。

 

你孵化它,第二步是B2B你去有巨大仓库的公司,我们可以进行物料处理,起草合同,安装围栏,完成所有这些事情。

 

当你在多家公司孵化后,我认为那时,你才开始进入B2C应用。我确实认为我们会看到B2C机器人,比如Unitree等公司,开始推出我非常想要的机器人。有一个G1机器人,我可能会买一个,可能会有一个人在平台上建立起来的生态系统。

 

在规模上的优势,可能会使这种方法获胜。一开始,这涉及很多物料处理,逐渐向越来越多的具体应用发展。

 

我真正感兴趣的是Friedman关于树叶吹机的挑战。我会很喜欢看到一个乐观主义者,走在街上,小心翼翼捡起每一片树叶,这样我们不需要树叶吹机。我认为这是可行的,是一个惊人的任务,我希望这是其中一个最早的应用。或者就算是耙叶也可以,应该行得通,只是非常安静耙叶。

 

NoPriors他们确实有一个正在工作的机器,只是不是人形机器人。我们可以谈一谈人形机器人这个论点吗?最简单的解释是,这个世界是为人类而建的,你只需要建造一套硬件,正确做法是建立一个可以在这套硬件上完成越来越多任务的模型。

 

还有另一种观点认为,人类在任何特定任务上都不是最优的。你可以让他们更强大、更大、更小,或者其他任何方式,为什么我们不做超级人类的事情?

 

Andrej Karpathy:我认为人们可能低估进入任何单一平台固定成本的复杂性,你为任何单一平台支付大量固定成本,集中化,拥有一个可以完成所有任务的平台,非常有意义。

 

类人外形非常吸引人,人们可以非常容易进行远程操作。这是一种非常有用的数据收集方式,人们能够很容易进行远程操作,我认为这一点通常被忽视。还有你提到为人类设计的世界等方面,我觉得也很重要。

 

我认为我们将在类人平台上有一些变种,但任何平台都有很大固定成本。最后一个方面是,你可以从不同任务之间的迁移学习中受益良多。

 

AI中,你希望有一个单一神经网络,它是多任务,能够处理很多事情,这就是你获得所有智能与能力的地方。这也是为什么语言模型如此有趣的原因,你有一个单一体系,比如文本领域,在执行所有这些不同问题时,它们之间共享知识,这一切都耦合在一个神经网络中,我认为你需要那样的平台。

 

你希望为捡叶子收集的所有数据,能为所有其他任务带来收益。如果你为某个单一用途构建一个特殊东西,你不会从所有其他任务转换中受益。

 

NoPriors是的,我认为有一种说法是,宇树科技人形机器人G1(2024年5月13日首次发布,2024年8月20日推出量产版),定价1.6万美元/9.9万元人民币,但似乎很难在某个特定物料清单BOM下,构建一个非常有能力的人形机器人。

 

如果你想在轮子上装一个能做事情的手臂,也许在开始时,有更便宜的通用平台方法,这对你有意义吗?

 

Andrej Karpathy更便宜的通用平台方法?从硬件角度看,是的,我认为这有意义。你可以给它装一个轮子,而不是脚等。

 

我确实感觉,我想知道这是否会有点陷入局部最小值。我只是觉得,选择一个平台,并使其完美,是长期来看相当不错的赌注。

 

另外一件事是,我觉得这会让人们感到熟悉,我认为人们会理解你可能想与它交流。我觉得这其中的心理层面因素,可能会更倾向于人类平台,除非人们害怕它更喜欢一个更加抽象的平台。我不知道这是否会只是一个类似八轮怪物在做事情,我不知道这会不会让人觉得更吸引或者更少吸引。

 

NoPriors有趣的是,我认为宇树科技Unitree另一种形式是狗,这几乎是一个更友好或更熟悉的形象。

 

Andrej Karpathy是的,随后人们看《黑镜》,突然这只狗变得像一个可怕的东西,很难想透。我只是认为心理学上讲,人们会很容易理解正在发生的事情。

 

NoPriors你认为相对于证明这个未来,技术里缺少了什么里程碑?

 

Andrej Karpathy特指机器人?

 

NoPriors是的,特指机器人,或者是人形机器人或其他任何人类形态的东西?

 

Andrej Karpathy我不确定我是否对这个问题有十分清晰看法,我确实认为在人形机器人形态中,对于下半身的控制,我不确定是否适合通过示范进行模仿学习。下半身涉及很多倒立摆控制等复杂问题。对于上半身,需要大量远程操作、数据收集、端到端的处理。在这个意义上,一切都变得非常混合化,我不清楚这些系统如何互动。

 

NoPriors当我与这个领域专家交谈时,他们很多关注的是执行机构、操作,以及某种数字操作等。

 

Andrej Karpathy我预计在一开始,大部分项目是通过远程操作来启动、模仿它,直到能达到95%成功率。

 

谈到人对机器人的比例,逐渐让人们成为机器人监督者,而不是直接执行任务,这些变化都会随着时间推移逐步发生。

 

我不知道是否有任何我特别熟悉的具体障碍,我只是觉得这需要很多繁重的工作,很多工具已经可以使用。Transformers是一个美丽的组织块,你可以用它做任意任务。你只需要数据,把它以正确形式输入,训练它,进行实验,部署它,不断迭代,这确实是很多繁重的工作,我不知道是否存在某个单独的技术性问题,会阻碍我们进步。

 

NoPriors我们现在大块研究,处于什么状态?

 

Andrej Karpathy我们处于非常好的状态,我认为,也许还没有完全被认可,但Transformer确实非常了不起,它不仅是另一个神经网络,而是一个非常通用的神经网络。

 

例如,当人们谈论神经网络中缩放损失时,缩放损失在很大程度上是Transformer特性。Transformer之前,人们在玩LSTM与堆叠它们等(主要使用长短期记忆模型LSTM,并尝试堆叠多个LSTM层提高模型能力)。你得不到清晰的缩放损失,这个东西无法训练,也不起作用。Transformer首次实现真正的缩放,你得到了缩放损失,一切都变得合理。

 

它就像是一个通用的训练计算机,我把它看作是一种计算机,它就像一个可微的计算机。你可以给它输入与输出,以及上亿数据,你可以用反向传播来训练它,它会自我安排完成任务。我认为这是我们在算法领域,偶然发现的一个神奇东西。

 

其中有一些个别的创新,例如,残差连接已经存在。你有需要插入的层标准化,有注意力模块。没有像tanh之类的饱和非线性,它们会消除梯度信号,在Transformer中没有这些。

 

有几项创新,大约四或五个,都被整合到Transformer中,这就是谷歌在他们论文中所做的,这种方法已经被训练出来。突然间,你获得缩放损失,有了可以在很大程度上训练的结构,这是重大突破。

 

NoPriors你觉得我们还没有达到这种突破的极限,会有关于数据壁垒以及规模进一步发展成本问题的讨论,你怎么看这个问题?

 

Andrej Karpathy我们开始进入的领域是,我不认为神经网络架构再从根本上限制我们,它已经不是瓶颈。

 

以前Transformer是一种瓶颈,现在已经不再是瓶颈。现在我们更多在讨论什么是损失函数,数据集在哪里,这些问题几乎成为瓶颈。

 

这不再是一个基于你想要它变成什么,而重新配置的通用组织,这就是为什么许多活动已经转移到这个领域。很多公司与其他应用这种技术的企业,不再怎么考虑Transformer,他们不再怎么考虑架构。

 

Llama发布中,Transformer没有太大变化。我们增加RoPE相对位置编码,这是主要变化。其他一切都无关紧要,像是一些小东西3%的提升。RoPE是唯一插入的东西,这就是Transformer过去5年左右的变化,在这方面没有太多创新。

 

大家都认为这是理所当然的,让我们训练它等。大家主要在数据集与损失函数的细节上进行创新,所有活动都集中在那里。

 

NoPriors在那个领域,以前我们用的是互联网数据,现在互联网数据已经用完,问题主要围绕合成数据或者更昂贵的数据收集。

 

Andrej Karpathy我觉得这是个好观点,现在很多活动都在大型语言模型LLM方面。互联网数据,不是你想要的用于训练Transformer的数据。它像是一个最近邻,让你走得更远,令人惊讶。

 

互联网数据是一堆互联网网页,你真正想要的是你大脑里的内心独白,你大脑中的轨迹。在你解决问题时,大脑中的路径,如果我们有10亿个这样的路径,比如AGI就在这里,大致来说,这在很大程度上是准确的,而我们根本没有这种情况。

 

现在很多活动所在领域,我认为,是通过互联网数据来实现接近这一点,互联网碰巧有足够推理痕迹与大量知识,加上变换器使其工作的还不错。

 

我认为现在很多活动,集中在将数据集重构为内心独白格式。大量合成数据的生成,对此很有帮助。有趣的是,当前模型在多大程度上帮助我们创建下一代模型,就像是一种改进的阶梯。

 

NoPriors你认为合成数据有多大用处,或者说能带我们走多远?每个数据、每个模型,都有助于更好训练后续模型,至少在创建工具、数据标注等方面,也许部分是合成数据。你认为合成数据的部分有多重要?

 

Andrej Karpathy当我与人们谈话时,他们说,我认为这是我们能够取得进展的唯一途径,我们必须让它发挥作用。但在使用合成数据时,你必须小心,这些模型会悄无声息退化,这是一个主要问题之一。

 

如果你去ChatGPT,让它告诉你1个笑话,你会发现它只知道大约3个笑话。这就像是唯一的情况,它大多数时候只给你1个笑话,有时候会给你大约3个笑话。这是模型退化了,退化得悄无声息。

 

当你看任何单一输出时,你只看到一个单一例子。当你实际查看分布时,你会注意到这不是一个非常多样化的分布,悄无声息退化了。

 

当你进行合成数据生成时,这是一个问题,你非常需要那种熵。你需要数据集中有丰富多样性与丰富性,否则,你得到的数据集会变得收缩。

 

当你查看任何单个示例时,你看不到它,但分布已经失去大量熵与丰富性,它在无声中变得更糟。

 

这就是为什么你必须非常小心,必须确保在数据集中保持熵,为此有很多技术。

 

例如,有人发布Persona数据集作为示例。Persona数据集,是包含10亿个个性特征的数据集,像人的背景:我是老师或者我是艺术家,我住在这里,我做这件事等,它就像是虚构的人类背景的小段落。

 

当你进行合成数据生成时,不只是说,完成这个任务,并用这种方式做,而是想象你在向这个人描述,加入这些信息,现在你迫使它探索更多空间,获得一些熵。

 

你必须非常小心注入熵,保持分布。我认为这是困难的部分,也许人们一般不会充分意识到这一点。

 

我认为合成数据,绝对是未来,我印象是我们不会缺乏数据,我只是觉得你必须小心。

 

NoPriors你觉得我们现在从这项研究中,学到什么关于人类认知的东西?

 

我不知道我们是否在学习,有人可以争辩说,弄清我们想要的推理轨迹的形状,例如,有助于实际理解大脑的运作方式。

 

Andrej Karpathy我会小心对待类比,总的来说,我确实认为这是完全不同的事物,有些类比还是可以做的。

 

举个例子,我认为Transformer在很多方面比人脑更好,它们是更高效的系统。它们不如人脑工作的原因,主要是数据问题,大体上说,这是我认为的一阶近似。

 

Transformer记忆序列的能力,远超过人类。比如,如果你给它一个序列,并在该序列中进行一次前向与反向传播传递,如果你给它序列前几个元素,它会完成序列其余部分。它记住序列,它对这个非常擅长。如果你给人类一次演示一个序列,人类绝对记不住。

 

我确实认为,基于梯度的优化,我们在训练神经网络时一直进行前向-反向更新,在某些方面比人脑更高效。这些模型更好,它们还没有准备好大放异彩。许多认知方面,我认为它们可能会突出。只要有了正确输入,它们会变得更好。

 

NoPriors这是计算机在各种应用中都具有的算术能力,不是吗?

 

Andrej Karpathy我认为人类大脑有很多限制,工作记忆非常小,Transformers有更大的多的工作记忆,这将继续保持下去,它们是更高效学习者。

 

人脑在各种限制下运作,不明显的是人脑是否使用反向传播,也不明显那将如何工作。它是一个非常随机的动态系统,在各种限制条件下工作,包括环境条件等。

 

我确实认为我们实际拥有的东西,潜力上比大脑更好,只还没达到那一步。

 

NoPriors你如何看待随着时间推移,人类与不同AI系统的增强?你认为这是一个可能的发展方向吗?用AI模型增强人类?

 

Andrej Karpathy我认为总体来说,绝对是这样。

 

NoPriors有一种抽象的版本,你将其用作工具,那是外部版本。还有,合并的场景,很多人最终谈到这个。

 

Andrej Karpathy我们已经在某种程度上融合,问题是,有输入输出的瓶颈。大多数情况下,如果你有这些模型中任何一个,你已经在使用它们了。

 

NoPriors是的,有点不一样,我想人们已经争论40~50年,认为科技工具只是人类能力的延伸,计算机是人类思维的自行车等。

 

Andrej Karpathy正是这样。

 

NoPriors有一部分AI社区认为,我们可以通过某种形式解决与未来AI或其他事物的潜在冲突。例如,像Neuralink的提议等。

 

Andrej Karpathy没错,就是这样。我不知道这种合并会是什么样,我肯定能看出你想要减少工具使用的输入输出,我认为这有点像外皮层。我们是在我们新皮层上构建,不是吗?这只是下一层。它恰好在云中等,但它是大脑的下一层。

 

NoPriors早在2,000年代初《Accelerando》一书中就有一个版本,所有东西都体现在一副计算眼镜中,这副眼镜与大脑连接,佩戴它们。如果你失去它们,你就会觉得失去一部分个性或记忆。

 

Andrej Karpathy我认为这很有可能。今天,手机几乎已经是这样,我认为情况会变得更糟。当你把科技产品放在一边时,你就像大自然中裸体人类,或者你失去部分智慧,这非常令人焦虑。

 

NoPriors一个非常简单的例子是地图,我注意到现在很多人不再能很好导航他们城市,他们总是使用转弯提示方向。

 

Andrej Karpathy如果我们有这样一个东西,比如通用翻译器,我认为离这不远了。如果你把东西放在一边,你就会失去与不讲英语人交流的能力。

 

NoPriors我很乐意重新利用我大脑那部分来做进一步研究。

 

Andrej Karpathy我不知道你是否看过视频,就像有个孩子,他拿着一本杂志,却在杂志上滑动。令我着迷的是,这个孩子不理解什么是自然存在的,什么是技术附加在自然之上的,它变得如此透明。我认为这看起来可能类似,人们将开始假设这些工具的存在。然后,当你把它们拿走时,你会意识到,人们好像不知道什么是技术,什么不是。

 

如果你戴着这个东西,它总是在为你翻译所有人或者为你做类似事情,可能人们就会失去基本的认知能力,我认为存在这种可能性。

 

我们将会专精化。你不能理解说西班牙语的人吗?这是什么情况?或者,当你去到物体面前,就像在迪士尼,所有物体都是有生命的。我认为我们可能会走向那样一个世界,为什么不能与物体说话?就像今天,你可以与Alexa说话,向对方询问一些事情等。

 

NoPriors我见过一些玩具公司,它们试图在玩具中嵌入大语言模型LLM,以便能够与孩子互动。

 

Andrej Karpathy是不是很奇怪,当你走到一扇门前,不能直接说开门?另一个我喜欢的例子是《超能敢死队》或《机械公敌》,有人取笑说,你不能随便与东西对话,真是见鬼了。

 

NoPriors如果我们在谈论外部大脑,这是一件非常重要的事情,需要将其民主化。

 

你怎么看当前市场结构,以及在大规模语言模型研究中发生的事情?只有少数几家大型实验室,有机会在下一代训练中取得进展。这对于未来人们能够访问的技术来说,意味着什么?

 

Andrej Karpathy你可能暗示的是生态系统的状态,我们有几个封闭平台形成的寡头垄断,也有相对落后的开源平台,比如Meta Llama等,这反映了开源生态系统的状况。

 

当我们开始把这些东西看作是一个外部大脑时,有一句加密货币的说法叫没有你的密钥,就没有你的Token。如果说,这就像不是你的权重,就不是你的大脑?

 

NoPriors这很有趣,一个公司在控制你的外皮质,很大一部分你的……

 

Andrej Karpathy这开始感觉有点侵入性了。如果这是我的外皮质,我认为人们会更加在意所有权。你意识到你是在租用你的大脑,似乎租用你的大脑有点奇怪。

 

NoPriors这个思想实验就像是,你愿意放弃所有权与控制权,来租用一个更好的大脑?我愿意,是的。我认为这是一个权衡,我们会看看这如何运作。

 

Andrej Karpathy也许有可能默认使用封闭版本,它们很出色,但你可以在各种情况下有一个后备方案,我认为这有点像今天事情的发展。

 

就像当一些闭源提供商API宕机时,人们开始实现对开放生态系统的后备方案,他们完全控制,并感到由此而来的赋权。这也许就是对大脑未来样子的扩展,如果发生什么事情,你就依靠开源资源。大多数时候,你……

 

NoPriors开源资源持续进步,非常重要。

 

Andrej Karpathy我认为是这样,百分之百。这不是显而易见的观点,或者现在人们可能不一定同意的事情,我百分之百认为是这样。

 

NoPriors我一直在想的是,最小、高效的模型是什么,你可以在某种意义上达到,无论是参数大小,还是你想怎么考虑?还有就是你的观点,你对蒸馏、小模型有很多思考,我有些好奇。

 

Andrej Karpathy我认为它可以出奇的小,我确实认为当前模型浪费大量容量来记住不重要的东西。比如,它们记住SHA哈希码,记住一些古老的东西,数据集没有得到最好的整理。

 

我认为这种情况会有所改变,我们只需要到达认知核心。我认为认知核心可以非常小,它只是一个会思考的东西。如果它需要查找信息,它知道如何使用不同工具。

 

NoPriors那是像30亿参数?是20亿?

 

Andrej Karpathy我认为甚至10亿,10亿就足够了,我们可能会达到那一点,模型可以非常非常小。我认为它们可以非常小的原因根本上,就像蒸馏一样,蒸馏出乎意料有效。蒸馏是你得到一个非常大的模型,或者大量的计算资源之类的东西,监督一个非常小的模型,你可以把很多功能塞进非常小的模型里。

 

NoPriors这是某种数学表示或信息理论公式?几乎感觉你现在应该能够计算这个。

 

Andrej Karpathy可能。也许可以这样考虑这个问题:我们回到互联网数据集,这是我们正在处理的东西。互联网大约是0.001%的认知,99.99%的信息垃圾,我认为大部分信息对思考部分没有用。

 

NoPriors也许换个方式来问这个问题就是,有没有一种数学表示形式,可以体现认知能力相对模型大小的关系?或者你如何在想要达成的目标中捕捉认知,知道这是最小值或最大值?也许没有一个好的方式来表示这一点。

 

我认为也许10亿参数,可以获得不错的认知核心。

 

Andrej Karpathy我认为即使是10亿参数也太多了,我不知道,我们拭目以待。

 

NoPriors考虑到设备边缘与云端的区别,以及使用模型的原始成本,一切都很令人兴奋。在不到10亿参数情况下,我也在本地设备上有我的外脑。

 

Andrej Karpathy:可能不是一个单一模型,对我来说,思考这会如何发展,是很有趣的,我认为你想要从并行处理中受益。

 

你不想有一个顺序过程,你想要有一个并行过程。我认为公司在某种程度上,也有点像工作的并行化。公司中有一个层级结构,这是组织内进行信息处理与简化所需要的一种方法。

 

我认为我们最终可能会拥有一个大语言模型公司的结构,我认为你拥有各种不同能力、专注独特领域的模型,并不是什么不太可能的事情,这将在很大程度上开始类似公司。

 

程序员与项目经理等角色在并行工作,并为你协同运算,也许这样思考是不正确的,它更像是一个蜂群。

 

你的外皮层,就像是一个大型语言模型的蜂群,这更像是一个生态系统,就像一个生物生态系统,你在其中有专门角色与生态位,我认为它将开始趋同那样。

 

你有自动将问题上升到蜂群的其它部分,具体取决于问题难度。也许CEO就像一个非常聪明的云模型,工人可以便宜得多,甚至可能是开源模型或其他什么。我的成本函数与你的成本函数不同,这可能会很有趣。

 

NoPriors你离开OpenAI,从事教育工作,你一直是一名教育者,为什么要这样做?

 

Andrej Karpathy我的起点是,我一直是一名教育者,我热爱学习,也热爱教学,这是一个我长期以来一直非常热衷的领域。

 

另一件事是,我认为有一个宏观图景在推动我,我认为在AI领域有很多活动,我认为大多数是想要取代或替代人类,这主题就像是把人滑到一旁。

 

我总是对能赋能人的任何事物,更感兴趣。从一个更高层面看,我是站在人类一边。我对AI能做什么来赋能人类感兴趣,我不希望未来人们只是处于自动化的一边。我希望人们处于一种非常有权能的状态,我希望他们变得非常出色,比今天出色得多。

 

另一个非常有趣的方面是,如果一个人有全科的完美导师,他们能走多远?我认为如果人们有完美的课程安排,他们可以走得非常远。我们看到这一点,假如有些富人可能有导师,他们确实走得很远。我认为我们可以通过AI实现类似效果,甚至是超越。

 

NoPriors80年代开始,就有非常明确的文献支持这一点,一对一辅导可以帮助人们提高一个标准差,是布鲁姆的东西,有很多非常有趣的先例。

 

你如何通过AI视角来看待这一点?或者说,什么样的第一类产品,能真正帮助实现这一点?有像《钻石时代》这样的书,他们讨论《年轻女士的插图入门》之类的东西。

 

Andrej Karpathy我会说,我肯定受到它某些方面启发。实际操作中,我正在尝试建立一个单一课程,希望它能成为人们学习AI时首选课程。

 

我认为基本问题,在于如何扩大这些课程的规模。例如,我曾在斯坦福教授过231N,这是第一门深度学习课程,相当成功。

 

问题是,如何真正扩大这些课程规模?如何让地球上80亿人都能受益?他们讲不同语言,能力水平各不相同,单个教师无法覆盖如此广泛受众。

 

问题在于,如何使用AI来扩大一个优秀教师影响力。我这样思考这个问题:老师负责大量课程创建与设计,以目前AI能力,我不认为这些模型能够创建一个好的课程。我认为它们适合成为学生的前端,向他们解释课程内容。老师不再直接面对学生,而是在后台设计课程材料,AI作为前端,能够说各种不同语言,引导学生完成整个课程。

 

NoPriors这种情况,可以理解为类似助教TA的体验?

 

Andrej KarpathyAI助教,作为学生的前端,与学生互动,引导他们完成课程。我认为这是可以解决的,尽管现在不存在,它可以变得非常好。随着时间推移与能力提高,课程设置,可能会以各种方式重构。

 

我喜欢找到一些东西,今天的AI能力与对它有一个良好的模型。我认为很多公司,可能并不直观理解今天能力在哪里,最终会构建一些超前于现有能力的东西,或者可能不够雄心勃勃。我确实认为,这是一个可能性与真正有趣、激动人心的结合点。

 

NoPriors回到你刚才提到的某件事,我觉得非常鼓舞人心,特别是考虑到你的背景,以及你对我们目前研究状况的理解。

 

我们不知道从学习角度看,人类表现极限是什么。考虑到更好工具,这里有一个很简单的类比。

 

我们1个月前,刚举办奥运会,一个跑者以及最好的英里时间或者任何体育运动,今天的水平比以前好多了。抛开像10年前兴奋剂不谈,仅仅你开始训练得更早,拥有非常不同的计划,我们有更好科学理解,我们有技术,我们有装备。

 

你相信如果我们从工具与课程开始,人类可以取得更大进步,这一点令人惊叹。

 

Andrej Karpathy是的,我认为我们甚至还没有触及到可能实现的任何一部分。

 

我认为有两个维度,第一个是全球化维度,我希望每个人都能接受到真正优质教育,另一个是一个人可以走多远,我认为这两个问题都非常有趣、令人兴奋。

 

NoPriors通常当人们谈论一对一学习时,他们关注的是自适应性,即在挑战与水平相当的人。你认为今天可以用AI实现这一点吗?还是说这是未来的事情,今天更多是扩大影响力、多语言与全球化?

 

Andrej Karpathy显而易见的是,诸如不同语言之类的事情非常容易实现。我认为当前模型在翻译方面非常好,可以实时定位与翻译材料。很多事情都是显而易见、容易实现。

 

根据一个人背景进行适应,我觉得这不像是容易摘到的果实,也不至难到遥不可及。这确实是你需要的东西,不是每个人都有相同背景。

 

如果你过去熟悉其他学科,利用你知道的东西,来做类比,也是非常有帮助的。这在教育中非常强大,这是一个你想要利用的维度。我认为这开始变得不显而易见,需要一些工作。

 

一个简单的版本不会太难,你可以想象只是提示模型,比如,我懂物理或者我懂这个,你可能会得到一些东西。我指的是一些真正有用的东西,不是那种你可以演示,有时能工作的东西。我指的是它真的起作用,以一种人的方式起作用。

 

NoPriors这就是为什么我问到适应性问题,人们学习速度不同,或者有些事物他们觉得有挑战性,其他人则不然,反之亦然。这种情况下,你怎么去调整?我猜你可以随着时间推移,将某人在某方面优劣重新引入到模型中。

 

Andrej Karpathy这就是AI的特点。我觉得很多这些功能就像提示一样,你总是会看到演示,但你真的会得到一个产品吗?你知道我的意思吗?这个意义上,我会说演示很近,产品还很远。

 

NoPriors我们之前讨论过一件有趣的事情是,研究界发生的某种血统关系。你来自某些实验室,每个人都在谈论彼此来自哪个实验室。我认为有相当高比例诺贝尔奖得主,曾经在前诺贝尔奖得主实验室工作过。这大概是某种文化、知识或品牌传播,不知道是哪一种。在一个以AI教育为中心世界里,你如何保持谱系,或者这不重要?或者你如何看待这些关于网络与知识传播方面的问题?

 

Andrej Karpathy我不想生活在一个非常看重谱系的世界里,我希望AI可以帮助你稍微打破这种结构。这感觉有点像某种稀缺资源的把关机制,好像是说,有有限数量的人拥有这个谱系等,我认为这有点像是某种方面的表现,我希望它能够打破这种结构。

 

NoPriors这确实是一个方面,比如实际学习的一部分谱系,这也像是聚集效应。为什么所有或者大部分AI社区都在湾区?为什么大部分金融科技社区都在纽约?

 

我认为很多时候,是你把一些有共同兴趣与信念的聪明人聚集在一起,他们从这个共同核心中延伸出来,以一种有趣的方式分享知识。

 

你必须在某种程度上,让这种行为转移到线上,尤其是对年轻人而言。

 

Andrej Karpathy其中一个方面有点像教育方面。比如今天如果你是某个社区一员,你会获得大量教育与学徒机会等,非常有帮助,会让你在那个领域达到一种有权能的状态。

 

另一个方面是文化方面,也就是你受什么激励,以及你想要从事什么工作。文化重视什么、推崇什么、奉什么为神圣?

 

在学术界,举例来说,就是H指数。每个人都关心H指数,你发表的论文数量等。我曾是社区的一员,我见证了这一点。

 

我感觉现在我到了不同地方,各个社区都有不同偶像。我认为这对人们动机、他们的社会地位,以及他们真正关心的事物,产生巨大影响。

 

我觉得我曾是不同社区的一部分,比如在斯洛伐克长大,那是一个非常不同的环境,在加拿大也是一个非常不同的环境。

 

在那里重要的是什么?冰球。

 

举个例子,我会说在加拿大,我在多伦多大学与多伦多。我不认为它是一个非常具有企业家精神的环境,根本不会想到你应该创业。人们不这么做,你不会有朋友在做这个,你也不知道你应该仰望它。人们不会读所有这些创始人们的书籍,然后讨论他们,这根本不是你向往或在意的事情。

 

每个人都在谈论的是,你在哪里找到实习?你以后打算去哪工作?大家似乎都接受有一套固定的公司列表,你应该从中选择,并与其中一家对齐,这就是你仰望或者追求的目标。

 

这些文化方面的因素非常强大,可能是主要变量。我几乎觉得,如今教育方面的问题,已经相对容易,比如说有大量资源已经可用等。

 

我认为主要是你所身处的文化环境。

 

NoPriors这一点上,我们几周前聊的一个话题是,我记得你在网上发过,学习与娱乐是有区别的。学习确实应该是困难的,我认为这涉及到地位的问题,地位是一个伟大的激励因素,比如说谁是偶像。

 

你认为,通过这样系统,在动机方面,你能够改变多少,如果这是一个阻碍因素?你是否专注给予人们资源,使他们能够在自己能力范围内,尽可能在过程中走得更远,比历史上任何时候都更进一步,已经是鼓舞人心?或者你是想改变有多少人愿意学习,或者至少激励他们走上学习的道路?

 

Andrej Karpathy愿意是一个有负担的词。我会说,我想让学习变得容易得多,然后可能会有人不愿意学习。今天,比如人们为了实际原因愿意学习,比如他们想找到工作等,这是完全有道理的。在一个前AGI社会中,教育是有用的。我认为人们会因此有动机,他们在经济上不断攀升等。

 

NoPriors但在后AGI社会,我认为教育在很大程度上将是一种娱乐。包括像成功的结果教育,不仅是让内容从你身上流过。

 

Andrej Karpathy是的,我认为是这样。结果就像理解、学习、能够贡献新知识,或者你如何定义它。

 

NoPriors我认为这不是偶然的,如果你回到200年前、300年前,做科学的人是贵族或有钱人,我们都会成为与安德烈一起学习的贵族。

 

Andrej Karpathy是的。我确实认为,我看到它非常类似你之前的引用。我觉得学习某些东西有点像去健身房,但这是对大脑的锻炼,就像去健身房的感觉。去健身房是很有趣的,人们喜欢举重等。有些人不去健身房,有些人去,但需要努力。它是努力的,也有点有趣。你也有一个回报,比如你在各方面对自己感觉良好,我认为教育等同于那样的感觉。

 

这就是我说教育,不应该是有趣的时候的意思等。这有点有趣,我认为这是一种特定的乐趣,我确实认为,也许在一个后AGI世界里,我希望发生的是人们,他们确实经常去健身房,不仅是身体上,还包括精神上。这是我们仰望的东西,有很高的教育程度。

 

NoPriors我可以问你关于Eureka的最后一个问题吗,只是我觉得这会让人们感兴趣,比如第一个课程的受众是谁?

 

Andrej Karpathy第一个课程的受众,我主要认为这是本科水平的课程。如果你在技术领域读本科,我认为这将是一个理想的受众。我确实认为我们现在看到的是一种陈旧的教育概念,你上学,毕业去工作。这样的模式,在一个变化如此迅速的社会里,会完全崩溃。随着科技快速发展,人们会更加频繁回到学校学习。

 

这种学习,有点像本科水平,我认为任何年龄段的人都在范围之内。年龄上会非常多样化,主要是技术性的人,他们大多数是真正想要了解不少内容的人。

 

NoPriors他们什么时候可以上这门课?

 

Andrej Karpathy我希望是在2024年底。我确实有很多干扰正在积累,我认为2025年初可能是个时间节点。我在努力把它做好,这确实需要时间才能完成。

 

NoPriors如果你今天有小孩,你认为他们应该学习什么,以确保一个有用的未来?

 

Andrej Karpathy在我看来,有一个正确答案。

 

正确答案,大概是数学、物理、计算机科学这些学科。我这么说的原因,是我认为它对思维能力有帮助,这是最佳的思维技能核心。

 

我有特定的背景,我会这么想,这只是我的看法。我觉得我上过的物理课与其他课,都塑造了我思维方式,这对解决问题非常有用。

 

如果我们处在一个AGI前的世界,这会有用。AGI之后,你希望有能力的人类,可以在任何任意能力中发挥作用。我认为这是对人们正确答案,他们应该做与学的事情,要么有用,要么好。

 

我认为很多其他东西,你可以稍后再添加,但在人们有大量时间与注意力的关键时期,应该主要用来做简单操作密集型的任务与工作负载,而不是记忆密集型的任务与工作负载。

 

我学的是数学学位,觉得在学习过程中,感觉自己大脑正在开辟一条新沟槽,这种沟槽在以后会更难开辟。

 

我还会把很多其他东西加入进来,比如,我不排斥所有其他学科。我认为拥有多样性的事物是很美的,我确实认为其中80%应该像这样。

 

NoPriors首先,与我们的工具相比,我们不是有效记忆者。

 

你做这件事,真是太有趣了。

 

Andrej Karpathy很高兴来到这里。

 

Ilya融资10亿幕后大佬:复刻OpenAI创始人,21岁当苹果AI总监,手握千卡算力集群

时间:202495

来源:智东西

字数:3,217

 

 

 
酷似Sam Altman的投资人,能帮助Ilya Sutskever再获成功?

 

OpenAI前首席科学家Ilya Sutskever创业项目安全超级智能SSI在成立2个多月、仅有10名员工情况下,拿下10亿美元融资,估值冲破50亿美元/356亿元人民币。

 

SSI官宣最新融资信息,NFDGa16z与红杉等参投

 

为何SSI能以如此之快速度,拿下大额融资?除了Ilya SutskeverAI圈影响力外,SSI另一位拥有丰富创投经验的神秘联合创始人Daniel Gross也做出重要贡献。

 

20246月,Daniel GrossIlya Sutskever,与另一位从OpenAI出走的研究科学家Daniel Levy共同创立SSIIlya Sutskever是首席科学家,Daniel Levy是主要科学家,Daniel Gross负责算力、筹款、人才引进。

 

从左至右:Daniel GrossIlya SutskeverDaniel Levy

 

Daniel Gross是硅谷知名个人投资人,曾投资150余家企业,拥有极为复杂的投资组合与人脉网络。Daniel Gross 18岁创业,21岁时他的搜索引擎创业项目Cue被苹果收购。Daniel Gross随着收购加入苹果,担任4年苹果AI与搜索部门总监,2024年才33岁。

 

拿着从苹果收购中获取的4,000万美元,Daniel Gross开始创投生涯。目前,Daniel Gross与人合伙管理的投资基金规模达20亿美元,拥有多个其它投资实体,总资产规模成谜。

 

AI与搜索,是Daniel Gross投资中一条不可忽视的主线。除了通过与硅谷知名个人投资人Nat Fridman合伙的投资实体NFDG参投SSI本轮融资之外,Daniel Gross还投资了AI搜索独角兽Perplexity AI、自动驾驶创业项目CruiseAI开发平台Weights&BiasesAI笔记软件Notion等知名AI创业项目。

 

Daniel Gross与他人合伙建立拥有近3,000块英伟达H100 GPU的算力集群,用算力换初创公司股权。作为深刻理解技术的投资人,Daniel Gross受到不少创业者好评。

 

Stripe CEO称:只有真正了解实际技术的人,才能做好投资,Daniel Gross要比大多数人都更好、更深入了解实际技术。

 

Daniel Gross人生轨迹,像素级复刻OpenAI CEO Sam Altman,两人首次创业时年龄仅相差1岁,前后脚加入孵化器YC,创业项目成功退出后,都成为投资人。

 

Daniel GrossSam AltmanYC总裁时,开启YC首个AI垂类项目,两人都投资过目前估值650亿美元的金融科技创业项目Stripe

 

两人唯一区别或许是,Daniel Gross之前不希望在创业项目担任重要职位,他在SSI上打破自己惯例,成为联合创始人,深度参与SSI各项工作。

 

曾投资150余家创业项目,打破惯例,深度参与SSI日常工作

 

过去10年,Daniel Gross投资150多家创业项目,包括自动驾驶创业项目Cruise、加密货币平台CoinbaseAI搜索引擎创业项目Perplexity AI等。

 

 
Daniel Gross投资过部分企业

 

Ilya Sutskever创业项目SSI上,Daniel Gross未像往常那样仅是投入资金,还亲自作为联合创始人参与其中。

 

一位与Daniel Gross共事过人士透露,Daniel Gross目前将大部分时间都花在SSI上,他的投资办公室距离SSI总部只有几步之遥,他正在确保公司能获取强大芯片来训练AI模型。

 

另一位了解招聘流程的人士称,Daniel Gross积极参与SSI人才招聘工作,经常要求面试的人完成挑战、谜题或者玩电子游戏,以了解候选人在快速变化环境中敏捷程度。

 

Daniel GrossSSI的参与,让人不禁联想起硅谷另一位多产投资者,OpenAI CEO、联合创始人Sam Altman

 

Daniel Gross 18岁创业,Sam Altman 19岁创业。两人在创业时,都申请加入YC孵化器,成功退出后,两人都拿着自己捞到的第一桶金下场投资,都投资过当时名不见经传的金融科技创业项目Stripe

 

Sam Altman2009年用1.5万美元换取Stripe 2%股份,Daniel Gross具体投资情况不详。

 

目前,Stripe已经是估值650亿美元的超级独角兽,Sam AltmanDaniel GrossStripe创始人两兄弟,也成为硅谷最有权势的几个人。

 

近期风投行业萎缩,导致许多创业项目投资新手离开这一行业,这让Daniel Gross日益增长的影响力更为引人注目。

 

科技行业,目前依赖在硅谷有人脉网络的内部人士,如Daniel GrossSam Altman、个人投资者Elad Gil与谷歌前CEO Eric Schmitt等。

 

微软前副总裁、代码托管平台GitHubCEO Nat Friedman也是这样一位投资人,他与Daniel Gross一同建立仙女座Andromeda计算集群,拥有近3,000块英伟达H100 GPU700多块A100 GPU

 

创业项目可申请以优惠价格使用这一计算集群内的算力,作为交换,Nat FriedmanDaniel Gross可获取AI创业项目部分股权。

 

The Information称,两人通过投资实体NFDG管理的总资产超过20亿美元,这一数字之前尚未被公布。

 

只有了解实际技术的人,才能做好投资

 

与许多投资人不同,Daniel Gross是一位真正理解技术的投资人。

 

Ilya Sutskever一样,Daniel Gross具有以色列背景。Ilya Sutskever 5岁时迁居以色列,Daniel Gross从小就在耶路撒冷长大。

 

Daniel Gross母亲是一名记者,父亲是一名计算机科学家。他小时梦想是前往硅谷,创办一家公司。

 

18岁时,Daniel Gross填写硅谷知名孵化器YC申请书,他在2010年被正式纳入YC当年冬季批次创始人中。

 

2011年,Sam Altman以合伙人身份重返YC,负责指导旗下创业项目,发现投资机会。

 

Daniel Gross创业成功后,曾在YC创业学校分享经验

 

2013年,Daniel Gross人生迎来重要转折点,苹果用总价值约4,000万美元现金与股票,买下Daniel Gross搜索引擎创业项目Cue

 

Daniel Gross加入苹果,担任4年苹果AI与搜索部门总监。与此同时,Daniel Gross开始用出售Cue换取的资金,投资创业项目。

 

Daniel Gross与金融科技巨头Stripe创始人Patrick Collison有很深交情,之后也曾投资Stripe

 

Stripe2009年夏季批次YC创业项目,Patrick Collison可以说是Daniel Gross学长。Patrick Collison回忆,2010年时,他正在努力将Stripe与当时流行的Web框架集成,当他向Daniel Gross求助时,Daniel Gross直接接手这项工作,在1天内就编写好集成。

 

Daniel Gross投资过的AI开发平台独角兽Weights & Biases CEOLukas Biewald称,Daniel Gross是一名nerd。这原本是人们对硅谷技术宅们的嘲讽,但在许多创始人眼中,这种理解技术的投资人正是他们想要的。

 

Daniel Gross曾主导Perplexity AI 2024年初C轮融资,这轮融资后,Perplexity AI正式成为估值超10亿美元独角兽。

 

他至今,会定期向Perplexity AI创始人Aravind Srinivas发送自己在Perplexity中发现的错误。Daniel GrossPerplexity AI中有大量投资,他直言不讳向Aravind Srinivas分享,他认为Perplexity AI仅有2种可能,要么成为一个自杀式任务,要么成为马斯克级别的成功故事。

 

Aravind Srinivas称,他很欣赏Daniel Gross极端坦率的幽默。

 

Daniel Gross曾运营Pioneer孵化器,2024年关停。知情人士透露,若Pioneer之前投资过的企业表现不错,Daniel Gross可能还会重新开始招募新的企业加入。

 

Patrick Collison称,Daniel Gross相信了解技术与创业的早期投资人,对创业项目来说极为重要。

 

Patrick Collison现在也在与Daniel Gross合作进行天使投资,Patrick Collison称:只有真正了解实际技术的人,才能做好投资,Daniel Gross要比大多数人都更好、更深入了解实际技术。

 

2017年开始投资AI,在硅谷有大量人脉


除了理解技术外,Daniel Gross擅长达成交易与发现投资机会,这与他的性格特质密不可分。

 

YC时代见过Daniel Gross的人都说,即使是在一群A型人格,富有竞争力、干劲、野心与紧迫感的人当中,他的野心也很突出。

 

他们记得,在集体场合中,Daniel Gross总能吸引最著名、人脉最广的人。这点与Sam Altman很像。

 

2010YC路演日,YC毕业创业项目向投资人介绍自己活动上,Daniel Gross将来的投资伙伴Nat Fridman一眼就发现Daniel GrossNat FridmanYC创始人Paul Graham说,他最喜欢的演讲就来自Daniel Gross

 

Daniel GrossNat Fridman一同接受采访,上方左侧为Daniel Gross,下方为Nat Fridman

 

2017年,Daniel Gross以合伙人身份重返YC,在内部构建专门针对AI的创业项目,YC AI。此时,Sam Altman刚从Paul Graham手中接管YC,正极为激进扩大投资类别、批次规模与业务类型,YC AI也是其中之一。

 

Daniel GrossSam Altman,或许在YC有过不少交集。

 

大约同一时间,Daniel GrossNat Fridman合作启动AI Grant项目,用现金或计算资源帮助开源AI项目启动。两人自费资助第一批企业,又为后续批次企业拉到捐赠。随后几年中,AI Grant推出类似YC的加速器,Nat FridmanDaniel Gross通过加速器入股初创公司。

 

该项目的毕业创业项目,包括Perplexity AI与明星文生视频创业项目Pika

 

Sam Altman一样,Daniel Gross成为一位资深交易撮合者,他组建一系列令人眼花缭乱的基金,让外部人士更难追踪他所有投资。

 

文件显示,他与Nat Fridman合作的基金包括C2InvestmentsC2023CTRY

 

接受过这些实体投资的人士透露,Daniel GrossD Gross Holdings的实体进行投资,Nat FridmanNF Capital进行投资,The Information称这些实体之前不为人所知。

 

Stripe创始人两兄弟,曾向这些实体提供投资基金。Daniel Gross再次成为创业者之际,他面临主要挑战,可能是要为公司配备合适的AI研究人员。

 

了解招聘流程的人士透露,Daniel Gross目前寻找的不是另一位像Ilya Sutskever的明星人物,首要任务是寻找年轻的AI研究人员,让这些人才接受公司资深员工指导。

 

另一位与Daniel Gross关系密切的人士称,Daniel Gross不愿在初创公司担任高调角色,他觉得SSI需要他更多参与其中,帮助筹集资金、获得芯片,履行其他职责。

 

结语:Ilya Sutskever技术+Daniel Gross资源,SSI能与OpenAI分庭抗礼?

 

619日,Ilya Sutskever公布自己新创业项目时,他们便自信称公司开发,不会受短期商业压力影响,能心无旁骛实现安全超级智能。

 

OpenAI在成立之初,也曾许下相同诺言,最终他们不得不屈服AI高昂开发成本,开发产品缓和资金压力。

 

Ilya Sutskever这位OpenAI元老,与硅谷另一位资源丰富的投资人合作后,能否再造一个像OpenAIAI超级独角兽,并实现安全的AI


【长期主义栏目每周六、与长假更新,分以下系列:


宏观说:全球各大国政要、商业领袖等

 

社会说:比尔·盖茨等

 

成长说:洛克菲勒、卡内基等

 

科学说:历年诺奖获得者、腾讯科学WE大会等

 

科技说:马斯克、贝索斯、拉里·佩奇/谢尔盖·布林、扎克伯格、黄仁勋、Vitalik ButerinBrian ArmstorngJack Dorsey、孙正义、华为、马化腾、张小龙、张一鸣、王兴等

 

投资说:巴菲特、芒格、Baillie Giffrod、霍华德·马克斯、彼得·蒂尔、马克·安德森、凯瑟琳·伍德等

 

管理说:任正非、稻盛和夫等

 

能源说:曾毓群等

 

汽车说:李想、何小鹏、王传福、魏建军、李书福等

 

智能说:DeepMind、OpenAI

 

元宇宙说:Meta/Facebk、苹果、微软、英伟达、迪士尼、腾讯、字节跳动、EpicGamesRoblox、哔哩哔哩/B站等

 

星际说:中国国家航天局、NASA、历年国际宇航大会,SpaceXStarlink、蓝色起源、维珍银河等


军事说:全球主要航空航天展等

 

消费说:亚马逊、沃尔玛、阿里、京东、拼多多、美团、东方甄选等

 

每个系列聚焦各领域全球顶尖高手、产业领军人物,搜集整理他们的致股东信、公开演讲/交流、媒体采访等一手信息,一起学习经典,汲取思想养分,做时间的朋友,做长期主义者。


六合年度报告全库会员,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买


智能时代专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

智能时代专题第二季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买


智能时代专题第一季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买


六合商业研选付费专题报告,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

元宇宙专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

头号玩家第二季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

头号玩家第一季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

智能电动汽车专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

相关研报:

【智能时代】现象级游戏《黑神话:悟空》的思考,游戏二元属性,文化与科技

【智能时代】自动驾驶:汽车iPhone时刻,中国三大流派演化形成中

诸神之战:美国科技巨头,从春秋五霸进入战国七雄|GBAT 2023 大湾区智能时代产业峰会

人类未来文明三部曲之二:智能时代专题预售开启,奇点临近,未来已来

九宇资本赵宇杰:智能时代思考,认知思维,存在原生、降维、升维三波认知红利

九宇资本赵宇杰:智能时代思考,以史为鉴,科技浪潮,从互联网到AI

九宇资本赵宇杰:智能时代思考,宇宙视角,从碳基生物,到硅基智能体

人类未来文明三部曲之一:元宇宙专题预售开启,59期45万字

九宇资本赵宇杰:1.5万字头号玩家年度思考集,科技创新,无尽前沿

九宇资本赵宇杰:1.5万字智能电动汽车年度思考集,软件定义,重塑一切

【重磅】前沿周报:拥抱科技,洞见未来,70期合集打包送上

【重磅】六合年度报告全库会员正式上线,5年多研究成果系统性交付

【智能电动汽车专题预售】百年汽车产业加速变革,智能电动汽车时代大幕开启

【头号玩家第一季预售】:科技巨头探索未来,头号玩家梯队式崛起

【头号玩家第二季预售】:科技创新带来范式转换,拓展无尽新边疆

【首份付费报告+年度会员】直播电商14万字深度报告:万亿级GMV风口下,巨头混战与合纵连横

【重磅】科技体育系列报告合集上线,“科技+体育”深度融合,全方位变革体育运动

【重磅】365家明星公司,近600篇报告,六合君4年多研究成果全景呈现

九宇资本赵宇杰:CES见闻录,开个脑洞,超级科技巨头将接管一切

【万字长文】九宇资本赵宇杰:5G开启新周期,进入在线世界的大航海时代|GBAT 2019 大湾区5G峰会

九宇资本赵宇杰:抓住电子烟这一巨大的趋势红利,抓住产业变革中的变与不变

【IPO观察】第一季:中芯国际、寒武纪、思摩尔、泡泡玛特、安克创新等11家深度研报合集

【IPO观察】第二季:理想、小鹏、贝壳、蚂蚁、Snowflake、Palantir等12家公司深度研报合集

【IPO观察】第三季:Coinbase、Roblox、快手、雾芯科技等12家公司深度研报合集

【重磅】年度观察2019系列合集:历时3个多月,超20万字近500页,复盘过去,展望未来,洞悉变与不变

【珍藏版】六合宝典:300家明星公司全景扫描,历时3年,210万字超5,000页,重磅推荐

九宇资本赵宇杰:对智能电动汽车产业的碎片化思考

九宇资本赵宇杰:九宫格分析法,语数外教育培训领域的道与术

【2023回乡见闻录】90、00后小伙伴们万字记录,生活回归正轨,春节年味更浓

【2022回乡见闻录】20位90、00后2万字,4国13地,全方位展现国内外疫情防疫、春节氛围、发展现状差异

【2021回乡见闻录】22位90后2万字,就地过年与返乡过年碰撞,展现真实、立体、变革的中国

【2020回乡见闻录】20位90后2万字,特殊的春节,时代的集体记忆

【重磅】22位“90后”2万字回乡见闻录,讲述他们眼中的中国县城、乡镇、农村

六合君3周岁生日,TOP 60篇经典研报重磅推荐

下午茶,互联网世界的三国杀

5G助推AR开启新产业周期,AR眼镜开启专用AR终端时代

新商业基础设施持续丰富完善,赋能新品牌、新模式、新产品崛起,打造新型多元生活方式

【重磅】中国新经济龙头,赴港赴美上市报告合辑20篇

知识服务+付费+音频,开启内容生产新的产业级机遇,知识经济10年千亿级市场规模可期

从APP Store畅销榜4年更替,看内容付费崛起

新三板破万思考:新三板日交易量10年100倍?

九宇资本赵宇杰:科技改变消费,让生活更美好|2017 GNEC 新经济新消费峰会
 
九宇资本赵宇杰:创业时代的时间法则,开发用户平行时间|2016 GNEC 新经济新智能峰会
 
九宇资本赵宇杰:互联网引领新经济,内容创业连接新生态2016 GNEC 新经济新营销峰会

请务必阅读免责声明与风险提示