专栏名称: 大数据文摘

普及数据思维，传播数据文化

Andrej Karpathy最新采访：认知核心模型10亿参数就够了，AI会打破教育不公的僵局

大数据文摘 · 公众号 · 大数据 · 2024-09-09 18:00

正文

大数据文摘授权转载自夕小瑶科技说
作者 | 海野

AI圈子的红人，AI大神Andrej Karpathy，曾是OpenAI联合创始人之一，特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司，宣布将长期致力于AI原生教育。

近日，Andrej Karpathy接受了No Priors（投资博客）的采访，与硅谷知名投资人 Sara Guo 和 Elad Gil，展开一次关于AI、教育与认知的讨论。

在采访中他提到：

认知核心AI或许只需要10亿参数。AGI到来前，我建议多学习数学、物理、计算机科学。这对于培养逻辑推理非常有帮助。这些知识在AGI到来后依然受用。

在此次No Priors采访中，Karpathy就AI+教育、AI发展瓶颈、机器人、自动驾驶等领域，与主持人展开了一系列讨论。这也是Karpathy全职做AI原生教育后，第一次接受专栏采访。

机器人、AI的发展趋势

Karpathy离开Tesla自动驾驶之前，曾参与人形机器人项目。Karpathy认为，实际观察一下汽车，基本上与机器人没有什么差别。

Karpathy：

我认为特斯拉不是一家汽车公司，而是一家规模化的机器人公司。早期的Optimus机器人，还以为自己是辆车，并且它还可以运行汽车网络，还能“试图”识别可驾驶空间。当然这也说明它还缺乏微调。

主持人：你认为人形机器人或人形设备会首先应用在什么领域？

Karpathy：

我猜很多人会想让机器人率先通过B2C模式融入日常生活，比如做饭洗衣服什么的，但这不太现实，其中会牵扯到太多法律和道德的问题（比如自动驾驶汽车撞人到底该怎么评判）。机器人还不够完美，还需要改进。

机器人最好率先用在机器人公司自己的工作业务中。首先在自己公司里搭建机器人的工作链，这样还能帮你节省一些劳务费用。然后你就可以进入B2B应用，跟其他公司签订契约，让这些机器人去其他公司工作。

以此你的机器人就可以发展到足以支撑B2C应用的水平，这样你才可以迈出这一步。当然这也涉及到非常多的工作量和技术突破，但我认为这一切都是可行的。

其中，Transformers是一个非常强大的技术支持，你可以让它做任何任务，只需要以正确的方式输入数据，就可以训练，部署，然后不断迭代。

实际上，Transformer比人脑性能更高，Transformer的记忆序列能力远远超过人脑。实际上，人脑的记忆性能是非常差的。与大脑的学习方式相比，将Transformer架构用于训练神经网络会更有效。只是现在缺少数据。

说到数据，互联网上的公开数据，并不是训练大语言模型的最适用数据。大语言模型要想做到突破，真正需要的是人脑活动，也就是大脑的思考路径。现在只要十亿条这种数据喂给模型，那现在就能实现AGI。

此外，合成数据绝对是不可或缺的一类数据。但是，用合成数据处理数据集时，要确保合成数据的随机性和多样性，必须与真实世界的数据具有相同水平。

当前的模型浪费了大量的容量来记住不重要的信息，本质上是因为数据集不够好。最终一个具备认知核心的模型可能只要10亿参数就足够了，模型可以非常非常小。

主持人：我一直在想，最小、高效的模型是什么样子的？关于参数大小等数据，你有什么看法？

Karpathy：

我认为，模型参数可以非常非常小。现有的模型大部分都浪费了很多容量来记住不必要的内容。如果只是需要一个认知核心模型的话，我想蒸馏出10亿的参数就够了。这个模型不需要所有的知识内容，只要在必要时调用其他模型或者工具就可以。但是这样想的话，即使是10亿的参数也有点多了。

自动驾驶技术

主持人：你曾从事在Tesla的自动驾驶领域，而现在我们确实有了完全自动驾驶的汽车，以及一些的士。我们多久能看到这项技术的普及或者更新？

Karpathy：我在Tesla的自动驾驶领域工作有五年之久，所以我想说汽车的自动驾驶有点类似于AGI，至少自动驾驶技术已经有一点点达到AGI的水平了。但是这种技术是很难普及的，如果要具体问题具体分析的话，自动驾驶想要实现全球化还要很长很长的时间。

主持人：你认为这是因为监管因素，还是技术因素？

Karpathy：我认为是技术因素。当你看到一个自动驾驶的实机演示时，说明它这个技术与当地的风土、环境、文化等因素相匹配。但是这项技术实际落地时，现实往往与演示视频有着巨大的差距。我想说，等到AGI出现演示视频的时候，它的落地也会像自动驾驶的落地一样难。

对于两个公司Waymo和Tesla，在自动驾驶方面，虽然目前Waymo更胜一筹，但我认为Tesla终将登峰造极。Tesla面临的是软件问题，而Waymo则面临硬件问题，其中软件问题是更容易解决的。我非常看好Tesla以及它的自动驾驶规划，毕竟Tesla已经打通了全球的汽车市场，这是Waymo望尘莫及的。从收入来源的角度看，我想这个结果10年后就可以见分晓了。

AI+教育

问到Karpathy目前在AI教育方面的工作，他表现出了极大地兴趣：

我想我会一直从事教育工作了，我一直都热衷于学习和教学。此外我还注意到，像AI这样的事物似乎有取代人类的倾向，但正因为我喜欢传授知识，所以我觉得AI也可以用来做一些，提高人们学识和力量的事情。

我不希望人们以后就只能依赖自动化，我更希望人们能有自主解决复杂问题的能力，甚至是出现“能超越过去或现在各种学者和大能”的人。

此外我还注意到，一个人到底能走多远，也要看他有没有一个好的导师。比如一些有钱人，他们真的有钱聘请一些很完美的导师一对一辅导，那这些人在特定的领域就真的可以走得很远。

现在有了AI，在这个由血统决定一切的世界中，我想AI可以稍稍打破这个僵局。更多的人可以通过AI来实现一对一辅导——老师只要出课件就可以了，前端问题交给AI来解决。这样也许能帮助到一些寒门书生。

主持人：关于Eureka Labs，你可以介绍一下吗？

Karpathy：我想先把这个“学校”的课程做成本科水平的课程，所以如果你是技术专业的本科生，你应该会很感兴趣。

我做这些主要是因为我们现在的教育观念或许有些过时——在学校里上课、然后完成学业、然后就走向社会工作。我觉得随着AI的发展，这个观念会逐渐被淘汰。

现在技术变革非常迅速，人们很快就会想“我要回学校学新的技术”，并且频率会越来越高。但我想说，任何年龄都应该学习，活到老学到老。这也是我做Eureka Labs的目的，只是我还需要时间去完善它，可能到年底或者明年年初就能做好第一堂课。

主持人：最后一个问题。如果你现在有孩子，你认为他们应该学习什么，才能在未来社会中立足？

Karpathy：在我看来，我大概会选数学、物理、计算机科学这些。因为我认为它对逻辑思维能力有帮助。当然，我有特定的背景，所以我会这么想。我觉得我上过的数学、物理课和其他课都塑造了我的思维方式。总的来说，如果我们处在一个AGI前的世界，这会有用。

在AGI之后，我想有能力的顶尖人才还可以在对应的领域发挥相应的作用。所以该学的知识，要么有用，要么好。很多不必要的知识可以稍缓缓再学，人们在一些时间节点，其注意力会更集中，思维会更敏捷，这些时间应该用来处理一些简单的操作密集型的任务，而不是记忆密集型的任务。

最后，附上完整的采访视频链接：

https://www.youtube.com/watch?v=hM_h0UA7upI&t

（PS:Karpathy的语速真的很快啊！笔者都要听晕了。）

参考资料

[1] https://x.com/saranormous/status/1831695712909971523

黑色小圆动图分割线

租售GPU算力

租：4090/A800/H800/H100

售：现货H100/H800

特别适合企业级应用

扫码了解详情☝

点「在看」的人都变好看了哦！