分享被拍成视频上传到斯坦福在线课 YouTube 官号,其中有 40 多分钟施密特与学生 Q&A 的环节。
因为观点太直接,说话太实在,施密特的分享上了新闻。
斯坦福官号把视频都隐藏了。
最后施密特在邮件采访中对「错误言论」表示道歉。
知名科技博主
阑夕
总结了施密特分享的重点内容,TLDR。
文章
后面也附上了
施密特
的全程问答。
-
现在的谷歌为什么在 AI 领域被 OpenAI 压着打?因为谷歌觉得让员工尽早回家和平衡工作比赢得竞争更加重要。如果你的员工每个星期只来公司上一天班,你怎么可能比得过 OpenAI 或是 Anthropic?
-
看看马斯克,看看台积电,这些公司之所以成功,就是因为能够卷员工,你必须要把员工逼得够紧才能获胜,台积电会让物理学博士第一年下工厂干活,你们能想象美国的博士生去流水线吗?
-
自己犯过很多错误,比如曾经觉得英伟达的
CUDA
是很蠢的编程语言,但现在 CUDA 是英伟达最牛逼的护城河,所有的大模型都要在 CUDA 上运行,而只有英伟达的 GPU 支持 CUDA,这是其他芯片撼动不了的组合。
-
还有微软跟 OpenAI 合作时自己也觉得难以置信,微软怎么能把最重要的 AI 业务外包给那种小公司啊,结果再次看走了眼,再瞧瞧苹果在 AI 上的温吞,大公司真的都官僚化了,奋斗逼都在创业。
-
TikTok 给美国人上了一课,在座各位年轻人以后如果创业,能偷音乐什么的就赶紧去做——似乎是在黑 TikTok 早期纵容盗版 BGM——如果你做成了,就有钱雇佣最顶级的律师帮你擦屁股,如果你没做成,那就没人会起诉你。
-
OpenAI 的星际之门在宣传时说需要 1000 亿美金,实际上可能 3000 亿都打不住,能源缺口太大了,给白宫提过建议,美国以后要么跟加拿大打好关系,水电资源丰富,劳动力便宜,而且够近,要么去和阿拉伯国家套近乎,让他们来做主权投资。
-
欧洲已经没戏了,布鲁塞尔(欧盟总部所在地)一直都在摧毁科技创新的机会,可能法国还有点希望,德国不行,其他欧洲国家就更不用提了,印度是美国盟友里最重要的摇摆州,以及美国已经失去了中国。
-
开源很好,谷歌历史上的大部分基础设施也都受益于开源,但是说实话,AI 行业的成本太高了,开源负担不起,自己投资的法国大模型 Mistral 将会转为闭源路线了,不是所有公司都愿意且有能力像 Meta 一样当冤大头。
-
AI 会让富者愈富、穷人恒穷,国家也是,这是一场强国之间的游戏,没有技术资源的国家需要拿到加入强国供应链的门票,否则也将错过盛宴。
-
AI 芯片属于高端制造业,产值很高,但不太可能拉动就业,你们可能没几个人去过芯片制造厂,里面全是机械化生产,不需要人,人又笨又脏,所以不要指望制造业复兴,苹果把 MacBook 的产线迁回德州不是因为德州工资低,因为根本不用再大规模雇人了。
-
历史上,电力在引入工厂之后并不比蒸汽机创造了更多的生产力,是过了大概 30 年左右,分布式电源改造了车间布局,推动组装系统的出现,再才开始了生产力的飞跃。现在的 AI 和当初的电力一样,有价值,但还需要组织创新,才能真正拿到巨大的回报,目前大家都还只是在摘取「低垂的果实」。
01
三个会改变未来的 AI 技术
主持人:你怎么看 AI 在短期内的发展?在你这里短期的定义应该是未来一两年,是吧?
Eric Schmidt
:事情发展得太快了,感觉每隔六个月,我就要重新做一次关于未来的演讲。这里有没有计算机科学专业的?有没有人能给大家解释一下,什么是百万 token 上下文窗口?
听众
:基本的含义是,提问 prompt 可以用一百万个 token 或者一百万个词,或者其他类似的东西。
Eric Schmidt
:所以百万 token 意味着你可以提出一个一百万词长度的问题。
听众
:是的,我知道这是目前 Gemini 的一个大方向。
Gemini 官网介绍(中文翻译为插件效果,感谢沉浸式翻译)
Eric Schmidt:不,他们的目标是到一千万。Anthropic 已经达到了 20 万,还在继续增长。目标是一百万及以上,可以想象 OpenAI 也有类似的目标。接下来有谁能给我们一个技术定义,解释一下什么是 AI Agent 吗?
听众
:AI agent 就是在网上执行任务,代表你来购买东西,以及类似的各种操作。
Eric Schmidt
:所以 agent 就是执行某种任务的东西,另一个定义是一个具有记忆功能的大型语言模型。再问一个问题,计算机科学的同学,有人能解释一下什么是 Text-to-Action 吗?
听众
:就是把文字扩展到更多文本,输入文本,然后 AI 根据文本触发操作。
Eric Schmidt
:另一个定义是把语言转换成 Python——一种我从没想到还能继续存活的编程语言。但现在 AI 的一切都是用 Python 来做的。最近有一种刚刚发布的新语言叫 Mojo,它似乎终于解决了 AI 编程的问题,不过我们还要看看在 Python 统治局势下,它能不能生存下来。
再问一个技术问题,为什么 Nvidia 价值两万亿美元,而其他公司却陷入困顿?
听众
:技术原因嘛。我认为这主要归结于代码运行的优化。目前大多数代码需要在经过优化的环境中运行,而目前只有 Nvidia 的 GPU 可以做到这一点。事实上其他公司有能力开发各种技术,可能拥有长达十年的软件开发经验,但它们没有专门针对机器学习进行优化的团队。
Eric Schmidt
: 我喜欢把 CUDA 看作是 GPU 的 C 语言。这是我喜欢的理解方式。它在 2008 年诞生,我一直觉得它是个糟糕的语言,但它却成为了主流。现在有一整套开源库,它们都是针对 CUDA 高度优化的。构建这些技术堆栈的所有人都忽略了这一点。我们称之为 vlm 技术,加上其他类似的开源库,它们都为 CUDA 做了优化。这对竞争对手来说很难复制。
以上这些意味着什么?
在接下来的一年里,你会看到更大规模的上下文窗口、Agent 和 Text-to-Action 的功能。当它们被大规模应用时,影响将比我们现在看到的社交媒体带来的巨大冲击还要大,至少在我看来是这样。在上下文窗口里,你可以把它当作短期记忆来用,规模能做得这么大,这太让人震惊,技术上服务和计算是非常复杂的。
短期记忆的有趣之处在于,让它读 20 本书,把这些书的文本输入进去作为查询,让它告诉你书的内容。人类大脑会忘记中间的部分。现在有一些人在构建基本的 LLM Agent。它们的工作方式是,比如读化学类的内容,发现其中的化学原理,然后进行测试,再把结果加入到它们的理解中。这非常强大。
第三点,就是我提到的文本到动作。举个例子,政府现在正在考虑禁止 TikTok。我们不知道会不会真的发生。如果 TikTok 被禁了,我建议你们对你们的 LLM 说:复制一个 TikTok,获取所有用户,获取所有音乐,加入我的偏好,30 秒内生成并发布。如果一个小时内没火,那就换个类似的做法,这就是命令。砰砰砰,马上就成了。
你明白吗?如果你能从任意语言直接生成任意的数字指令,这基本上就是这个场景下 Python 的作用。想象一下,每个人都有一个能按你要求工作的程序员,而不再是那些为我工作,但不听话的程序员。(笑)程序员们都知道我在说什么。想象一下,一个不自大的程序员,真正按你的要求去做,还不用付那么多钱。而且这些程序员是无限供应的。而这些……
主持人
:都会在未来一两年内实现。
Eric Schmidt
:很快就会实现。我非常相信它们会在下一波技术浪潮中发生。
听众:你提到扩展上下文窗口、代理和 Text-to-Action 的结合将带来难以想象的影响。首先,为什么这些结合很重要?其次,我知道你无法预知未来,但你为什么认为这会超出我们目前的想象?
Eric Schmidt
:我认为主要是因为扩展上下文窗口能够解决时效性的问题。当前的 AI 模型大约需要一年时间来训练,包括 6 个月准备,6 个月训练和 6 个月微调,所以它们总是有点滞后。但扩展后的上下文窗口可以让你输入最新的信息,这样的上下文功能非常强大,就像谷歌那样能够实时更新。
关于 Agents 模型,我举个例子。我建了一个基金会,资助了一个非营利组织,他们启动了一个项目,有一个叫做
Chemcrow
的工具,它是基于大语言模型的系统,用来学习化学知识。他们用这个系统生成蛋白质方面的化学假设,然后实验室会在晚上做测试,系统再继续学习。这极大加快了化学和材料科学领域的研究进展。
我认为「Text-to-Action」可以理解为大量廉价程序员带来的效果。不过我觉得我们还没有真正理解,当每个人都有一个自己的程序员的时候会发生什么,他们做的是你的专长,不是简单的开关灯那样的事。
你可以设想一个场景,比如你不喜欢 Google。就说,帮我造一个 Google 的竞争对手,搜索网页、搭建界面、加入生成式 AI,30 秒内做好,我们来看看效果。这些老牌公司,比如 Google,就很可能会受到这种攻击的威胁,我们等着看。
02
「我已经不是 Google 员工了」
主持人
:你在 Google 工作了很多年,他们发明了 Transformer 架构,Peter(Peter Norvig,前 Google Research 的工程总监)是主导者之一。感谢像 Peter 和 Jeff Dean 这样的聪明人。不过现在,Google 似乎已经在主动权上失去了优势,OpenAI 已经赶上来了。我看到的最新排名中,Anthropic 的 Claude 排在了前面。我问过 Sundar(桑达尔·皮查伊),他没有给我一个明确的回答。也许你有一个更清晰或客观的解释,说说那里到底发生了什么。
Eric Schmidt
:我已经不是 Google 的员工了。坦率地说,Google 更加注重工作与生活的平衡,早早下班和居家办公,似乎比打胜仗更重要。
初创公司的成功秘诀就在于员工拼命工作
。我很抱歉,说得这么直接,但事实就是如此。如果你们毕业后创办公司,你们不会让员工每周只来公司一天,大部分时间在家工作。如果想和其他初创公司竞争,这样做是行不通的。
主持人
:Google 早期的情况和当时的微软很像……
Eric Schmidt
:是的。
在我们这个行业,有一种常见的现象:
一些公司以非常创新的方式赢得市场,彻底主导了一个领域,但却无法顺利过渡到下一个阶段
。
这种情况有很多。我认为创始人很重要,这是非常重要的问题,他们掌舵公司。虽然创始人往往难以相处,对员工要求苛刻,但他们也推动了公司向前发展。
尽管我们可能不喜欢 Elon(马斯克)的一些个人行为,但看看他在工作上做了什么。我和他共进晚餐那天,他一直在来回飞行。我当时在蒙大拿,而他那天晚上十点还要飞去参加凌晨与 xAI 的会议。
我去台湾的时候,感受到不同的地方有不同的文化,我印象深刻的是,台积电(TSMC)有一个规定,新入职的物理学博士要先在工厂地下室工作。你能想象让美国的博士去做这种工作吗?几乎不可能。
工作结果是不同的。我之所以对工作的问题如此苛刻,是因为这些系统存在网络效应。时间非常关键,而在大多数行业中,时间并不那么重要,他们有足够的时间。可口可乐和百事可乐会一直存在,两者的竞争也会持续下去,像冰川一样缓慢变化。
当我与电信公司合作时,一般的电信合同需要 18 个月才能签署。我觉得没必要这么久,事情应该尽快完成。我们现在正处在增长和收益的高峰期,这时候还需要一些疯狂的想法。
比如微软决定与 OpenAI 合作时,我当时觉得那是最愚蠢的想法之一。
微软把 AI 领导权交给了 OpenAI 和 Sam 的团队,这简直不可思议。
然而今天,他们正逐步成为最有价值的公司之一,与苹果的竞争不相上下。苹果在 AI 方面没有好的解决方案,看起来微软的策略奏效了。
03
模型的差距正在拉大
Eric Schmidt
:你刚才问,接下来会发生什么,每隔六个月,我的想法都会有所摇摆。我们现在处于一个奇偶震荡的周期波动中。就目前来看,前沿模型之间的差距——现在只有三种模型——和其他模型之间的差距似乎在拉大。六个月前,我还认为差距在缩小,所以我投了很多钱给一些小公司,不过现在我不那么确定了。
我开始和大公司谈,大公司告诉我,
他们需要 100 亿、200 亿、500 亿,甚至 1000 亿资金。
主持人:目标是 1000 亿,对吧?
Eric Schmidt
:是的,很难很难。我和 Sam Altman 是好朋友,他认为可能需要 3000 亿,甚至更多。我告诉他,我已经计算过所需的电力了。我上周五去了白宫,开诚布公告诉他,我们需要和加拿大搞好关系,因为加拿大不仅人好,还帮助发明了 AI,并且有很多水电资源。而我们国家没有足够的电力来支撑这个发展。
另一个选择是让阿拉伯国家出资。我个人很喜欢阿拉伯,也在那里呆过很长时间。但他们不会遵守我们的国家安全规则,而加拿大和美国是可以一起合作的。
主持人
:没错。所以这些价值 1000 亿、3000 亿的数据中心,
电力会变成稀缺资源。
Eric Schmidt
:是的。顺着这个思路,如果 3000 亿都要投到 Nvidia 身上,你知道该买什么股票了,对吧?(笑)当然,我不是在推荐股票。
主持人
:没错。我们将需要更多的芯片,Intel 正从美国政府获得大量资金,还有 AMD,他们都在努力建造芯片工厂。
Eric Schmidt
:如果现场有使用 Intel 芯片的设备,请举手(听众举手)。它的垄断似乎到此为止了。
主持人
:Intel 曾经确实是垄断者。而现在是 Nvidia 的垄断。那么,像 CUDA 这样的技术壁垒,是否有其他公司可以做?我前几天和另一位创业者聊过,他会根据能获得的资源,在 TPU 和 Nvidia 芯片之间切换使用。
Eric Schmidt
:因为他没有其他选择。如果他有无限的资金,今天他肯定会选择 Nvidia 的 B200 架构,因为那样速度更快。我不是在暗示什么,竞争当然是好事。我和 AMD 的 Lisa Sue(苏姿丰)详细讨论过这个事情,他们开发了一个系统,可以将 CUDA 架构转换成他们自己的架构,叫做 Rocm。目前还没完全发挥作用,他们还在继续改进。
04
我们会经历一场巨大的泡沫,
然后市场会自己调整
听众:你对 AI 的前景非常乐观。你觉得是什么推动了这种进步?是更多的资金?还是更多的数据?或者是技术上的突破?
Eric Schmidt
:我基本上是看哪个项目都投,因为我也说不准哪个能成。而且,现在有一大堆资金跟着我一起进来。我觉得,部分原因是早期投资已经赚到钱了,现在那些大资金的投资者,虽然他们不太懂 AI,但他们觉得每个项目都得加点 AI 元素,所以现在几乎所有的投资都变成了 AI 投资。他们分不出好坏。
我理解的 AI,是那种真正能学习的系统,我认为这才算数。
另外,现在有些非常先进的新算法,它们已经不局限于 Transformer 架构了。我有个朋友,也是我长期的合作伙伴,他做出了一种全新的非 Transformer 架构,我在巴黎资助的一个团队也说他们有类似的创新,斯坦福这边也有不少新动向。
最后,市场上普遍相信,开发智能技术会带来巨大的回报。比如说,你给一家公司投了 500 亿美元,那你肯定希望通过智能技术赚回一大笔钱。所以我们可能会经历一个巨大的投资泡沫,然后市场会自我调整。过去一直都是这样,现在可能也不例外。
主持人
:你之前提到,现在头部公司正在越拉越开距离。
Eric Schmidt
:对,现在确实是这样。法国有家公司叫 Mistral,他们做得很好,我也投资了他们。他们推出了第二版模型,但第三版可能会是封闭的,因为成本太高。他们需要收入,不能再免费提供模型了。
开源和闭源之间的争论在我们行业里非常激烈。我个人的整个职业生涯都建立在人们愿意分享开源软件的基础上。我做的技术工作都是开源的,谷歌的很多核心技术也是开源的。但是现在可能
因为资本成本实在太高,软件的开发方式可能会发生根本性的变化。
我个人觉得,软件程序员的生产力至少会翻倍。现在有三四家软件公司在努力实现这个目标,我也投了这些公司。他们的目标是提升软件程序员的效率。我最近见到的一个很有趣的公司叫 Augment。我总是想着单个程序员,但他们的目标其实是那些大型软件团队,这些团队可能有几百万行代码,但没人能搞清楚所有代码的运行细节。这个问题非常适合用 AI 来解决。他们能赚钱吗?我希望能。
主持人
:所以,还有很多问题要讨论。
听众:关于非 Transformer 架构,我觉得状态模型之类的架构大家讨论得不多,但现在它们又有了更多的进展,你在这个领域看到了哪些新进展?
Eric Schmidt
:我对数学了解不够深,这里的数学非常复杂。但基本上,它们就是用不同的方法来做梯度下降和矩阵乘法,速度更快、更好。Transformers 是一种同时进行乘法运算的系统化方式,我是这么理解的。它跟这个类似,但数学原理不同。
听众:你是工程师出身,考虑到这些模型未来可能具备的能力,我们是否还需要花时间学编程?
Eric Schmidt
:这就好比你已经会说英语了,为什么还要继续学英语呢?学习总是能让人更上一层楼。你得理解这些系统的工作原理。
05
分布式计算解决不了
AI 的算力问题
听众:两个简单的问题:一是大型语言模型的经济影响,是否比你最开始预计的市场影响更慢?二是你认为学术界应该获得 AI 补贴吗?还是应该跟大公司合作?
Eric Schmidt
:我一直在努力推动为大学建立数据中心。如果我是这里的计算机科学系的教授,我会非常不满意,因为我没办法和研究生们一起开发那些算法,而且还被迫跟那些大公司合作。在我看来,这些公司在这方面做得并不够。我和一些教授聊过,他们很多人都得花大量时间等 Google Cloud 的使用配额。这是一个蓬勃发展的领域,正确的做法就是把资源提供给大学,我正在努力推这件事。
至于你提到的劳动力市场的影响问题,我基本上相信,高技能型的大学教育和相关的工作应该会没问题,因为人们会和这些系统一起干活儿。我觉得这些系统和之前的技术浪潮没什么不同,那些危险的工作和不太需要人类判断的工作最终会被替代。
听众:你有没有研究过分布式环境?我问这个是因为,搭建大型集群很困难,但 MacBook 还是很强大的。全世界有很多小型机器。你觉得像
Folding@home
的想法能用来做训练吗?
注:"Folding@home" 是一个利用全球分布式计算资源的项目,利用全球参与者的电脑闲置资源来进行蛋白质折叠的计算。
Eric Schmidt
:分布式环境的确是个挑战。搭大型集群确实不容易,但每个 MacBook 都有自己的算力。全球有那么多小型机器,把它们联合起来的想法确实有潜力。这可以用来做训练,但还有很多技术细节需要解决。
我们深入研究过这个问题,这些算法的工作原理是这样的:你有一个非常大的矩阵,基本上就是进行乘法运算。你可以想象这个过程是反复进行的。这些系统的性能完全取决于数据从内存传输到 CPU 或 GPU 的速度。实际上,Nvidia 的下一代芯片已经把这些功能都集成到了一个芯片上,现在这些芯片已经非常大,功能都集成在了一起。而且封装过程非常精细,芯片和封装都是在无尘室里完成的。所以目前来看,超级计算机和光速传输,尤其是内存之间的互连,才是关键因素。因此,我认为在短期内实现你说的这一点的可能性不大。
主持人:有没有可能把大语言模型拆分开来?
Eric Schmidt
:要这么做,你得有上百万这样的模型。而且你提问的方式会变得非常缓慢。
06
未来我们可以不理解 AI,
但需要知道它们的边界
主持人
:我想换个话题,谈点哲学性的东西。去年你和 Henry Kissinger(基辛格)、Daniel Huttenlocher(丹尼尔·赫滕洛彻)
一起写了一篇文章
,探讨了知识的本质及其演变。我最近也跟别人聊到过这个话题,大多数历史时期,人类对宇宙的理解带有神秘色彩,直到科学革命和启蒙运动的到来。你们的文章中说,现在的模型变得越来越复杂、难以理解,以至于我们对它们的内部机制不再那么清楚。
费曼曾经说过,
「我创造不出的东西,我也无法理解。
」这句话我最近也提过,但目前看来,人们似乎在创造一些连自己都不太明白的事物。这是否意味着我们对知识的理解正在发生转变?我们是否需要开始接受这些模型的结论,即便它们无法给出清晰的解释?
Eric Schmidt
:让我打个比方,这有点像年轻人。如果你家里有青少年,你知道他们是人,但不是总能知道他们是怎么想的。然而,我们的社会已经学会了如何适应他们的存在,并且知道他们终将成熟。所以,我们可能会有一些知识系统,
我们无法完全理解,但我们能够了解它们的边界。我们知道它们能做什么,不能做什么
。这可能已经是我们能够期待的最佳结果了。
主持人:您觉得我们能掌握这些限制吗?
Eric Schmidt
:我觉得我们能搞定。我们每周讨论的小团队都觉得,我们将来可能会用上那种对抗性的 AI 技术。想象一下,将来会有公司专门做这个,你给他们钱,他们就帮你测试 AI 系统,找漏洞,就像现在的那种「红队」一样,只不过这次用的是 AI。整个行业都会搞起这种 AI 对抗 AI 的事情,特别是那些我们还搞不太懂的部分。我觉得这挺靠谱的。斯坦福那边也可以考虑一下这个方向。如果有研究生对怎么破解这些大模型感兴趣,研究它们的工作原理,这对他们来说是个不错的技能点。所以我觉得这两件事会一起进步。
听众:刚才您提到与对抗性 AI 相关的评论,除了显而易见的提升 AI 性能模型之外,还有什么问题是我们需要解决的?为了让 AI 真正做我们想要的事,主要挑战是什么?
Eric Schmidt
:确实要提升更高性能的模型。你必须假设,随着技术进步,AI 的幻觉会有所减少,虽然我并不是说它会完全消失。你还得假设有方法来验证效果,所以我们需要知道结果是否达到了预期。
比如我刚提到的 TikTok 竞争者的例子。顺便说一句,我并不是建议你们非法窃取所有人的音乐。如果你是硅谷的创业者——我希望你们都会成为这样的创业者——
如果你的产品火了,那你就会请一大批律师来帮你解决问题;但如果没人用你的产品,那么就算你盗用了所有内容,也没什么关系
。但别把我这话当真啊。
硅谷会进行这些测试,并且解决这些问题。这是我们通常的处理方式。所以我相信,将来我们会看到越来越多的高性能系统,测试也会越来越精细,最终会有对抗性测试来确保 AI 在可控的范围内。在技术上,我们称之为「链式思维推理」。人们预期,未来几年内,你将能够生成 1000 步的链式推理,就像按照食谱做菜一样。你可以按照食谱一步步来,然后验证最终的结果是否正确。系统就是这么运作的。当然,除非你是在玩游戏。
07
虚假信息短期看起来无解
听众:如何防止 AI 在公众舆论中制造虚假信息,尤其是在即将到来的选举中?从短期和长期来看,有什么解决方案吗?