专栏名称: AI范儿
AI领域四大媒体之一。 智能未来,始于Prompt!
目录
51好读  ›  专栏  ›  AI范儿

AI真的要“断粮”了?OpenAI创始人的最新警告震动全球,但他可能忽略了这个事实...

AI范儿  · 公众号  ·  · 2024-12-15 08:08

正文

你可能想象不到,就在几天前的NeurIPS会议上,OpenAI的联合创始人Ilya Sutskever抛出了一个令整个AI圈震惊的观点:" 我们熟知的预训练模式必将终结。 "

等等,预训练不是AI发展的基石吗?为什么会终结?

预训练 是 AI 模型开发的第一阶段,大语言模型通过互联网、书籍等海量未标记数据来学习模式。

让我们先回到AI发展的核心驱动力 - 算法、算力、数据 这"三驾马车"。 如今,随着硬件升级和数据中心扩建,算力呈指数级增长; 随着技术突破和持续创新,算法不断进步。

在演讲中,Sutskever 表示: AI的训练数据,正像石油一样,面临着耗竭的危机。 虽然计算能力在硬件升级、算法改进和数据中心扩建的推动下不断提升,但一个无法改变的事实是:" 我们只有一个互联网 "。

Sutskever将训练数据比作不可再生资源,这个比喻格外深刻。虽然数据本身可以被复制,但AI系统能从中提取的实质性知识和洞察是有限的,这种限制无法通过简单的数据复制来突破。 就像反复阅读同一本书并不会获得新的知识一样, AI系统需要真正有价值的新数据才能提升能力

不过,笔者对这个观点并不完全认同。

中国古人讲“ 温故而知新” ,同样的内容在不同阶段重新学习,往往能获得新的理解和启发。 对AI系统来说也是如此,随着 算法的进步和模型架构的改进 ,重新处理已有数据可能会挖掘出此前未能发现的模式和关联。

而且,现有的互联网数据质量参差不齐,如果能通过更好的数据清洗和筛选提升训练 数据的质量 ,可能比简单地扩大数据规模带来更显著的效果提升。

当然,高质量的 新数据 依然是AI发展的重要推动力,它能为模型带来全新的知识领域和应用场景。 关键在于如何平衡和优化这两个 维度:一方面深化对已有数据的理解,另一方面不断拓展新的数据来源。而且,互联网也并非静态存在,每天都有海量新的内容被创造出来。

更值得深思的是,如果说目前的数据已经接近枯竭,那就意味着现有的大模型已经用尽了世界上所有的有效数据,却只达到了目前这样的水平——这显然不够令人信服。事实上,我们有理由相信,无论是在数据利用效率还是模型架构上,都还有很大的优化空间。

因此,仅仅因为可能面临" 数据枯竭 "就断言AI发展将遇到天花板,似乎还为时尚早。

从十层神经网络到现实的瓶颈

为了更好的理解预训练,让我们回溯到10年前。2014年,Sutskever提出了一个看似简单的" 深度学习假设 ":一个十层神经网络就能模仿人类在瞬间完成的任何任务。选择十层的原因很实际——当时的技术条件只能支持这个规模。这个假设建立在人工神经元和生物神经元的相似性基础上。

但有一个关键的区别:人脑可以自我重构,而AI系统需要与其参数规模相匹配的海量训练数据。 这就像一个永远饥饿的巨人,需要越来越多的“养料”才能继续成长。

这个想法开创了 预训练时代 ,催生了GPT-2、GPT-3等里程碑式的模型。这一重大进展要归功于前OpenAI同事Alec Radford和Anthropic创始人Dario Amodei的贡献。但现在, Sutskever认为 这种方法似乎已经触及天花板。 有意思的是,Alec Radford和Dario Amodei倒没有提出这样的观点。

突破瓶颈:三个可能的方向

面对这一挑战,Sutskever指出了几个潜在的突破方向:

- AI代理 :发展具有真正独立思考能力的系统, 不再依赖纯数据训练
- 合成数据 :创造高质量的新型训练数据,他称这是"重大挑战"
- 增强推理计算 :在 推理阶段 投入更多计算资源,而不是一味扩大预训练规模

他预测, 下一代模型将具有"真正的代理特性"。 "代理" (Agent) 已成为 AI 领域的热词,虽然他没有详细解释,但业内普遍认为这指的是能够自主执行任务、做决策并与软件交互的 AI 系统。尽管 当前系统的"代理性"还很初级,但随着独立思考和推理能力的发展,这种情况将发生改变。

除了代理特性,他表示未来的系统还将具备推理能力。不同于当前主要依赖模式匹配的 AI,未来的 AI 系统将能够像人类思考一样逐步推理。

Sutskever 指出,系统的推理能力越强,其行为就越难预测,就像顶级国际象棋 AI 的走法经常让特级大师也感到意外一样。

"它们能够从有限数据中获取洞察,"他说,"而且不会产生混淆。" 而且向真实推理的转变可能有助于 减少AI的"幻觉"现象

在演讲中,他还将 AI 系统的发展与进化生物学做了对比,引用了关于物种大脑和体重关系的研究。他指出,大多数哺乳动物的大脑体重比遵循一定规律,但人类祖先却呈现出完全不同的发展轨迹。

图:Ilya Sutskever 将人工智能系统的扩展与进化生物学进行了比较

他认为,就像进化找到了人类大脑发展的新路径,AI 可能也会找到突破当前预训练模式的新方向。

从理论到实践:SSI的新探索

图:OpenAI联合创始人,前首席科学家Ilya Sutskever

理念的转变促使Sutskever在2024年5月离开OpenAI后创立了Safe Superintelligence Inc(SSI)。 这家估值50亿美元的创业公司已获得超过10亿美元融资,致力于开发安全的超智能系统。

这场“ 数据危机 ”很可能重塑整个AI行业的发展路径。但与1970年代的石油危机不同,数据资源的优化还有更多可能性:提升数据质量、改进处理方法、深化对已有数据的理解,以及探索新的学习范式。

在这个充满挑战和机遇的时代,谁能在数据质量提升、已有数据深度挖掘以及新数据获取三个维度取得突破,谁就可能成为下一个AI时代的引领者。

© AI范儿

要进“ 交流群 ”,请关注公众号获取进群方式

投稿、需求合作或报道请添加公众号获取联系方式


往期推荐







请到「今天看啥」查看全文