专栏名称: 罗辑思维

每天一段60秒语音，一篇新角度看世界的文章。关注罗胖，让你每天比别人知道的多一些。

十二月AI又双叒爆发了：世界模型，曙光乍现

罗辑思维 · 公众号 · 热门自媒体 · 2024-12-17 06:30

主要观点总结

本文回顾了12月AI领域的重要事件，包括多个大型AI系统的发布，并重点介绍了世界模型的趋势。文章介绍了世界模型的本质、发展现状以及未来可能的发展趋势，包括其与其他技术路线的区别，相关重要科学家和实践者，以及世界模型在互联网语料获取难度增加的情况下的优势。同时，也推荐了关注得到头条以获取更多知识新闻。

关键观点总结

关键观点1: AI领域在12月集中发布多个大型AI系统。

包括李飞飞公司的LWM、谷歌的Genie2等，这些产品的发布体现了世界模型的趋势。

关键观点2: 世界模型的本质。

世界模型是直接观察现实，从现实中抽象出常识，并基于常识展开预测和行动的技术。它与目前主流的大语言模型有所不同。

关键观点3: 世界模型的重要科学家和实践者。

杨立昆是世界模型的重要科学家之一，而李飞飞的World Labs则是重要的实践者之一。

关键观点4: 世界模型在互联网语料获取难度增加的情况下的优势。

随着互联网语料的获取难度增加，世界模型的发展可能会追上并超越大语言模型，因为它不局限于网络上的信息，而且对素材的需求量小得多。

关键观点5: 推荐关注得到头条以获取更多知识新闻。

得到头条是得到APP的一档日更栏目，提供新鲜、有料、有趣的知识新闻。

正文

回顾整个12月，好像整个AI领域突然发起了一场年终业绩冲刺，很多王炸级的AI产品集中上线。这些产品放在平时，几乎每个都能占据几天的热搜。而这回12月集中上线，反而让人不好抓住重点。今天，咱们就聊聊AI。

12月AI大事盘点

首先，咱们简单盘一盘12月AI领域的大事。

这场AI领域大冲刺的起点，是12月3日，人工智能科学家李飞飞的公司World Labs，发布了自己的第一个AI系统。他们对这个AI的定义是，大型世界模型，Large World Model，简称LWM。李飞飞今年4月宣布创业，9月新公司公开，12月初发布产品，这个速度非常惊人。

紧接着，一天之后，12月4日，谷歌DeepMind发布了Genie2，他们对Genie2的定义是，大型基础世界模型。没错，跟李飞飞的大型世界模型只差一个词。

几乎是同时，OpenAI的山姆·奥特曼在一场访谈里宣布，要从12月5日起，连续12天发布全新产品和demo。没错，连续12天发布。而就在第三天，他们就发布了Sora的升级版，Sora Turbo。

而当地时间12月11日，OpenAI又正式宣布，将全面接入苹果。之后不到一天，谷歌就又发布了新一代大模型Gemini 2.0，谷歌给Genmini 2.0的定位叫，专为AI智能体而生。

其间其他公司的动作还有很多，咱们就不展开了。就像前面说的，世界头部的几家AI公司就像年底冲业绩一样，集中在12月发布了一批王炸级的产品。

我们要说的重点并不是这些产品本身，而是年底这轮AI群像里体现出的一个明显的趋势。这就是，世界模型。

李飞飞创立的World Labs，定位是空间智能，属于世界模型。而谷歌的新产品Genie2，也自称是世界模型。这两个AI的功能很像，都是给它输入一张图片，它就能给你生成一个完整的3D环境。比如，给它看一张演唱会的照片，它就能生成一个演唱会的3D模型。你可以像玩3D游戏一样在这个模型里游览。

除了谷歌和李飞飞的公司，OpenAI今年也高调布局了人形机器人领域，投资了相关的公司，而人形机器人最重要的底层支撑，就是世界模型。

未来一年，你可能会在媒体上看到更多关于世界模型的报道。因此今天，我们就展开说说这个世界模型，算是对明年可能的趋势做个事先的科普打底。

有了世界模型，世界有何不同？

很多人第一次听说世界模型，是从杨立昆开始的。在ChatGPT刚火起来，所有媒体都在一路追捧的时候，法国的AI科学家杨立昆就说，OpenAI的大语言模型能力非常有限，要想达到AGI，也就是通用人工智能，还得走世界模型路线。

在这里要特别强调一下杨立昆这个人。这是AI领域现存于世的辈分最高，影响力最大，贡献最大的科学家之一。早在1988年，杨立昆就在大名鼎鼎的贝尔实验室任职，跟信息论之父香农、晶体管发明者肖克利算是同门师兄弟。

根据李飞飞在自传里的回忆，杨立昆也给过她重要的启迪。在贝尔实验室期间，杨立昆开始训练神经网络识别签名。他从美国邮政署拿到了7200多份各类字体的手写扫描件，并且用它们来训练神经网络。后来，这个研究成果被银行采纳，用在自助取款机上，可以读取支票上的数字。而当时是1993年，没错，是31年前。而杨立昆的这个发明，也是神经网络最早真正落地的应用之一。

当然，其中的细节你可以不用记，但总归我们只要知道，杨立昆算是世界模型的祖师爷之一，也是这个技术流派里你最需要知道的人。

那么，到底什么是世界模型呢？简单说，世界模型就是能直接观察现实，并且从现实中抽象出常识，并且基于常识展开预测和行动。

注意，这个技术路线和目前比较主流的大语言模型不一样。

目前你看到的多数AI应用，比如GPT、Gemini，还有国内的文心一言等等，它们的运行前提都是数据。你需要用大量的数据来训练它们。尽管目前很多大模型已经实现了多模态，也就是可以输入音频、图片、视频，但是，这个过程的本质是，要先把这些信息转换成数据，然后让AI统一理解。

而世界模型在这一步要更直接，它类似于直接观察世界，然后抽象出常识。注意，是常识。这个过程更接近于真实人类的学习逻辑。

比如，杨立昆在他的自传《科学之路》里就举过一个例子，假如你给AI看一个画面，一个小女孩，面前摆着一个蛋糕，蛋糕上插着几根点燃的蜡烛。然后问AI，小女孩下一步会做什么？

这个问题对AI来说就非常难，它得理解什么叫生日，过生日习惯吃蛋糕，而吃蛋糕之前要先点蜡烛，再许愿，最后吹灭蜡烛。

按照杨立昆在这本书里的想法，假如是一般的大模型，就只能做出像素层面的测算，也就是想象这个画面下一步会变成什么样，每个像素点会如何变化，最终可能会生成一张小女孩有好几个重影，然后往四面八方同时移动的照片。而世界模型就能通过学习搞懂其中的常识，做出正确的预测。

当然，杨立昆的《科学之路》是2021年出版的，恰好第二年GPT就爆发了。现在大语言模型的很多能力已经不亚于杨立昆当初设想的世界模型。

但问题是，训练大语言模型需要大量的语料，而互联网上的信息是有限的，语料可能会变得越来越贵。同时，随着深伪事件变多，也就是通过AI来做信息的深度伪造，这可能会让这类大规模使用用户数据的训练行为，面临更严格的监管。而世界模型的训练不局限于网络上的信息，而且对素材的需求量也小得多。从这个角度看，后续世界模型的发展速度可能会追上大语言模型。

那么，回到现在，世界模型的进展如何呢？我们可以看看李飞飞和谷歌这回发布的成果。

首先，这两个作品都有一个关键突破，实现了内容的一致性。比如，你在AI生成的3D环境里走一圈，从南走到北，再从北走到南，来回的路上两边的画面都不会变。你第一次看到的这棵树和第二次看到的这棵树完全一样。这个一致性算是个很大的突破。

其次，从运行逻辑上看，根据普林斯顿AI创新中心的创始人，王梦迪的观点，谷歌的Genie2和李飞飞的AI看起来很像，但本质上还是有区别。

Genie2的本质是像素预测，它未必搞懂了真实世界中的物理规律。相比之下，李飞飞的模型是通过图片中的信息，推理出了其中事物的相对关系，然后完成3D建模。因此，王梦迪认为，李飞飞的模型更符合真正的世界模型。

好，关于世界模型，咱们先说到这。我们主要说了三个重点。

第一，世界模型的本质是从现实中抽象出常识，并基于常识展开预测和行动。

第二，这个领域最重要的科学家是杨立昆，最重要的实践者之一是李飞飞的World Labs。

第三，随着互联网语料获取的难度增加，后续世界模型的发展可能会追上大语言模型。

最后，如果你还想了解更多新鲜、有料、有趣的知识新闻，欢迎关注得到头条。这是得到APP的一档日更栏目，每周一到周五零点准时上线。让我们一起在世事变化中，每天学点知识。

罗振宇发愿要做20年的跨年演讲，今年走到了第10个年头。

在跨年演讲十周年之际，罗老师将和你一起站到未来，去提前听那些来自未来的好消息。

12月31日20:30，希望你提前预约，和罗老师一起跨年！

点击“阅读原文”，订阅《得到头条》