专栏名称: 机器学习研究组订阅

连接人工智能技术人才和产业人才的交流平台

狂揽1.3亿美金！AlphaGo大神组队Gemini大牛，用RL打造超级智能，英伟达抢投

机器学习研究组订阅 · 公众号 · AI · 2025-03-08 18:40

正文

正如Ilya所说，AI的下一步，就是「超级智能」。

近日，由 DeepMind近12年老将、做出AlphaGo/AlphaZero/MuZero等项目的超级天才Ioannis Antonoglou ，和 Gemini强化学习的核心负责人Misha Laskin ，联合成立的初创Reflection AI终于浮出了水面。

Reflection AI的目标十分明确——构建 超级智能自主系统 ！

首先，从自主编码开始。

目前，这家初创已经融资了1.3亿，投资方有红杉资本、 Lightspeed和CRV。

如此野心的背后，是堪称豪华的团队阵容。

过去的十年间，团队成员在RL和LLM领域均取得了重大突破，并为DeepMind、OpenAI等前沿AI实验室主导构建了当时最为强大的AI系统——

那么，究竟该如何构建超级智能？

这就涉及到了这样一个问题：究竟如何让LLM在计算机上展现出与AlphaGo在围棋上同等水平到自主能力？

对此，Reflection的策略是，通过RL提高LLM的自主能力。

他们相信，解决自主编码是一个根节点问题——如果能构建一个超级智能的自主编码系统，所有其他基于计算机的工作领域都将自然而然地解决。

DeepMind顶级研究员出走创业，估值5.55亿美金

此前，这家名为Reflection AI的初创公司一直很低调。

就在刚刚，它宣布了全新融资：由红杉资本和CRV领投的2500万美元种子轮融资，以及由Lightspeed Venture Partners和CRV领投的1.05亿美元A轮融资。

而其他投资者，包括LinkedIn联合创始人Reid Hoffman、Scale AI首席执行官Alexandr Wang、SV Angel和英伟达的风投部门。

现在，Reflection AI的最新估值已经达到5.55亿美元。

如今，已经有越来越多的科技公司押注于所谓的AI智能体，最近爆火的Manus ，就反映了人们对这种帮用户执行任务的AI的渴望。

但Reflection却有着更为宏大使命：构建具有完全自主性的工具，而不仅仅一种协作工具或助手。

在他们看来，这种方法将更快地实现「超级人工智能」——也就是比大多数人更聪明、范围更广的AI。

许多大公司，比如OpenAI、Anthropic和DeepMind，都有着类似的目标。

现在，Relection已经在拥有大型编码团队的领域（如金融服务和技术行业）有付费客户了。这家公司专注于自动化繁琐和机械的工程工作，比如迁移软件数据库或重构代码。

Lightspeed合伙人Raviraj Jain将在Reflection的董事会中任职，他表示，公司要做的事并不是取代工程师。而是让工程师不再做繁重的工作，而是成为像建筑师一样的角色，来监督大量的自主AI智能体。

如今，AI编程领域已经涌入了一大批资金充足的初创公司，而Cursor制造商Anysphere、Replit和Poolside，都在此领域颇为出名。

在Laskin看来，一般的AI助手就像定速巡航，而Reflection则致力于成为更像Waymo那样的存在。

而红杉资本合伙人Stephanie Zhan，也十分看好Relection。

在他看来，Reflection有潜力与从事类似工作的大型AI实验室竞争并胜出，因为世界在短短几年内就会变得非常不同，AI完全能自动化今天我们做的许多任务。

剑指「超级智能」

在官方博客中，Relection联创Ioannis回顾了十年前，自己作为创始工程师加入了DeepMind的经历。

那时，他创造了AlphaGo，第一个在围棋游戏中超越人类世界冠军的系统。

2016年的那一刻，是AI的转折点，也对Reflection团队的许多成员产生了深远影响——他们第一次真正领悟到，超级智能的真实形态是什么样子。

多年来，他们一直孜孜以求地构建超级智能。

Reflection将其视为一个能在计算机上完成大部分认知工作的自主系统。

它不仅能帮助自动化现有的工作，还能发现我们未曾考虑过的更好的解决方案，就像AlphaGo在围棋中发现了新策略，扩展了人类知识，让著名的第37手棋成为了传奇。

Reflection相信，解决自主编码问题将更广泛地实现超级智能。

构建完全自主编码系统所需的突破——如高级推理和迭代自我改进——会自然延伸到更广泛的计算机工作类别。

一旦复杂软件可以被自动规划、编写和完善，类似的能力就会无缝转移到其他计算机驱动的任务上，加速向AGI的进展。

多年来，如何构建这样一个系统并不明确。

然而，在过去十年中，Reflection团队在RL和LLM方面开创了重大进步，他们相信，这些是超级智能的基本构建模块。

从2013年到2020年，团队用RL创建了专用超级智能系统，如Deep Q Networks、AlphaGo、AlphaZero和MuZero。

从2020年到2024年，他们以LLM的形式开发了通用智能系统，如PaLM、CharacterAI、ChatGPT和Gemini，领导了这些AI的预训练和后训练。

正是突破，指导了他们实现通用人工智能的策略：通过强化学习扩展大语言模型的自主能力。

作为一家公司，Reflection共同的核心信念是，最重要的评估是实际应用评估。

开创性的AI不是在真空中发展的；它需要研发与产品的协同设计。自主能力必须在真实场景中展示切实价值。

通过与用户反馈一起迭代，他们确保这些系统不仅可靠地满足实际需求，还有助于塑造负责任设计的AI的未来。

目前，他们的重点是一个自主编码系统：一个实用的产品，同时也代表着向我们超级智能目标迈出的重要一步。

他们有一个简单的两步计划：

构建一个超级智能的自主编码系统
使用这一蓝图扩展到所有其他基于计算机的工作类别

如今，Reflection已经组建了一个世界级的团队。

创始团队

Misha Laskin：联合创始人兼CEO

Misha Laskin于2022年加入DeepMind担任研究科学家，负责谷歌关键LLM项目Gemini的RLHF和奖励模型团队。

他见证了初代Gemini和Gemini 1.5的诞生。

他的研究兴趣是「强化学习如何为LLM和多模态模型解锁新能力」，并致力于开发通用AI智能体。

此前，他在耶鲁大学获得学士学位，在芝加哥大学获得理论物理学博士学位，并在加州大学伯克利分校BAIR实验室进行AI领域的博士后研究，主攻深度强化学习和无监督学习。

2017年，他曾共同创办了一家专注于为零售商预测产品需求的AI公司，并从BCC、Y Combinator和Salesforce Ventures获得175万美元风险投资。

而他也藉此被福布斯评为「30 Under 30」零售和电子商务领域的杰出人物。

Ioannis Antonoglou：联合创始人兼CTO

近12年的老将Ioannis Antonoglou，不仅是DeepMind的创始工程师，而且也是Gemini的第四位核心开发者。

狂揽1.3亿美金！AlphaGo大神组队Gemini大牛，用RL打造超级智能，英伟达抢投

正文

正如Ilya所说，AI的下一步，就是「超级智能」。 (adsbygoogle = window.adsbygoogle || []).push({});

剑指「超级智能」

Misha Laskin：联合创始人兼CEO

Ioannis Antonoglou：联合创始人兼CTO

请到「今天看啥」查看全文

正如Ilya所说，AI的下一步，就是「超级智能」。