专栏名称: AI科技大本营
为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员,提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业,实现行业应用与技术创新的对接。全方位触及人工智能时代,连接AI技术的创造者和使用者。
目录
相关文章推荐
安徽交通广播  ·  “春捂”到底该“捂”哪儿?“捂”好这3处很关键 ·  6 小时前  
荔浦市融媒体中心  ·  每天走多少步不伤膝?“最佳步数”出炉:既得到 ... ·  昨天  
荔浦市融媒体中心  ·  每天走多少步不伤膝?“最佳步数”出炉:既得到 ... ·  昨天  
融媒吴江  ·  正大量上市,两男子吃进急诊! ·  3 天前  
51好读  ›  专栏  ›  AI科技大本营

对话英伟达 AI 大牛 German Ros:端到端技术将颠覆万亿市场,开源模拟才是胜负手!

AI科技大本营  · 公众号  ·  · 2025-01-27 18:30

正文

作者 | 卓慧娴

采访 | Eric Wang

责编 | 何苗

出品丨GOSIM 开源创新汇

German Ros Sanchez ,现任 Embodied AI 基金会执行董事及英伟达模拟生态系统开发总监,以其深厚的学术造诣、开创性的科研成果和勇于自我挑战的精神,成为机器学习与人工智能领域的杰出人物。

他 6 岁时开始用 BASIC 进行编程;10 岁接触 Red Hat Linux 便一发不可收拾,迷上开源;16 岁在大学里教授开源相关课程,开源给了他家一样的归属感,也成为他职业旅程的起点。

2017 年,出于对机器人技术的热爱,German 加入丰田研究院,开始专注于自动驾驶和虚拟现实技术的计算机视觉研究,并创建了传感器模拟团队,为自动驾驶系统的端到端评估提供了创新的模拟工具。

随后在 2018 年,他出任 Intel 高级实验室 3D 视觉项目负责人,推动了 3D 场景理解和重建领域的新解决方案研究,并成功促进了围绕开源项目的大型社区建设。在他的努力下,CARLA 模拟器用户数量增长至超过 20 万,成为美国学术界、工业界及政府机构广泛认可的顶级自动驾驶模拟平台;同时,Open3D 也获得了显著的发展,其用户群扩展到 15 万以上,并在 Python 社区中被指定为关键项目,下载量排名前 1%。

GOSIM 很荣幸邀请到 German Ros Sanchez 来到中国,与全球的技术人畅谈与分享宝贵的经验。在 GOSIM CHINA 2024 大会中,他带来了 《开源模拟在具身智能时代的作用》 《以 CARLA 创建端到端自动驾驶解决方案》 两大主题的精彩演讲。会后,GOSIM 对话栏目 Open AGI Forum 特别邀请到他,与 CSDN 资深科技编辑 Eric Wang 展开独家对话,分享自己的 开源之路 计算机视觉 自动驾驶 的深刻洞察。

(点击观看对话视频完整版)

German Ros Sanchez 的精彩观点摘录:

  • 通往机器人领域的大门是自动驾驶。

  • 想要推动自动驾驶项目的成功,合适的工具至关重要。特别是模拟生态系统,它们在这个过程中扮演了关键角色。

  • 端到端是一种强大的技术,打破了以往需要庞大团队分别攻克不同技术难题的局限 —— 感知、规划和控制。

  • 开源技术就像是一个将模拟、系统和其他相关元素连接在一起的粘合剂。

  • 许多公司之所以举步维艰是因为他们尽管拥有大量用户和活跃社区,却难以将其转化为足以持续推动项目发展的能力。正因如此,我们看到出现了一些混合模式,如免费增值模式,或提供源代码但未完全开源的模式。

  • 当事情发展到某个节点,就会超出预期,仿佛有生命力一般。 CARLA 超出了我们的预期,也超过了我们的掌控范围。

以下是本次采访的主要内容:

从6岁编程到自动驾驶:German 的开源与机器人之旅

Eric Wang:你 自称坚定的开源倡导者, 是什么激发了你对开源的强烈热情

German Ros Sanchez: 我记得自己很小就开始接触计算机了,6 岁时开始用 BASIC 进行编程。到了 10 岁左右,我母亲的一位朋友启发了我对于开源的兴趣。他看到我当时使用 Windows 操作系统,于是问我“有意思,你在用 Windows 啊!你熟悉 Linux 吗?”我当时对 Linux 一无所知。他兴冲冲要教我如何使用 Linux,从车里掏出了一盘 Red Hat Linux 的光盘,替我安装好,替换了 Windows。很快我完全痴迷于新系统,它让拥有了我极大的自由,我可以自主编译程序了,我可以做任何事!

从那以后,我就对开源充满了热情。开始在大学积极参与开源论坛等活动。到 16 岁时,开始在大学里教授有关开源的课程。 开源背后庞大的社区为我和那些所有关注开源的人提供了家一样的归属感 ,这也成为我职业旅程的起点。

Eric Wang: 是什么契机让你 加入东京研究所?

German Ros Sanchez: 主要是因为 我对机器人技术非常感兴趣,于是在 2017 年加入了丰田研究院,从事自动驾驶和虚拟现实技术的计算机视觉研究。创建传感器模拟团队,为自动驾驶系统端到端的评估提供新的模拟工具。

对我来说,通往机器人领域的大门是自动驾驶。自动驾驶技术正逐渐成熟,足以对世界产生重大影响 ,这也是我投身自动驾驶领域的主要原因之一。

当深入自动驾驶领域时,我意识到合适的工具对推动项目成功至关重要,其中一些关键工具就是模拟系统,市面上缺乏优秀的模拟工具可供使用,这就是为什么我们必须把现有资源连接搭建起来,构建一个合适的模拟生态系统,来推进自动驾驶技术的落地,这是我真正的热情所在。

Eric Wang:你 是何时将自动驾驶领域作为职业道路的呢?考虑到你的博士学位方向是计算机视觉,能谈谈这其中的联系吗?

German Ros Sanchez: 对我来说,从一开始,我们的重点一直是如何将机器人部署到实际应用中,如果考虑到要让机器人在现实世界中执行任务所需的不同步骤。显而易见, 场景理解是首先需要解决的任务之一

在开发具备自主导航功能的机器人时,必须精准掌握环境动态信息,这是我最初涉足计算机视觉领域的原因。 我想开发出能让车辆实现自动驾驶的技术,研发出能真正感知现实世界,并基于理解做出最终决策的机器人汽车。 所以,我的研究尤其专注于计算机视觉领域。

我想将我的技术应用于自动驾驶和机器人领域,当我们最终解决这个问题之后,我们很乐意去解决未来的类似其他问题。

Eric Wang:你 是在哪一时刻意识到这一点的?

German Ros Sanchez: 在我博士研究的中期,我逐渐认识到, 最终的目标并不仅限于计算机视觉,对我来说,更广泛地关乎自主性和机器人技术,尤其是我要尽我所能来实现自动驾驶。 如果研究的重点是计算机视觉,那就集中精力去解决它;如果需要关注其他问题,例如路径规划和控制等,那我们就去解决实现自动驾驶所需解决的任何问题。就是在那时我完成了思想的转变。

从零开始造梦, CARLA 的诞生

Eric Wang:你 作为坚定的开源倡导者,搭建了 CARLA 模型,如今已成为自动驾驶领域的领军者之一。能同大家分享创造 CARLA 最令人兴奋的部分是什么吗?

German Ros Sanchez: 为了更好地理解 CARLA,我们应追溯到它诞生之前的技术发展。2012 年、2013 年计算机行业迎来了深度学习革命,那些曾被认为无效的技术重新焕发活力,尤其是在计算机视觉和模式识别领域。但这些技术需依赖大量标注数据且极难检索。

我曾手动对超过 10,000 张图像进行了像素级别的标注,最后我实在难以忍受,我不能一辈子只做注释的工作,那时该项服务尚未普及且价格昂贵。因此,我们决定重新审视利用游戏引擎和模拟平台来自动生成数据的旧设想。

由此,我们开发了第一个平台—— Cynthia。Cynthia 的诞生像一颗重磅炸弹,在学术界引发了极大的关注。我们甚至将其授权给了整个游戏行业。Cynthia 初期仅仅聚焦于感知训练与验证。

后来,有人向我们提议将平台扩展并开源,我的梦想成真了。这就是 CARLA 开始构建的源头。

当我们踏上这段旅程时,如你所说的那样,基本上必须从头开始构建。那时还没有像 CARLA 这样的东西,我们需要从头挖掘搭建前人未曾涉及的新思路和新技术。第一年间,我们不得不多次重新设计 CARLA,最终才找到一个初步可行的方案。那是在一次次的试错中摸索出正确的道路的极具挑战性的时期。

Eric Wang: 2016 年,CARLA 项目获得了 Vladan Kotem 和 Intel 的资助,并正式转变为一个完全开源的模拟器。在项目构建过程中,你们遇到了哪些困难,又是如何克服的?

German Ros Sanchez: 我认为 Vladan 具备超越时代的远见,深知这这项工具的重要性,我深感认同,并决定投身于此。但我认为团队中没有人真正预见到 CARLA 的成功以及社区对其的高度接纳。

我们创立 CARLA 的初衷,主要是解决自身需求。作为该领域的研究者,我们需要这项工具。但未曾预料到 CARLA 会获得如此庞大的社区支持并被业界迅速接纳:“嘿!我想要更多这样的!”

当事情发展到某个节点,就会超出预期,仿佛有生命力一般。 CARLA 超出了我们的预期,也超过了我们的掌控范围。我们开始意识到,CARLA 并非短期项目,必须继续努力来优化项目,这对行业大有裨益。随着项目的推进,我们不得不开始思考如何组建一个非营利组织,以支持 CARLA 的持续开发。包括 如何获得资金来聘请开发者、吸引社区参与等,这才是真正的超出预期的挑战所在

Eric Wang: CARLA 如何模拟街道行驶,针对该研究团队是否需要收集街道行人的行为数据,研究哪些因素会对其产生影响?

German Ros Sanchez: CARLA 非常灵活,它根据用户需求选择路径。行为高保真度对于部分用户至关重要,因此对他们来说,基于现实世界数据的模型是首选。这意味着,我们需要收集大量现实数据,进行训练和验证。而对于低复杂度需求的用户,则可选择基于规则的模型。

CARLA 根据不同需求及不同领域用例所需的精确度来最终选择模型。 通过我们在自动驾驶仿真领域积累的丰富经验,CARLA 可支持多层次的模拟需求。

Eric Wang: Omniverse 也通过模拟生态推动自动驾驶发展,你作为 NVIDIA Omniverse 的开发总监,你认为它的发展存在障碍吗,又是如何应对的?

German Ros Sanchez: Omniverse 的发展没有任何障碍。它是一个相当出色的平台。有一群才华横溢的工程师在为之贡献智慧。Omniverse 正逐渐成为一套 API,用户可以从其中自由集成任何有趣且实用的功能模块。

我们目前正对 CARLA 采取这一集成策略。同时也在 引入与 Omniverse API 集成的新功能,使用户能够通过 Omniverse 访问诸如高保真传感器模拟等功能。 如果您是 CARLA 的用户,并希望获得高保真度的模拟体验。很快,你就可以直接利用 Omniverse API 来实现这一想法。这方面的推进较为顺利。

Eric Wang:你认为 开源模拟有哪些尚未出现但未来可能出现的应用?

German Ros Sanchez: 开源模拟的范围非常广泛,在我看来, 开源模拟的真正含义是将世界视为服务进行查询,或将其建模为计算模型,满足用户的问询需求。 目前,模拟平台主要解决传感器数据创建和基础物理学的问题。但随着技术发展,将可以处理更加复杂的事务。我们将能精确模拟物理现象,模拟传感器的行为以及光和电磁波的传播规律,最终推动人工智能模型发展。

我们正探索模拟技术在太空探索等领域的应用,如与 NASA 合作研究如何进行月球栖息地的开发,或如何实现能够创建这些栖息地的自主系统。模拟技术越先进,应用越广泛,我们就越能逼真地模拟地球和其他行星,进而实现更多应用。这样一来,就可以将一切都转化为计算问题,我们可以直接运用计算技术来探索,如月球自主性探索、蛋白质结构解析等。

自动驾驶伦理挑战到智能出行的革新

Eric Wang: 作为 AI 技术开发深度参与者,对于在公共空间部署 AI 机器人所带来的伦理问题,你有何见解?

German Ros Sanchez: 这是个非常敏感的话题。当把机器人技术落实到现实时,会面临一些突发情况,这与我们在网络环境中运行时的情况不同。因此,安全问题对于我们来说至关重要。

我记得我刚加入丰田研究院时,最关心的是如何将研究成果投入生产,并不断开发出新智能体,当然我们在这方面做得越来越好。当时,并没有把安全当作一个至关重要的议题来考虑,直到 Uber 事故发生才引起我对其的重视。

当车里搭载了技术栈的最新版本,尽管有安全驾驶员在旁,但仍可能会出现问题,而这些问题有可能是我推动的改动引发的。想到我的朋友可能会因此陷入困境,我就感到十分担忧。我开始意识到,安全问题绝不能忽视。

开发者应将安全问题放在首位,这才是符合道德规范的做法。为此,制定严格有效的验证流程至关重要。 无论部署什么样的解决方案,我们需要监管机构的介入,进行第三方参与平台的独立评估,以确保运行正常。越多人关注安全问题,情况就会越好。我们必须高度重视安全问题,因为自动驾驶技术真的要来了,尤其是在关于特斯拉自动驾驶出租车的新闻之后。

Eric Wang: 预测一下,我们何时才能在路上看到自动驾驶出租车或自动驾驶汽车?

German Ros Sanchez: 在我居住的加利福尼亚湾区,Waymo 正在部署自动驾驶出租车,我体验过很多次,它运行得相当不错。这种自动驾驶技术通常被称为 L4 级别,在特定地理区域内稳定运行的自动驾驶车辆。不仅仅 Waymo 在推行,我们还将看到来自 Cruise、特斯拉以及众多其他厂商的自动驾驶车辆。

但问题是,何时该项技术能够普遍落地。这还需要很相当长的时间,情况之所以如此,是因为开发方非常谨慎,一旦出错,会对公众的观念产生巨大影响,甚至改变政府对相关技术及企业的看法,一切可能在一夜之间化为乌有。 每拓展到一个新城市,每新增一英里,都需要格外谨慎。 一着不慎,满盘皆输。

Eric Wang: 在自动驾驶领域,你认为未来最具潜力的发展方向有哪些?是否有可能让每辆汽车都具备智能网联功能,以便车主可以通过智能设备远程管理车辆,这是否可行?

German Ros Sanchez: 当然。我对一些新兴技术充满热情且对其潜力深信不疑。例如 端到端的解决方案,它打破了传统技术难题的分工壁垒 ,让团队专注于解决驾驶问题而无需分心,我认为这将使新进入该领域的人有机会超越现有企业。因此,我对这项技术满怀热忱。

另一项我深感兴趣的技术是神经渲染技术,我们利用该技术能创造出现实世界的虚拟再现,同时域名上限已降至几乎为零。 随着神经渲染和神经重建技术的不断进步,在未来我们将拥有实际的数字孪生模型 ,即使不是整个世界但至少涵盖一些最重要的区域。用户在无需具备专业知识的情况下也能便捷地构建个性化的数字孪生模型。

探讨开源之商业模式、技术创新与政府角色的平衡艺术

Eric Wang: 关于开源与闭源之间的辩论常常被提及,你有何看法?

German Ros Sanchez: 我的立场很矛盾。一方面,我非常支持开源;但作为一家致力于开源的非营利基金会,我深刻认识到了开发开源软件的复杂性。因此 我们必须考虑一个可行的商业模式,考虑如何将数百万用户转化为支持开源项目开发者的资源

许多公司之所以举步维艰是因为他们尽管拥有大量用户和活跃社区,却难以将其转化为足以持续推动项目发展的能力。正因如此,我们看到出现了一些混合模式,如免费增值模式,或提供源代码但未完全开源的模式。如果用于商业用途,则需要支付许可费用等。有效机制的缺乏使开发开源的组织难以生存。因此我们必须探索前端解决策略。如果大家都能意识到更加支持开源的必要性,有更多组织愿意为开源解决方案的使用和推广提供资助,这将是理想的局面。

Eric Wang: 开源技术在推动具身智能集成方面扮演了什么样的角色?

German Ros Sanchez: 推动具身智能集成重要的是要辨别影响它的有利因素和不利因素。尽管我们还没遇到大规模问题,但我们仍需要提速,将产品投入生产。开源是这一过程的关键,尤其是在模拟生态领域。开源工具的高度灵活性允许我们能根据需求进行调整。

我认为开源技术就像是一个将模拟、系统和其他相关元素连接在一起的粘合剂。 创建自主和员工驱动系统需适应性和可扩展性工具,开源是最佳途径之一。

Eric Wang: Gary Bradski 曾表示开源应得到政府的支持。但政府的投资却微乎其微尽管潜在回报巨大,我们想听听你的看法。







请到「今天看啥」查看全文