专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

智能新纪元：具身智能领域的大师与他们的杰作

计算机视觉工坊 · 公众号 · · 2024-11-05 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：深蓝AI

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

引言

在人工智能的浪潮中，具身智能（Embodied Intelligence）作为一门新兴的交叉学科，正逐渐揭开其神秘的面纱。它不仅仅是机器的智能，更是机器与环境互动的智能。本文将带您走进具身智能的世界，一探那些在这一领域留下深刻印记的大师及其杰作。

行业背景

具身智能，一个将认知科学、神经科学、计算机科学和机器人技术融为一体的领域，它的核心理念是智能行为是通过身体与环境的互动而产生的。随着技术的进步，具身智能正在从理论走向实践，成为人工智能研究的热点。

关键人物介绍

卢策吾

卢策吾是上海交通大学计算机科学与工程系的教授和博士生导师，同时也是清源研究院院长助理，他在人工智能和机器人领域拥有深厚的学术积累和丰富的行业经验，是国内最早研究具身智能领域的学者之一。

卢策吾于2013年毕业于香港中文大学计算机系，获得工学博士学位，后在香港科技大学和斯坦福大学人工智能实验室从事博士后研究。 2016年加入上海交通大学计算机系后，他专注于计算机视觉与智能机器人领域的研究，尤其在图像主结构表征、视觉关系学习以及人体行为姿态理解等关键问题上取得多项突破性成果。他原创提出了基于最小化L0-norm梯度的图像主结构提取算法，并在ACM Transaction On Graphics（TOG）发表的相关论文中被引次数最高。

卢策吾团队还原创性地提出了AnyGrasp抓取算法，实现了超越人类水平的首次突破，并提出了HAKE人类行为知识引擎。他以第一或通讯作者在《Nature》、《Nature Machine Intelligence》、TPAMI、CVPR等高水平期刊和会议发表论文100多篇，并开源了AlphaPose、HAKE、GraspNet等多项拥有国际先进水平的人工智能框架和数据集。卢策吾的研究成果已被华为、商汤等知名企业评价为“关键核心技术”、“发挥重要作用”，他本人也获得了包括科学中国人杰出青年科学家、《麻省理工科技评论》中国35位35岁以下科技精英、求是杰出青年学者奖、上海市科技进步特等奖以及爱思唯尔(Elsevier)2021年度中国高被引学者等多项荣誉与奖项。

苏昊

苏昊是加州大学圣地亚哥分校（UCSD）计算机科学与工程系的助理教授，同时也是Hillbot智能机器人初创公司的创始人和首席技术官。在UCSD，他担任具身智能实验室的主任，是Halıcıoğlu数据科学研究所的创始成员，以及视觉计算中心和情境机器人研究所的成员。

苏昊的研究工作集中在开发算法来模拟、理解并与物理世界互动，他的兴趣涵盖计算机视觉、机器学习、计算机图形学和机器人学，并在这些领域有着广泛的发表和教学经验。

苏昊在斯坦福大学获得了计算机科学博士学位，之前他在北京航空航天大学获得了数学博士学位。在斯坦福和UCSD期间，他开发了多个广泛使用的数据库和软件，包括ImageNet、ShapeNet、PointNet、PartNet、SAPIEN和最近的ManiSkill。这些工作极大地推进了3D视觉和机器人操作等领域的研究进展。

他还在计算机视觉（ICCV/ECCV/CVPR）、计算机图形学（SIGGRAPH/ToG）、机器人学（IROS/ICRA）和机器学习（NeurIPS/ICLR）等顶级会议和期刊中担任过领域主席或副主编以上职务。苏昊曾获得SIGGRAPH最佳博士论文荣誉提名和NSF CAREER奖。

截至2023年，苏昊的论文被引用近8万次，这一数字凸显了他在学术界的重要影响力。他参与开发的PointNet等算法在深度三维点云处理领域具有里程碑意义，与2D领域的ResNet相当，是研究三维点云的学者绕不开的经典网络。苏昊的研究不仅推动了3D视觉领域的发展，也对自动驾驶等领域产生了深远影响。

林倞

林倞教授是中山大学计算机学院的教授和博士生导师，同时担任人机物智能融合实验室的负责人。他的研究聚焦于视觉大数据的语义分析与智能学习，尤其在物体 / 场景结构化解析、相似性学习、半监督自主学习等领域取得显著成果。

林倞，1981年出生，是一位在人工智能领域尤其是具身智能研究中取得显著成就的学者。他1999年毕业于福建永安市第一中学，并考入北京理工大学电子科学与技术专业。 2003年，林倞获得北京理工大学学士学位，随后继续深造，并于2008年获得计算机科学技术博士学位。在学术旅程中，他曾于2006年8月至2007年5月在美国加利福尼亚大学洛杉矶分校担任访问学者，之后在同一学府担任博士后研究员。

林倞的学术研究聚焦于面向视觉大数据的语义分析与智能学习，特别是在物体/场景结构化解析、相似性及度量学习、半监督自主学习等方面取得了丰硕的成果。他的工作不仅涵盖了多模态感知与理解，包括场景语义解析、跨模态因果推断、跨领域泛化理解、自监督学习及预训练大模型、强化学习、认知及常识推理等领域，而且对AI领域的未来发展趋势有着深刻的洞察。

在职业生涯中，林倞于2010年担任中山大学软件学院副教授，并在2012年入选教育部“新世纪优秀人才支持计划”和“广东省千百十人才工程计划”。他先后获得“广东省自然科学杰出青年基金”资助、“国家优秀青年科学基金”资助，并入选“广东省高层次人才支持计划”。2017年，林倞入选“国家重大青年人才项目”。他的学术影响力得到了国际认可，2022年当选为国际模式识别协会会士，2023年当选为电气与电子工程师协会会士，并在同一年获得“国家杰出青年科学基金”资助。

林倞教授在国际顶级期刊上发表论文300余篇，多次获得最佳学术论文奖，并指导博士生获得CCF、ACM China和CAAI优博奖。他带领的团队也获得了吴文俊人工智能自然科学奖。林倞教授的学术成就和对教育的贡献，使他成为具身智能领域内一位备受尊敬的资深专家。

姜育刚

姜育刚教授是复旦大学副校长、教育部长江学者特聘教授，以及IEEE Fellow、IAPR Fellow。他的研究领域包括多媒体信息处理、计算机视觉、可信通用人工智能，尤其在视频内容识别方面成就显著。

姜育刚教授是复旦大学计算机科学技术学院的杰出学者，他的研究领域主要集中在多媒体信息处理、计算机视觉、通用可信人工智能、机器（深度）学习、视觉与语言等。在具身智能领域，姜育刚教授的成就尤为突出，他的研究成果覆盖视觉特征提取、多模态信息融合、大规模目标识别、视觉内容生成与鉴别等方面。他构建的开源数据和工具集如CU-VIREO374、CCV、VCDB、THUMOS、FCVID和WildDeepfake被国内外学者及企业广泛使用，研发的应用系统多次服务国家关键领域。

姜育刚教授的学术成就得到了国际认可，他已发表论文200余篇，被引用2万余次，谷歌学术总引用23000余次，H指数74。他的工作不仅在学术界产生了广泛影响，而且与实际应用紧密结合。例如，他带领团队与华为业务部门联合研发了融合视觉与语言的多模态检索技术，可以方便用户更好、更快地从海量的相册中找到自己感兴趣的图像、视频，相关成果已在华为的旗舰手机中得到应用。

在具身智能领域，姜育刚教授的研究团队致力于提升机器人对环境的感知能力，这是具身智能的核心技术。他们的工作助力于海量视觉数据的检索与管理，让机器人更好地感知环境，同时也在视觉内容生成方面有所贡献，通过自动生成高质量图像、视频内容，为大众生产生活提供更多可能性。

姜育刚教授的研究成果在解决复杂动态视觉数据识别的关键难题方面取得了显著进展，他的理论和方法使得人工智能在“看”到图片或视频动态视觉数据时，有着更好的“理解能力”。他的工作在推动具身智能领域的发展，尤其是在视觉计算和多模态信息处理方面，得到了国内外同行的高度评价，并引发大量跟踪研究。

梁小丹

梁小丹，副教授，博士生导师，中山大学“百人计划”人才引进，领导中山大学多模态人机交互实验室。主要从事可解释和可信赖机器学习和计算机视觉研究，并着重于数字人2D/3D理解和生成，多模态图文理解和通用模型设计，可推理可解释的因果推断模型等方面的研究。

在智能工程的璀璨星空中，梁小丹教授无疑是一颗耀眼的明星。作为中山大学智能工程学院的副教授和博士生导师，梁教授以其卓越的学术成就和对科研的深刻洞察，引领着中山大学多模态人机交互实验室不断前行。她以其敏锐的科研直觉，聚焦于可解释和可信赖的机器学习、计算机视觉、自然语言处理等前沿领域，特别是在数字人2D/3D理解和生成、多模态图文理解和通用模型设计、可推理可解释的因果推断模型等方面，取得了令人瞩目的成就。

在具身智能这一充满挑战的领域，梁小丹教授以其卓越的研究成果，为机器人技术的发展注入了新的活力。她与企业界的紧密合作，共同探索具身智能的无限可能，开发出高度真实的模拟环境，并创建了两个行业基准测试，极大地推动了机器人在自主推理和导航研究的进步。这些开创性的工作，不仅加速了具身智能模拟器和新基准的发展，也为机器人的智能化提供了全新的视角和工具。

梁小丹教授的学术成就广受赞誉，她在人工智能领域的顶级期刊及会议上发表了众多具有影响力的论文，包括在IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI)上发表的关于深度人类解析与主动模板回归的研究。她的工作不仅推动了具身智能领域的发展，尤其在多模态人机交互和机器学习方面产生了深远影响。通过与企业的深度合作，梁教授成功将多项科研成果转化为实际应用，将学术研究与实践应用紧密结合，为具身智能技术的实际应用和产业化提供了强有力的支持和推动。

在梁小丹教授的带领下，中山大学智能工程学院正以开放的姿态，拥抱智能科技的未来，为培养新一代的智能工程人才，推动智能科技的发展，贡献着智慧和力量。让我们期待梁教授在未来的科研道路上，继续以她的智慧和热情，照亮智能科技的前行之路。

赵行

上海期智研究院PI，清华大学交叉信息研究院助理教授。

博士毕业于麻省理工学院MIT，后于谷歌无人车项目Waymo担任研究科学家。其研究领域涵盖多模态学习，自动驾驶和机器人。

在人工智能的璀璨星河中，赵行教授正以其卓越的才华和创新精神，成为一颗耀眼的明星。作为清华大学交叉信息研究院的助理教授及博士生导师，他在多模态学习、自动驾驶、机器人等前沿科技领域取得了令人瞩目的成就。赵行教授的研究工作，建立在跨学科知识融通的基础之上，不断开拓人工智能的新视野和新边界。

赵行教授的学术旅程从浙江大学竺可桢学院起步，随后在麻省理工学院（MIT）获得博士学位，师从MIT AI&D系主任Antonio Torralba教授。学业完成后，他加盟谷歌无人车项目Waymo，担任研究科学家，为自动驾驶预测领域贡献了一系列开创性的工作。这些成果不仅在学术界引起了巨大反响，也被BBC、NBC、麻省理工科技评论等国际主流媒体广泛报道。

赵行教授的学术成就获得了业界的高度认可，他的研究荣获2015年ICCP最佳论文奖，他本人也荣登2020年福布斯中国U30科学精英榜。他的研究成果在CVPR、ICCV、ECCV、NeurIPS、SIGCOMM、ICRA等多个国际高水平学术会议及期刊上发表，谷歌学术引用达8000余次。赵行教授还因其在多模态机器学习领域的杰出贡献，荣获IEEE高引论文奖。

在清华大学，赵行教授创立了MARS Lab，一个以探索新问题为己任的实验室，他希望实验室像人类探索火星一样，不被研究领域所定义，永远在寻找新的问题。他的研究理念是“兴趣导向型”，鼓励科研人员从兴趣出发，深入研究，找到属于自己的目标。赵行教授以其纯粹的研究者身份，始终走在探索的最前列，他的工作不仅推动了学术界的发展，也为实际应用提供了理论基础和技术支持。

赵行教授的科研旅程，是一条不断追求卓越和创新的道路。他的每一次突破，都是对人工智能领域边界的一次拓展。我们期待赵行教授在未来的科研道路上，继续以他的智慧和热情，引领我们走向更加智能的未来。

技术突破

这些大师们在具身智能领域的技术突破，不仅推动了机器人技术的发展，也为人工智能的未来发展指明了方向。卢策吾的自适应机器人技术，苏昊的强化学习算法。都是这一领域的重大成就。

影响与应用

智能新纪元：具身智能领域的大师与他们的杰作

正文

请到「今天看啥」查看全文