专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
51好读  ›  专栏  ›  3D视觉工坊

大盘点!国内高校的具身智能实验室

3D视觉工坊  · 公众号  ·  · 2024-09-24 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号

选择 星标 ,干货第一时间送达

来源:具身智能之心

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!


清华MARS多模态学习实验室

主页:https://group.iiis.tsinghua.edu.cn/~marslab/#/

MARS Lab多模态学习实验室,是清华大学交叉信息院下的交叉学科人工智能实验室,由赵行教授组建和指导。当前MARS Lab特别感兴趣如何让机器像人一样的能够通过多种感知输入进行学习、推理和交互。MARS Lab的研究涵盖了多模态学习的基础问题及其应用:(1)多媒体计算, (2)自动驾驶, (3)机器人, (4)多传感器。

导师:赵行

研究成果:

图注:来源:https://www.bilibili.com/video/BV1h1421C7KQ/?vd_source=60762b2741beebb14f0eaac7c46cc65f
图注:论文《Robot Parkour Learning》成果展示 来源:https://robot-parkour.github.io/

代表性论文:

  • DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models, https://arxiv.org/abs/2402.12289

  • A Universal Semantic-Geometric Representation for Robotic Manipulation, https://openreview.net/pdf?id=AIgm8ZE_DlD

  • Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous Driving, https://arxiv.org/abs/2304.14365

  • Robot Parkour Learning, https://robot-parkour.github.io/resources/Robot_Parkour_Learning.pdf

IWIN-FINS实验室(智能无线网络与协同控制中心)

主页:https://iwin-fins.com/

简介:专注于为移动机器人、机器学习、控制和优化开发分布式、安全智能系统。

导师:何建平副教授

研究项目:(1)智能机器人控制系统:实验室构建了一个自主设计的多机器人平台,该平台上的机器人能够进行全方位、高精度控制和可靠通信。此外,这些机器人还非常便于嵌入其他先进的车载设备,以满足各种实际应用需求。(2)安全的数据驱动协作:每当收集、存储、使用或展示可识别个人身份的信息时,都会引发隐私和安全问题。实验室致力于研究保护隐私的信息交换机制和可靠的控制设计,以确保系统合作的安全性。(3)协调充电系统:作为无轨电车的储能装置,超级电容器在高功率充电系统中存在故障数据和输出偏差等问题,实验室希望制定可靠且安全的充电策略,以确保充电性能。(4)多智能体学习系统:专注于多智能体系统的一些前沿课题,以克服实现高级智能和安全性能所面临的挑战,包括智能感知、决策制定、协同控制、攻防理论及其在环境监测、目标搜索与跟踪等工业领域的应用。

研究成果:

图注:论文《Observation-based Optimal Control Law Learning with LQR Reconstruction》实验展示
图注:来源于论文《Unidentifiability of System Dynamics: Conditions and Controller Design》

代表性论文:

  • Unidentifiability of System Dynamics: Conditions and Controller Design https://arxiv.org/abs/2308.15493

  • Observation-based Optimal Control Law Learning with LQR Reconstruction https://arxiv.org/abs/2312.16572

  • Multi-Robot Stochastic Patrolling via Graph Partitioning, Weizhen Wang https://ieeexplore.ieee.org/document/10683971

清华大学智能产业研究院(AIR)

主页:https://air.tsinghua.edu.cn/

导师:张亚勤、马维英、赵峰等人

简介:清华大学智能产业研究院(Institute for AI Industry Research, Tsinghua University,英文简称AIR,THU)是面向第四次工业革命的国际化、智能化、产业化的研究机构。研究院建立了智慧交通、智慧物联、智慧医疗、大数据智能和智能机器 人等5个科研团队,面向世界科技前沿、经济主战场、国家重大 需求、人民生命健康开展前沿研究,推动技术落地。

研究方向:智慧物联、智慧交通、智慧医疗、大数据智能、智能机器人

研究成果:

图注:清华大学万国数据教授、智能产业研究院(AIR)执行院长刘洋教授课题组在基于知识迁移的增量学习方面取得新进展,相关研究成果“基于知识迁移的多语言神经机器翻译增量学习方法”(英文名称Knowledge Transfer in Incremental Learning for Multilingual Neural Machine Translation)于北京时间2023年7月11日获得人工智能领域重要国际会议ACL 2023颁发的杰出论文奖(Outstanding Paper Award)。

代表性论文:

  • DecisionNCE:Embodied Multimodal Representations via Implicit Preference https://arxiv.org/abs/2402.18137

  • Instruction-Guided Visual Masking https://arxiv.org/abs/2405.19783

  • Evolution of Future Medical AI Models — From Task-Specific, Disease-Centric to Universal Health https://ai.nejm.org/doi/full/10.1056/AIp2400289

  • ESM All-Atom: Multi-Scale Protein Language Model for Unified Molecular Modeling https://arxiv.org/abs/2403.12995

清华大学智能系统与机器人实验室(ISR Lab)

主页:https://group.iiis.tsinghua.edu.cn/~isrlab/

导师:陈建宇

简介:智能系统与机器人实验室,简称ISRLab,是由陈建宇教授创立的一个前沿科研机构。该实验室隶属于清华大学跨学科信息科学研究所(IIIS, Institute for Interdisciplinary Information Sciences)及上海期智研究院。ISRLab的核心目标是研发高性能、高智能的先进机器人系统。ISRLab在机器人硬件设计、运动控制、感知与识别、人机交互等方面展开深入研究,旨在提升机器人的环境适应能力、任务执行效率和智能化水平。除此以外,ISRLab也在强化学习算法、策略优化、仿真环境构建等方面积极探索,旨在让机器人能够通过不断试错和学习来优化自身行为,实现更复杂的任务执行。ISRLab也开始关注大型语言模型在机器人领域的应用。通过集成先进的语言理解能力,机器人可以更好地理解人类指令、进行对话交流,并在一定程度上实现语义推理和决策制定。

研究方向:机器人技术、强化学习、大型语言模型

研究成果:

图注:论文《DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment》成果展示
图注:论文《Decentralized Motor Skill Learning for Complex Robotic Systems》成果展示
图注:论文《Asking Before Acting: Gather Information in Embodied Decision Making with Language》成果展示

代表性论文:

  • DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment https://arxiv.org/abs/2307.00329

  • Decentralized Motor Skill Learning for Complex Robotic Systems https://arxiv.org/abs/2306.17411

  • Asking Before Acting: Gather Information in Embodied Decision Making with Language Models https://arxiv.org/abs/2305.15695

  • Learning Robust, Agile, Natural Legged Locomotion Skills in the Wild https://arxiv.org/abs/2304.10888

具身感知与交互实验室(Embodied Perception and InteraCtion (EPIC) Lab)

主页:https://hughw19.github.io/

简介:EPIC实验室由北京大学前沿计算研究中心的助理教授王鹤博士创立并领导。实验室的研究目标是通过发展具身技能及具身多模态大模型,推进通用具身智能的实现。这包括在三维复杂环境中,使机器人具备感知、决策和执行的能力。实验室重点关注具身机器人在三维复杂环境中的感知和交互问题,研究内容涵盖物体抓取、功能性操控、灵巧操作及寻物导航等。此外,实验室提出了本体层、技能层和大模型层构成的三层级具身多模态大模型系统,旨在实现通用机器人。

研究方向:三维视觉感知与机器人学,具身多模态大模型

研究成果:

图注:论文《Task-Oriented Dexterous Grasp Synthesis via Differentiable Grasp Wrench Boundary Estimator》结果展示
图注:IROS 2024 Oral presentation 成果展示《Open6DOR: Benchmarking Open-instruction 6-DoF Object Rearrangement and A VLM-based Approach》
图注:论文《MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation》成果展示

代表性论文:

  • Task-Oriented Dexterous Grasp Synthesis via Differentiable Grasp Wrench Boundary Estimator https://arxiv.org/abs/2309.13586

  • NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation https://arxiv.org/abs/2402.15852

  • MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation https://arxiv.org/abs/2401.07745

智能机器人与机器视觉(IRMV)实验室

主页:https://irmv.sjtu.edu.cn/cn

简介:智能机器人与机器视觉(IRMV)实验室旨在在具有挑战性的非结构化环境下通过视觉感知实现通用机器人自动化和机器智能。IRMV 实验室属于上海交通大学自动化系,自主机器人实验室。实验室的研究目标是为具有挑战性的非结构化环境下的自主机器人和人工智能智能开发强大的机器视觉算法。为此,围绕视觉伺服、自动驾驶、软体机器人、无人机、医疗机器人、强化学习控制、多机器人控制和大规模调度 和 机器视觉项目等课题进行探索和研究。

导师:王贺升、刘哲、徐璠等人

研究成果:

图注:基于规划的视觉伺服:设计了一种基于二次规划的局部规划器(控制器),其能够在视觉伺服过程中处理视野、关节(位置、速度/力矩)极限并缓解奇异现象的出现,结合基于采样的全局规划框架,能够以高效率处理大部分受约束视觉伺服问题(T-MECH 2024 Under Review)
图注:无人送货机器人:与唯品会合作,提出了一种基于多传感器融合的无人系统,具有自主导航、定位、规划和控制算法,以解决物流园区的最后一英里交付问题。

代表性论文:

  • Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in Autonomous Driving Applications https://ieeexplore.ieee.org/document/10657322

  • DifFlow3D: Toward Robust Uncertainty-Aware Scene Flow Estimation with Iterative Diffusion-Based Refinement https://ieeexplore.ieee.org/document/10655787

  • 3DSFLabelling: Boosting 3D Scene Flow Estimation by Pseudo Auto-Labelling https://ieeexplore.ieee.org/document/10656074

  • Cognitive Navigation for Intelligent Mobile Robots: A Learning-Based Approach with Topological Memory Configuration https://ieeexplore.ieee.org/document/10551318

数字媒体与计算机视觉实验室 商汤科技 – 上海交大深度学习与计算机视觉联合实验室

主页:https://dmcv.sjtu.edu.cn/

简介:数字媒体与计算机视觉实验室(DMCV),隶属于上海交通大学,是一个致力于计算机视觉、人工智能与计算机图形学领域前沿研究的科研团队。实验室得到了国家自然科学基金委员会(NSFC)及上海市科学技术委员会的大力支持,并与腾讯、商汤科技等行业领军企业建立了深度的合作关系。

研究方向:计算机视觉、数字图像处理、计算机图形、虚拟现实

导师:马利庄,卢策吾,盛斌,肖双九等人

研究成果:

图注:论文《TransVOD: End-to-End Video Object Detection with Spatial-Temporal Transformers》成果展示
图注:论文《Understanding Pixel-Level 2D Image Semantics With 3D Keypoint Knowledge Engine》成果展示

代表性论文:

  • Qianyu Zhou, Xiangtai Li, Lu He, Yibo Yang, Guangliang Cheng, Yunhai Tong, Lizhuang Ma, Dacheng Tao. TransVOD: End-to-End Video Object Detection with Spatial-Temporal Transformers[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE TPAMI), 2022. https://arxiv.org/abs/2201.05047

  • Xin Tan, Jiaying Lin, Ke Xu, Pan Chen, Lizhuang Ma, and Rynson Lau. Mirror Detection with the Visual Chirality Cue[J]. EEE Trans. on Pattern Analysis and Machine Intelligence (IEEE TPAMI), 2022. https://ieeexplore.ieee.org/document/9793716

  • Yang You, Chengkun Li, Yujing Lou, Zhoujun Cheng, Liangwei Li, Lizhuang Ma, Weiming Wang, Cewu Lu: Understanding Pixel-Level 2D Image Semantics With 3D Keypoint Knowledge Engine [J]. IEEE Trans. on Pattern Analysis and Machine Intelligence (IEEE TPAMI), 2022. https://arxiv.org/abs/2111.10817

上海交通大学赵波老师实验室

主页:https://www.bozhao.me/

简介:赵波老师是上海交通大学人工智能学院的副教授(终身教职轨道)。在加入上海交通大学之前,他曾在北京人工智能研究院(BAAI)担任首席研究员,领导数据中心人工智能(DCAI)团队。赵波老师拥有爱丁堡大学博士学位和北京大学工学硕士学位。他在Snap Inc.和商汤科技担任过研究实习生。他和他的团队开发了轻量级多模态大语言模型——Bunny-3B/4B/8B,并计划共同组织在CVPR'24和ECCV'24上的数据集蒸馏研讨会和挑战赛,并邀请学术界和工业界提交相关论文。

研究方向:多模态大语言模型(MLLM)、6D 物体姿态估计和姿态跟踪、具身人工智能(Embodied AI)和机器学习等领域。

研究成果:

图注:赵波老师和他的团队开发的轻量级多模态大语言模型——Bunny-3B/4B/8B,来源:https://github.com/BAAI-DCAI/Bunny
图注:论文《Omni6DPose: A Benchmark and Model for Universal 6D Object Pose Estimation and Tracking》成果展示。来源:https://jiyao06.github.io/Omni6DPose/

代表性论文:

  • Efficient Multimodal Learning from Data-centric Perspective https://arxiv.org/abs/2402.11530

  • Omni6DPose: A Benchmark and Model for Universal 6D Object Pose Estimation and Tracking. https://arxiv.org/pdf/2406.04316

  • VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval. https://arxiv.org/pdf/2406.04292

复旦大学智能人机交互实验室(MemX)

主页:https://www.memx.life/#/

简介:在通用人工智能(AGI)时代,实验室定义了大语言模型与智能可穿戴技术相融合的人机交互新范式。实验室开发了MemX,是世界上首个智能眼镜与大语言模型(LLM)相结合的可穿戴AGI。实验室致力于实现以人为中心的通用智能可穿戴系统,研究重点包括移动端视觉-语言模型、个性化AGI、低功耗深度学习技术、智能可穿戴设备设计等。同时,实验室希望开发Q智能体,一款先进的基于LLM与多智能体技术的通用人工智能系统,执行不同任务的同时能够自我学习和适应,不断提升智能水平。

研究方向:可穿戴AGI、Q-智能体、具身智能

导师:尚笠、Robert P. Dick、杨帆、常玉虎、黄将历等人

成果展示:

代表性论文:

  • Zhenyu Xu, Hailin Xu, Zhouyang Lu, Yingying Zhao, Rui Zhu, Yujiang Wang, Mingzhi Dong, Yuhu Chang, Qin Lv, Robert P. Dick, Fan Yang, Tun Lu, Ning Gu, and Li Shang, “Can Large Language Models Be Good Companions? An LLM-Based Eyewear System with Conversational Common Ground,” ACM Interactive Mobile Wearable & Ubiquitous Technologies (IMWUT), Vol. 8, No. 2, pp. 1-41, June 2024. (Accepted)

  • Yubin Shi, Yixuan Chen, Mingzhi Dong, Xiaochen Yang, Dongsheng Li, Yujiang Wang, Robert Dick, Qin Lv, Yingying Zhao, Fan Yang, Tun Lu, Ning Gu, and Li Shang, “Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models,”  in Proceedings Conference on Neural Information Processing Systems (NeurIPS), December 2023.

  • Maya Okawa, Ekdeep S. Lubana, Robert P. Dick, and Hidenori Tanaka, “Compositional abilities emerge multiplicatively: Exploring diffusion models on a synthetic task,”  in Proceedings Conference on Neural Information Processing Systems (NeurIPS), December 2023.

复旦智能感知与无人系统实验室

主页:https://ipass.fudan.edu.cn/

简介:复旦智能感知与无人系统实验室近年来在机器直觉、人机物三元融合智能等新一代人工智能理论、智能感知与人机交互、计算机视觉与行为分析、数字孪生与虚拟仿真、智能计算与智能芯片、智能驾驶与智慧医疗等领域开展创新研究。

导师:张立华、康晓洋、董志岩、陈迟晓、曹凯、王哲、翟鹏等人

科研项目:

  • “新一代人工智能”重大项目:“标准化儿童患者模型关键技术与应用”

  • “人机物三元协同行为与群智涌现”

  • 三元空间群智智能基础理论与关键技术前瞻性研究

  • 肝癌智能化精准外科的共性关键技术体系的建立

研究成果:

图注:《医工结合项目捷报 |复旦大学工研院发展脑机解码新方法,实现超低延迟的运动想象脑电解码》图1 所提出的解码系统框架。(a)传导模型生成,使用ICBM152模型的MRI数据建立三层头部模型。(b)基于Desikan Killiany图谱选择感兴趣区域,并生成感兴趣区域的源信号。(c)特征提取和分类。FBCSP算法用于训练空间滤波器内核,以生成相应的频带时间序列特征。采用带空间-时间自注意机制的神经网络完成特征分类。通过将测试数据直接与滤波器核相乘来获得特征,最后通过分类获得预测结果。来源:https://ipass.fudan.edu.cn/3f/89/c38382a475017/page.htm
图注:存算融合人工智能芯片“COMB-MCM”及其多芯粒集成封装。来源《克服冯诺依曼瓶颈:工研院张立华课题组参与合作研发的人工智能芯片亮相ISSCC 2022》https://ipass.fudan.edu.cn/f1/a3/c38382a455075/page.htm

代表性论文:

  • Robust Adaptive Ensemble Adversary Reinforcement Learning https://ieeexplore.ieee.org/document/9942298

  • COMB-MCM: Computing-on-Memory-Boundary NN Processor with Bipolar Bitwise Sparsity Optimization for Scalable Multi-Chiplet-Module Edge Machine Learning https://ieeexplore.ieee.org/document/9731657

  • Comparison of MI-EEG Decoding in Source to Sensor Domain https://ieeexplore.ieee.org/abstract/document/9871186

  • N170 component analysis of single-trial EEG based on electrophysiological source imaging https://ieeexplore.ieee.org/document/9871791

鹏城实验室多智能体与具身智能研究所

主页:https://imaei.github.io/

简介:多智能体与具身智能研究所隶属于鹏城实验室网络智能研究部,所长为林倞教授,成员包括数十名在人工智能、多模态大数据分析、嵌入式系统及机器人领域取得显著成果的青年科学家。研究所以人工智能前沿技术探索、以及原创技术引领产业发展为导向,重点突破智能体视角下的多模态感知与生成、智能体任务生成与规划、多智能体的通讯协作与联合决策、具身智能体的控制与人机共融、智能体评测机制与体系等几大方向开展研究。相关课题将涵盖从基础理论到实际应用的全方位内容,旨在通过领域合作研究,解决现实世界中的复杂智能体问题,支撑智能制造、工业物联网、无人自主系统、机器人系统在内的多个场景的规模化产业应用。

代表性成果(1):携手国内知名高校及科创企业共同打造国内首个大规模、多模态,并且涵盖多个场景、技能、任务、平台类型的具身智能数据集ARIO(All Robots In One)。链接:https://openi.pcl.ac.cn/ARIO/ARIO

代表性成果(2):深度参与具身智能技术国家标准和国际标准制定工作,牵头《具身智能虚实融合训练系统设计规范》、《具身智能多模态感规控开源数据结构规范》等标准制定工作,参与《人工智能人形机器人成熟度分级》、《人工智能具身智能系统技术规范》、《具身智能数据采集规范》等多项国家标准制定工作。

代表性成果(3):初步建立了基于Gazebo、Mujoco、Isaac等开源工具的具身智能虚实融合训练系统,并在该类工具中对松灵机器人、Aloha机器人等实体设备和虚拟模型进行虚实融合交互控制、采集数据,下一步将开展虚实融合模型训练和模型验证等工作,实现城市级的具身智能虚实融合训练平台。

图注:论文《Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation》成果展示
图注:论文《NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning》成果展示

代表性论文:

  • Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation https://arxiv.org/abs/2407.05890

  • NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning https://arxiv.org/abs/2403.07376

  • MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation https://arxiv.org/abs/2401.07314

  • Surfer: Progressive Reasoning with World Models for Robotic Manipulation https://arxiv.org/abs/2306.11335

中山大学人机物智能融合实验室(HCP)

主页:https://www.sysu-hcp.net/home/

简介:中山大学人机物智能融合实验室围绕“人工智能前沿技术与产业化”布局研究方向与课题,并深入应用场景打造产品原型,输出大量原创技术及孵化创业团队。在多模态认知计算、机器人与嵌入式系统、元宇宙与数字人、可控内容生成等领域开展体系化研究,以“攀学术高峰、踏应用实地”为工作理念。

成果展示:

图注:来源:论文《CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation》针对视觉语言导航,提出CorNav 框架:利用大型语言模型进行决策,包含两个关键组件。一是纳入环境反馈以改进未来计划并调整行动;二是多个领域专家用于解析指令、理解场景和改进预测行动。
图注:论文《TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts》成果展示。TIP-Editor 框架:接受文本和图像提示以及 3D 包围框来指定编辑区域。图像提示可让用户方便地指定目标内容的详细外观 / 风格,补充文本描述,从而实现对外观的准确控制。
图注:《多模态大模型:新一代人工智能技术范式》本书以深入浅出的方式全面地介绍了多模态大模型的核心技术与典型应用,并围绕新一代人工智能技术范式,详细阐述了因果推理、世界模型、超级智能体与具身智能等前沿技术。希望本书能够为学术界和工业界提供一个清晰的视角,以帮助人工智能科研工作者更全面地了解多模态大模型的技术和新一代人工智能的发展方向。

代表性论文:







请到「今天看啥」查看全文