|
交叉扩散:通过自监督学习改进基于扩散的视觉运动策略 计算机视觉深度学习和自动驾驶 · 公众号 · · 4 月前 · |
|
|
Socratic Planner: 用于具身指令跟随的基于查询零样本规划方法 计算机视觉深度学习和自动驾驶 · 公众号 · 科技创业 · 4 月前 · |
|
|
3D 扩散策略:简单 3D 表示进行可泛化视觉运动的策略学习 计算机视觉深度学习和自动驾驶 · 公众号 · · 4 月前 · |
|
|
代码即策略:具身控制的语言模型程序 计算机视觉深度学习和自动驾驶 · 公众号 · · 4 月前 · |
|
|
探索机器人操作的视觉预训练:数据集、模型和方法 计算机视觉深度学习和自动驾驶 · 公众号 · · 4 月前 · |
|
|
SpatialVLM:赋予视觉-语言模型空间推理能力 计算机视觉深度学习和自动驾驶 · 公众号 · · 4 月前 · |
|
|
三思而后行:ViLa 揭示GPT-4V 在机器人视觉-语言规划中的强大功能 计算机视觉深度学习和自动驾驶 · 公众号 · · 4 月前 · |
|
|
将机器人带回家: 系统 Dobb·E 和工具 Stick 计算机视觉深度学习和自动驾驶 · 公众号 · · 4 月前 · |
|
|
Robot Utility Models:在新环境零样本部署的通用策略 计算机视觉深度学习和自动驾驶 · 公众号 · · 4 月前 · |
|
|
多模态大语言模型落地于动作 计算机视觉深度学习和自动驾驶 · 公众号 · · 4 月前 · |
|
|
强化优势反馈(ReAd):实现具身多智体协作的高效LLM落地 计算机视觉深度学习和自动驾驶 · 公众号 · · 4 月前 · |
|
|
RoboMamba:用于高效机器人推理和操作的多模态状态空间模型 计算机视觉深度学习和自动驾驶 · 公众号 · · 4 月前 · |
|
|
RH20T:用于单样本学习多种技能的综合机器人数据集 计算机视觉深度学习和自动驾驶 · 公众号 · · 4 月前 · |
|
|
Assembly101:用于理解程序活动的大规模多视图视频数据集 计算机视觉深度学习和自动驾驶 · 公众号 · · 4 月前 · |
|
|
Habitat-Matterport 3D 数据集:1000 个用于具身 AI 的大型 3D 环境 计算机视觉深度学习和自动驾驶 · 公众号 · · 4 月前 · |
|
|
EmbodiedGPT:通过具身的思维链进行视觉-语言预训练 计算机视觉深度学习和自动驾驶 · 公众号 · · 4 月前 · |
|
|
视频作为现实世界决策的新语言 计算机视觉深度学习和自动驾驶 · 公众号 · · 4 月前 · |
|
|
RoboCat:一个自我完善机器人操控的通才智体 计算机视觉深度学习和自动驾驶 · 公众号 · AI 科技创业 · 5 月前 · |
|
|
UniPi:通过文本引导的视频生成去学习通用策略 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|
|
BC-Z:利用机器人模仿学习进行零样本任务泛化 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|