|
GEM:一种可泛化的自我视觉多模态世界模型,用于细粒度自我运动、目标动态和场景合成控制 计算机视觉深度学习和自动驾驶 · 公众号 · · 3 周前 · |
|
|
迈向长范围视觉-语言导航:平台、基准与方法 计算机视觉深度学习和自动驾驶 · 公众号 · · 3 周前 · |
|
|
DFIT-OccWorld:通过解耦动态流和图像辅助训练实现高效占用世界模型 计算机视觉深度学习和自动驾驶 · 公众号 · · 3 周前 · |
|
|
动作预测:通过联合去噪过程进行视觉策略学习 计算机视觉深度学习和自动驾驶 · 公众号 · · 3 周前 · |
|
|
学习将人类手部技能迁移至机器人操作 计算机视觉深度学习和自动驾驶 · 公众号 · · 3 周前 · |
|
|
视频预测策略(VPP):一个预测视觉表征的通才机器人策略 计算机视觉深度学习和自动驾驶 · 公众号 · · 3 周前 · |
|
|
超越视觉:通过语言落地使用异构传感器微调通才机器人策略 计算机视觉深度学习和自动驾驶 · 公众号 · · 3 周前 · |
|
|
自我状态是否就是开环端到端自动驾驶所需要的全部? 计算机视觉深度学习和自动驾驶 · 公众号 · · 3 周前 · |
|
|
VLM-RL:用于安全自动驾驶的统一视觉语言模型和强化学习框架 计算机视觉深度学习和自动驾驶 · 公众号 · · 3 周前 · |
|
|
FusionAD:用于自动驾驶预测和规划任务的多模态融合方法 计算机视觉深度学习和自动驾驶 · 公众号 · · 3 周前 · |
|
|
大语言模型引导深度强化学习,助力自动驾驶决策 计算机视觉深度学习和自动驾驶 · 公众号 · · 3 周前 · |
|
|
理解世界还是预测未来?世界模型综述 计算机视觉深度学习和自动驾驶 · 公众号 · · 3 周前 · |
|
|
人形机器人运动与操控:控制、规划和学习方面的当前进展与挑战 计算机视觉深度学习和自动驾驶 · 公众号 · · 3 周前 · |
|
|
基于大语言模型智体的终身学习:路线图 计算机视觉深度学习和自动驾驶 · 公众号 · · 3 周前 · |
|
|
智体系统:一个利用垂直 AI 智体转变行业的指南 计算机视觉深度学习和自动驾驶 · 公众号 · · 3 周前 · |
|
|
DaDu-E:重新思考大语言模型在机器人计算流水线中的作用 计算机视觉深度学习和自动驾驶 · 公众号 · · 4 周前 · |
|
|
LargeAD:用于自动驾驶的大规模跨传感器数据预训练 计算机视觉深度学习和自动驾驶 · 公众号 · · 4 周前 · |
|
|
DriveDreamer4D: 世界模型是 4D 驾驶场景表征的有效数据机器 计算机视觉深度学习和自动驾驶 · 公众号 · · 4 周前 · |
|
|
MagicDriveDiT:具有自适应控制的自动驾驶高分辨率长视频生成 计算机视觉深度学习和自动驾驶 · 公众号 · · 4 周前 · |
|
|
rStar-Math:通过自我进化的深度思维 小型 LLM 掌握数学推理 计算机视觉深度学习和自动驾驶 · 公众号 · · 4 周前 · |
|