|
COM Kitchens:未经编辑的俯视视频数据集作为视觉-语言基准 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|
|
一体式机器人:多功能通用具身智体的新标准和统一数据集 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|
|
机器人中LLM应用综述 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|
|
基础模型在真实世界机器人的应用:综述 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|
|
在机器人学的基础模型:应用、挑战和未来 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|
|
扩散模型就是实时的游戏引擎 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|
|
DriveGenVLM:基于视觉-语言模型的自动驾驶真实世界视频生成 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|
|
Splat-SLAM:使用 3D 高斯函数的全局优化 RGB SLAM 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|
|
NeRF 和 3D Gaussian Splatting 如何重塑 SLAM:综述 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|
|
OpenVLA:一个开源的视觉-语言-动作模型 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|
|
Octo:一个开源通才机器人策略 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|
|
RoboAgent:通过语义增强和动作分块实现机器人操作的泛化和效率 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|
|
Ego4D 目标-步:实现对程序化活动的分层理解 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|
|
意图驱动的 Ego-to-Exo 视频生成 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|
|
手套箱环境下,协同装配的人机协作数据收集 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|
|
MASt3R 落地 3D 的图像匹配 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|
|
DUSt3R:轻松实现几何 3D 视觉 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|
|
Bridge 数据:利用跨域数据集促进机器人技能的泛化 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|
|
BridgeData V2:大规模机器人学习数据集 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|
|
消除LLM幻觉,需要重新思考泛化:混合记忆专家(MoME) 计算机视觉深度学习和自动驾驶 · 公众号 · · 5 月前 · |
|