计算机视觉深度学习和自动驾驶 - 公众号 - 文章列表 - 历史文章

最新

可重打光的 3D 高斯：BRDF 分解和光线追踪的逼真点云重打光技术

计算机视觉深度学习和自动驾驶 · 公众号 · · 3 月前 ·

DrivingDojo 数据集：交互式和知识-丰富驾驶世界模型

计算机视觉深度学习和自动驾驶 · 公众号 · · 3 月前 ·

自动驾驶大语言模型(LLM4AD)：概念、基准、模拟和实车的实验

计算机视觉深度学习和自动驾驶 · 公众号 · · 3 月前 ·

HENASY：学习组装场景-实体，实现可解释自我中心视频-语言模式

计算机视觉深度学习和自动驾驶 · 公众号 · · 3 月前 ·

ALANAVLM：一种用于自我中心视频理解的多模态具身智能基础模型

计算机视觉深度学习和自动驾驶 · 公众号 · · 3 月前 ·

BiGym：基于演示的移动双手操作基准

计算机视觉深度学习和自动驾驶 · 公众号 · · 3 月前 ·

RoboCAS：复杂物体排列场景中机器人操作的基准

计算机视觉深度学习和自动驾驶 · 公众号 · · 3 月前 ·

通过 RL 微调改善自动驾驶的智体行为

计算机视觉深度学习和自动驾驶 · 公众号 · · 3 月前 ·

具有 LLM 驱动数据合成和自动驾驶策略调整的鲁棒 RL

计算机视觉深度学习和自动驾驶 · 公众号 · · 3 月前 ·

机器人扩散Transformer的成分

计算机视觉深度学习和自动驾驶 · 公众号 · · 3 月前 ·

RDT-1B：双手操作机器人的扩散基础模型

计算机视觉深度学习和自动驾驶 · 公众号 · · 3 月前 ·

CoVLA：自动驾驶综合视觉-语言-动作数据集

计算机视觉深度学习和自动驾驶 · 公众号 · · 3 月前 ·

TinyVLA：面向机器人操控的快速、数据高效、视觉-语言-动作模型

计算机视觉深度学习和自动驾驶 · 公众号 · 科技创业科技自媒体 · 3 月前 ·

GR-1：为视觉机器人操控释放大规模视频生成预训练模型

计算机视觉深度学习和自动驾驶 · 公众号 · · 3 月前 ·

GR-2：用于机器人操纵的网络规模知识生成视频-语言-动作（VLA）模型

计算机视觉深度学习和自动驾驶 · 公众号 · · 3 月前 ·

VidEgoThink：评估具身智能以自我中心的视频理解能力

计算机视觉深度学习和自动驾驶 · 公众号 · · 3 月前 ·

Qwen2.5-Math 技术报告：通过自我改进实现数学专家模型

计算机视觉深度学习和自动驾驶 · 公众号 · · 3 月前 ·

EgoThink：评估视觉语言模型第一人称视角的思维能力

计算机视觉深度学习和自动驾驶 · 公众号 · · 3 月前 ·

Dualformer：通过随机推理轨迹学习实现可控的快速和慢速思维

计算机视觉深度学习和自动驾驶 · 公众号 · · 3 月前 ·

超越 A*：通过搜索动态自举法使用 Transformer 进行更好的规划

计算机视觉深度学习和自动驾驶 · 公众号 · · 3 月前 ·

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!