我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢迎大家一起交流!
学习
大模型分布式训练的第四种境界
大模型分布式训练技术面临巨大挑战,包括对算力和显存的极高需求,以及如何在多设备间有效地进行计算和通信。为了克服这些挑战,研究者们提出了多种技术,如数据并行、流水线并行等,并通过优化技术如 DeepSpeed 中的 Zero-DP 来提高显存利用率。这些技术通过精细化的任务切分和通信策略,有效地提高了大模型训练的效率和效果。未来,随着技术的不断进步,自动并行策略的搜索和模型结构的演进将是研究的重点方向。英伟达、谷歌、Meta等5大巨头Scale-up超节点规模大比拼,揭示未来AI网络最优解
超节点 Scale-up 技术在 AI 网络发展中扮演关键角色,英伟达的 GB200 通过 NVLink 技术实现了与 H100 相比的 30 倍性能提升。谷歌和 Meta 分别推动超节点规模至 8960 和 4096 个 Nodes,提出了超节点越大,DCN 带宽需求越小的观点。国际标准 UALink 的出现,以及阿里云提出的基于 15K GPU 的 POD 架构,进一步推动了超节点技术的发展。业界对超节点规模进行了深入讨论,认为超节点的扩展应考虑成本线性和资源池化的需求。作者认为,超节点的规模应在 4096~8192 nodes 之间,以适应未来的 AI 应用挑战和三网融合的趋势。技术细节包括 NVLink 的带宽提升、超节点的内存语义支持、以及如何通过一层 CLOS 交换机组网来控制成本。对话高阳、汶川:如何利用互联网人类视频训练机器人大模型
ATM 方法通过从 2D 人类视频中提取物体运动轨迹,避免了传统视频预测模型的复杂性和高计算成本。核心思想是将视频中的物体运动建模为点的集合,而非像素级别的视频建模,从而提取经验知识。ATM 采用 track transformer 模型,该模型基于 transformer 架构,能够结合当前图片、语言描述和查询点的坐标,预测未来的轨迹,并将预测的轨迹作为控制模型的输入,以提高机器人控制的准确性和效率。此外,ATM 的感知模块使用了基于 2D 图像的 ViT,而非 3D 感知,以提高模型性能和泛化能力。ATM 在布料操作、长程操作和使用工具等方面的表现表明了其潜力,并且通过第三人称视角的视频可以提供更为有用的数据源。最后,ATM 方法虽然是一种模仿学习,但需要采集少量的机器人遥操作数据来弥合人类和机器人之间的物理形态差异。通过神经网络估计深度信息,ATM 能够从 2D 视频中抽取 3D 轨迹,为机器人训练提供更为丰富的数据。https://zhuanlan.zhihu.com/p/707460485?utm_psn=1793267369424064512对话迟宬、许臻佳:UMI——机器人训练的物理API
UMI 项目是一个开源的物理 API,旨在为机器人操作系统(ROS)提供一个通用的硬件接口。它允许开发者通过统一的编程接口控制不同的机器人硬件,从而简化了机器人开发的复杂性。UMI 的关键技术细节包括:它能够处理多种硬件平台,提供了一套标准化的数据交换格式,并且支持插件化的架构设计,使得新硬件的集成变得更加容易。此外,UMI 项目还集成了调试和可视化工具,有助于开发者快速定位问题并优化机器人的性能。通过 UMI,机器人开发者可以更高效地实现机器人的功能原型,并且能够更灵活地进行硬件升级和维护,从而加速机器人技术的研发和应用。https://zhuanlan.zhihu.com/p/707461213Imbue-70B 的 AI Infra:从0到1搭建和运维4088 H100集群的最佳实践
Imbue-70B 搭建了一个包含 4088 个 H100 GPU 的大规模集群,通过详尽的技术细节,如网络拓扑、服务器配置、系统安装、故障排除和性能优化,展示了从零到一的 AI Infra 构建过程。集群采用 3-TierIB 网络实现无收敛拓扑,每个 GPU 节点配备了 8 个 H100 GPU 和 8 个 ConnectX-7 的 InfiniBand NIC。在初始化阶段,通过辅助管理网络和 BMC 实现对硬件的监控和管理,并解决了如 GPU 错误、固件问题等一系列问题。此外,文章还强调了对 IB 网络的压测、GPUDirect RDMA 的启用以及对集群健康状况的持续监控,通过自动化工具和系统确保训练过程的稳定性和效率。利用DPU加速HPC和AI:策略与获益
文章详细介绍了 DPU 在高性能计算(HPC)和人工智能(AI)领域中的应用和优势。DK Panda 博士从 Ohio State University 展示了 BlueField DPU 的技术特性,并分享了他们团队在该技术上的工作成果。自第一代 BlueField 以来,他们不断优化,实现了通信卸载和非阻塞点对点通信卸载等技术,显著提升了性能。Panda 博士强调了非阻塞集合通信的重要性,它允许在通信操作进行时继续进行计算,从而提高了程序的效率和并行性能。MVAPICH 项目作为一个例子,展示了如何通过 InfiniBand 技术和 MPI 层面的内部设计,实现高效的中间件。此外,Panda 博士还探讨了如何通过 DPU 的使用,为兼顾 HPC 和 AI 应用的高性能计算系统设计高效的中间件,以及如何充分发挥 CPU、GPU 和 DPU 等多种处理器的优势。在 AI 领域,他们的研究成果还包括如何在 CPU 和 DPU 的角度来卸载深度学习训练的数据。通过实验数据,Panda 博士证明了在 HPC 和 AI 应用中,DPU 可以显著提升性能,例如在 osu_Ialltoall 操作中实现了 20% 至 22% 的加速,以及在高性能 LINPACK 中通过非阻塞集体通信实现了 16% 至 18% 的性能提升。同时,他们也在深度学习训练中探索了 DPU 的应用,实现了在不同的网格大小下的 14%、12% 和 21% 的性能提升。190支团队贡献高水平创新项目,浦源大模型挑战赛(夏季赛)战果揭晓
浦源大模型挑战赛(夏季赛)近期圆满落幕,来自产学研各界及个人开发者组成的 190 支队伍,经过两个月的角逐,展现了创意灵感和技术水平。上海计算机软件技术开发中心及中国科学院大学团队分别获得了行业应用 / 创新创意赛道和安全可信赛道的冠军。本次赛事由上海市经济和信息化委员会等多个政府机构指导,上海人工智能实验室主办,上海市人工智能行业协会承办,旨在推动 AI 生态发展和大模型在各行业的应用落地。获奖团队代表在2024 世界人工智能大会(WAIC)科学前沿主论坛上发布了浦源生态共赢计划,并在官方直播间展示了项目。赛事设置了总奖池价值 100 万元,并为获胜者提供了亮相 WAIC、参与开源生态活动的机会。夏季赛新增了安全可信赛道,探索大模型技术在多领域的应用和安全治理路径,行业应用赛道扩展到 8 大领域,包括工业能源、金融等。经过多轮评选,产生了夏季赛 50 强,最终 20 支队伍成为获奖者。获奖项目探讨了 AI 在提升效率、降低成本、增强决策能力等方面的潜力,同时也探索了多源数据整合、智能分析和知识图谱应用等技术挑战。安全可信赛道的获奖者提出了针对大语言模型的通用越狱攻击方法,为防御越狱攻击提供了新视角和工具。浦源大模型挑战赛将继续致力于打造国际化平台,为全球 AI 创新创业者提供展示和交流机会,推动 AI 生态繁荣。LivePortrait
LivePortrait 是一种视频驱动肖像动画的框架,目的是实现更好的泛化能力、可控性和效率。相比主流的扩散方法,该框架采用了基于隐式关键点的方法,有效平衡了计算效率和可控性。为了提高生成质量和泛化能力,作者扩大了训练数据规模、采用了混合图像-视频训练策略、升级了网络架构,并设计了更好的运动变换和优化目标。此外,作者发现紧凑的隐式关键点可以表示混合形状,提出了缝合和重定位模块来增强可控性。实验结果表明,该框架的性能优于扩散方法,生成速度也很快,达到了 12.8ms。https://liveportrait.github.io/BACON
BACON 是一种图形表示方法,通过赋予视觉语言模型有限的语言能力,从而减少下游任务中的幻觉。它将复杂的视觉场景分解为基本的概念元素,以图形结构的方式呈现。这种元素级别的表示方式便于理解和定位,并通过精心设计的提示生成 BACON 字幕。基于此,研究者构建了一个包含 10 万张注释图像的数据集,使 VLMs 获得了多种强大的能力,如准确生成 BACON、将提示转换为 BACON 格式、以 BACON 风格设想场景、动态修改 BACON 元素等。广泛的实验表明,BACON 为实现之前无法触及的任务或在当前前沿解决方案中取得优异表现提供了关键支持。https://ztyang23.github.io/bacon-page/CosmosRP-8k
CosmosRP 是一个专为角色扮演设计的强大 LLM 助手,提供了针对性的响应、图像理解、易用性和免费使用等特点,让角色扮演体验更加沉浸式和生动,它拥有一个活跃的 Discord 社区供用户交流互动,感兴趣的朋友可以加入。https://huggingface.co/PawanKrd/CosmosRP-8k
--- END ---