专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
目录
相关文章推荐
混沌学园  ·  创新者的必赢之战 混沌学园六期开启 ·  2 天前  
印象笔记  ·  消失的节日和停办的晚会|一周收藏排行 ·  2 天前  
混沌学园  ·  实干家请注意!和TikTok玩家组局探索流 ·  4 天前  
人生研究所  ·  冲走牙缝肉渣,我花 89 ... ·  5 天前  
51好读  ›  专栏  ›  专知

深度学习效率进展的细致指南

专知  · 公众号  · 学习  · 2024-11-01 12:00

正文

本文提供了从效率角度出发的深度学习进展的全面时间顺序指南:涵盖了集群、独立硬件、深度学习库、编译器,甚至架构的变化。本文并非一篇综述论文,旨在为读者提供对该领域的广泛直观理解——在过去 40 年中涌现的每一个细节都不可能全部涵盖。

前言:在过去十年中,深度学习领域蓬勃发展,发展到无论是研究人员还是学生都很难跟踪其动态的程度。有时,我甚至发现自己难以把握该领域的实际方向。在这个常常显得飘忽不定的领域,许多方法和结果在实际中显得差强人意,我希望至少对我们当前所处的进展有一个概念。

我希望以叙述的形式写这篇文章——1)使其对读者易于理解,而不是信息过载;2)让读者从宏观视角审视该领域,并理解其演变轨迹。我尽量以论文为中心(类似于 Lilian Weng 风格的博客!),并包含了我认为适当的标志性(或酷炫)作品;如果读者觉得需要包含或修改某些内容,请随时告知!在开始之前,让我先列出一些相关的数字,以帮助大家更好地了解即将讨论的进展。对于不熟悉这些数字的朋友,我也添加了一些说明。

  • NVIDIA 最新的 Blackwell B200 GPU 估计售价为 3 万至 4 万美元。
  • 对于 FP8,它的性能可达约 4500 TeraFLOPS,性能非常惊人!
  • 它配备了 192GB 的高带宽内存/DRAM,这是主要的 GPU 内存。
  • Llama 3.1 405B,Meta 最新的开源语言模型,参数量达 4050 亿(约 800GB)。
  • 它的训练使用了高达 16000 张 NVIDIA H100(位于 24000 GPU 集群上)。
  • 它的训练数据集包含了 15 万亿个 token。




专知便捷查看,访问下面网址或点击最底端“阅读原文”

https://www.zhuanzhi.ai/vip/5da99f83ff5d7bc23003d35043d6f964

点击“阅读原文”,查看下载本文