专栏名称: LLM SPACE

每周高质量AI信息

活动回顾｜「潜空间」第三季全季内容分享

LLM SPACE · 公众号 · 互联网短视频科技自媒体 · 2024-09-25 12:00

正文

贡献人：Ollie 、zhumeng

Introduction

导引

LLMSpace 在过去的两个月中持续追踪「潜空间」第三季全季系列活动

本文中你将看到第三季中所有嘉宾的内容 Insights & 现场 Best Q&A

「潜空间」第四季已经启动报名，探索更多大模型技术前沿，请扫描下方二维码参与报名。

Research Node

研究节点

回顾过往的「潜空间」第三季全季四期分享内容，在多模态生成与理解、长上下序列生成、以及关于 AGI 的探索上爆发出以下的研究节点。

Event Review

活动回顾

第一期：Dream Machine：从视频理解 3D

1. 嘉宾简介

宋佳铭（Jiaming Song）

Luma AI 的首席科学家
斯坦福大学计算机科学博士与博士后
曾担任英伟达（DIR）小组科学家，创建最早的扩散模型加速算法
专注在扩散模型和 3D 生成

2. Talk 综述

本次分享介绍了 Luma AI 于 6 月 12 日发布的 Dream Machine 模型，其中重新定义了 Luma 与Sora、可灵等根本区别在于瞄准的方向为大尺度高速运动的镜头感生成，以及对于光影/色彩/速率等的超细节追求。

佳铭指出，虽然 3D 建模技术有所发展，但 3D 数据的稀缺性和可扩展性问题限制了其在生成任务中的应用。

同时提出了将 3D 生成视为 2D 生成模型下游任务的创新思路，通过对预训练的 2D 或视频模型进行微调，可以实现多视角和动态场景的生成；同时沿着此思路，加入时间维度的 4D 将有可能在复杂场景取得成功。

3. 观点解析

视频模型在理解和生成三维特性方面具有天然优势。

自发地学习深度感知和空间结构，无需大量的三维标注数据，就能生成具有真实空间感的多视角场景。
能够捕捉复杂的光线传输和材质效果，如光线的反射、折射和阴影变化。通过这种数据驱动的方法，能够以更高的效率和逼真度呈现。
在动态性和因果关系的理解上表现出色。视频模型能够生成逼真的物体运动和场景变化，还能在镜头切换中保持角色形象和情感的连贯性。

对于生成超长时间的视频和任务中，首先要明白模型的应用场景是什么？

模型限制：目前并不能完全离开人工，短期内，可能更多的是人与模型之间的交互和辅助；
实际应用：只以时长为 Benchmark 的任务极容易达成，但是效果和价值不大。

4. 原文链接

Dream Machine：从视频理解 3D｜Luma AI 首席科学家宋佳铭亲述

第二期：Efficient Long-context Generation

1. 嘉宾简介

陈贝迪（Betty Chen）

CMU助理教授
前Meta研究员
研究方向：包含大规模的机器学习，system optimization 优化，以及如何通过 MLSys 来提升efficiency

2. Talk 综述

Beidi 在演讲中探讨了长上下文大语言模型在推理过程中的挑战，特别是 KV cache 带来的瓶颈。通过算法、系统和硬件的协同设计，可以在不牺牲模型能力的情况下，提升长序列生成的效率。同时分享回顾了各种提效方法，包括静态KV压缩（如H2O和StreamingLLM）、动态KV压缩和推测解码（如TriForce）。

Beidi 提出了一种新思路：不再压缩KV缓存，而是通过硬件协同设计，将其存储在更廉价的存储介质上，例如利用GPU和CPU的协同设计，充分发挥CPU的大容量存储优势，解决GPU内存限制的问题。通过使用如局部敏感哈希（LSH）等算法，系统可以高效地从CPU中检索所需的KV缓存数据，实现性能的提升。

3. 观点解析

不能够完全放弃算法的增效，如果完全依赖 GPU 提速，那么软件方面的算法就没有存在的价值。

CPU 相比于 GPU 在 deep learning 上其实是差在它的计算，同时 parallelization 很少；
我们的观察下，发现他们之间的 memory bandwidth 其实“只”差了 10 倍，为什么说“只”，因为它的计算能差几百倍。
10倍在算法加速提升上是一个 magical number。100 倍是非常难 bridge，但是 10 倍是很有可能的。

我认为现在程度的 LLM 已完全有能力应用到我们方方面面的生活中。

这个观点也许99%的人都不认可
但只要运用的成本都低，就会有值得运用和 Scale 的潜力

4. 原文链接

Beidi Chen陈贝迪独家 | 高效长序列生成之路：CPU & GPU —— 算法、系统与硬件的 co-design

第三期：Cambrian-1：视觉在多模态大模型中扮演的角色

嘉宾简介

童晟邦（Peter Tong）

纽约大学博士
师从 Yann LeCun 教授和 Saining Xie 教授
伯克利人工智能实验室（BAIR）的研究员

2. Talk 综述

Peter Tong深入探讨了从视觉表征、评估方法、指令微调策略、连接器设计和指令微调数据五个方面详细阐述了多模态模型的发展现状和挑战。他强调，尽管当前的大模型如GPT和Claude在语言处理和知识问答方面表现卓越，但在处理视觉相关任务时仍存在不足。通过分析现有的Benchmark，提出了利用视觉领域已有的优秀数据集来构建新的Benchmark，以更准确地评估模型的视觉能力。同时，他分享了团队在开发名为“Cambrian-1”的多模态模型中的经验和发现。

3. 观点解析

我们认为AI的发展与寒武纪生命大爆炸相似。

就像当时生物从单一视觉或语言概念进化到多模态，AI也在融合多种模态。我们希望AI能够像动物长出眼睛那样，标志着一个重要进化阶段，并加速这一过程。

我认为 GPT-5 未必能实现原生的多模态功能

语言处理时，token化几乎不会导致信息损失，token能还原原始语句。但图像或视频在编码过程中，必然会有信息损失
目前我想研究是否存在“视觉智能”，即视觉系统本身是否能够展现出智能行为。

4. 原文链接

寒武纪视觉爆炸：多模态大模型在视觉处理中的新探索

第四期：Intelligence with Everyone

闫俊杰

MiniMax 创始人兼 CEO
中国第一梯队的大模型创业者

作为一家通用人工智能科技公司，MiniMax 致力于与用户共创智能，目前估值超 25 亿美元。公司自研了不同模态通用大模型，包括万亿参数 MoE 文本大模型、语音大模型及图像大模型，并基于不同模态大模型推出星野、海螺 AI 等原生应用，为企业和开发者提供开放平台 API 服务。

分享内容暂不公开，敬请期待！

Best Q＆A

问题精选

从人和自然的角度，视频理解和生成是如何被分开的呢？其背后的机制是否相同？

Jiaming：这可能与具体的算法设计有关。

对于理解任务，目前的研究可能更多地依赖于基于语言模型的编码器，例如LLaVA（Large Language and Vision Assistant）这样的模型，它们通过微调语言模型来进行图像编码。由于语言模型与扩散模型在算法上存在较大差异，因此从理解或生成的角度来看，它们的设计逻辑也不尽相同。

因此，至少在初期阶段，人们可能还无法将这两个问题统一考虑。

2. 怎么看 Mamba 这一系列的这个工作？

正好前几天有一个和 MIT researcher 聊到，他说现在至少线性注意力里边，对于很多 long context 的一部分能力，其实是把它敲掉了的，然后以及你刚才提到的那个 Allen 的那一个对大模型各个能力从哪来的那个研究都是非常好的，我觉得是现在的一个研究的一个趋势。

你自己是如何理解现在的这个算法的 Architecture 的？你觉得现在的 GPU 的硬件体系下边这个 Transformer 是不是最好的模型？

Beidi：这个完全是我的个人选择，因为我其实早期做了挺多线性注意力这种工作的。

后来觉得一方面好像也没办法真的做到非常多的加速（可以用来写写paper）；
另一方面好像也没有超越本身 transformer 能做的事情；
再加上那个时候的 training data 好像也没有本质上真的很 long 的。

然后就感觉遇到了瓶颈，然后再加上新出现 Flash attention，又超越了linear attention 本身的 efficiency，我就放弃了。

但是我还是觉得 Manba 这种工作是或者这种 alternation 是一定要出现的，不然的话那大家就会拥挤在 transformer，或者觉得它就是唯一的 architecture，我觉得这个比较危险。

而且我之前觉得 Llama 或者是 RNN 很有可能是 efficiency 和 accuracy 的 trade-off，但其实可能不一定，因为我现在做了 understanding 或者是 reasoning 之后，就会开始思考，有没有可能在 compression 做得更 efficient 之后，对于它理解一些东西会更好？这个我跟 Allen 也讨论过，他也这么觉得，就是如果只做 efficiency 的话，很有可能在 Transformer 这个时代是很难取代的，但是如果他有一些别的超越Transformer 的能力，或者是一些 co-design，这个是很有可能的。

现在 transformer 的那一套 infrastructure 已经非常好了，而且又有我们这种人在做 infra 的优化，如果仅仅只是 efficiency 的话其实很难 justify，但是我觉得一定要在能力上有一些不太一样和可以突破的东西，现在起码可以做各种 AB testing，比如说我们也会把各种架构拿出来看一看，我这种 task 会发生什么事情，我觉得这个是非常好的，这才是一个百花齐放的做 research 的感觉。这就是为什么我要做 CPU 或者是其他的硬件，因为我觉得这个不能让一个东西垄断，不然就没有发展了。

3. 如何进一步挖掘YouTube或者视频数据中的有用信息？

一段40秒的烹饪视频可能只有两三句话来描述视频内容。有哪些方法可能已经被采用，或者有很大的潜力在未来被采用，以便更深入地提取视频数据中语言与视频内容之间的关联信息？

Peter：首先，可以利用现有的多模态模型，例如通过密集图像标注和语言模型生成摘要，从而将纯视觉内容转化为丰富的文本描述。

其次，可以通过迭代的方式，即利用已有模型处理数据并训练新模型。这种方法已被证明可以有效提升模型性能，而不至于导致过拟合。

另一种基础研究途径是探索如何在模型训练中同时利用视觉和语言数据，以达到两者相辅相成的效果。这种跨模态学习方式在训练过程中能相互促进，即使在原始数据质量不佳的情况下，也能提高模型的整体性能。

🔈潜空间活动第四季正式开启！快来扫描海报二维码报名吧~

Hope

小编寄语

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，关于AI战略方向的框架性认知，处于小范围分享状态如果你感兴趣，可以将以下链接复制到浏览器，加入飞书群聊(需要下载飞书)。

https://applink.feishu.cn/client/chat/chatter/add_by_link?link_token=346gcbcf-3753-4464-830d-90f892567e78

大模型空间站再次感谢各位朋友的支持！

--- END ---

活动回顾｜「潜空间」第三季全季内容分享

正文

第一期：Dream Machine：从视频理解 3D

1. 嘉宾简介

宋佳铭（Jiaming Song）

2. Talk 综述

4. 原文链接

第二期：Efficient Long-context Generation

陈贝迪 （Betty Chen）

2. Talk 综述

4. 原文链接

第三期：Cambrian-1：视觉在多模态大模型中扮演的角色

嘉宾简介

童晟邦（Peter Tong）

2. Talk 综述

3. 观点解析

4. 原文链接

第四期：Intelligence with Everyone

闫俊杰

2. 怎么看 Mamba 这一系列的这个工作？

3. 如何进一步挖掘YouTube或者视频数据中的有用信息？

陈贝迪（Betty Chen）