专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
宝玉xp  ·  人类解决问题 vs 蚂蚁解决问题AI ... ·  2 天前  
爱可可-爱生活  ·  本文提出了一种名为梯度一致性过滤(GAF)的 ... ·  2 天前  
爱可可-爱生活  ·  这篇论文提出了一种名为CoLoR的创新压缩模 ... ·  2 天前  
爱可可-爱生活  ·  //@爱可可-爱生活:欢迎参与~-20241 ... ·  2 天前  
51好读  ›  专栏  ›  宝玉xp

我记得Sora也是用的patch切视频-20241225014851

宝玉xp  · 微博  · AI  · 2024-12-25 01:48

正文

2024-12-25 01:48

我记得Sora也是用的patch切视频
#模型时代# Token将消亡?

这是昨天一条微博的后续。起因是X上有一位叫Mark的博主准确预测了o3的发布,而且做了对2025年的AI预测,其中提到:

1、分词(Tokenization)最终将死亡。
2、测试时计算转移到潜在空间,使用抽象概念,而不是文本。这将实现多模态推理。
新技术的组合将标志着古典LLM的终结,它的继任者将是全模态的,可被视为原型 AGI。

那么,如果Token消亡,取代的是什么呢?

Mark举的例子是Meta的一个方法,叫BLT(Byte Latent Transformer)。BLT用基于热力学的”熵“理念,以Patch取代Token。

具体来说,BLT 使用一个小型的字节级语言模型(约100M参数)来计算信息的"熵",再依据"熵"来将数据切分为Patch:

这个模型会预测下一个字节的可能性
当预测变得困难时(即不确定性高),熵值就会升高

用更通俗的比喻来解释,把token和patch处理文本的方式类比为两种不同的阅读方式:

1、Token的方式(传统方法):

就像是一个人在读书,每个单词都要看,每个单词都花相同的时间
比如阅读:"The quick brown fox jumps"
每个单词都要花1秒钟,一共需要5秒
不管这个单词简单还是难,都要花同样的时间

2、Patch的方式(BLT的新方法):

像是一个聪明的读者,会根据内容难度调整阅读速度
同样的句子:"The quick" (简单) | "brown" (需要注意) | "fox jumps" (简单)
简单的部分快速扫过(0.5秒)
难的部分多花时间(1.5秒)
总共可能只需要3秒

3、更形象的比喻:

Token就像是用尺子把面包切成固定大小的片
Patch就像是根据面包的馅料分布,有的地方切得厚一些,有的地方切得薄一些

计算注意力就像是:

Token:每个单词都要和其他单词打招呼,很耗时
Patch:
先让相近的字母互相认识(小组内交流)
再让不同的组之间交流(组长开会)
最后把讨论的结果告诉每个字母(传达信息)

4、这样设计的好处是:

处理简单内容时更快(像是快速扫过"the"这样的常见词)
对复杂内容投入更多注意力(像是仔细阅读专有名词)
整体上节省了时间和计算资源

这也像是一个有经验的老师:

不是对每个学生花完全相同的时间
而是根据学生的需求来分配辅导时间
既保证了教学质量,又提高了效率

以下是我用Claude做的一个TED式解读,供参考:
***
标题:《字节外科手术:重新思考大语言模型的构建之道》

尊敬的各位同行,今天我想和大家分享一项来自Meta的创新研究,这项工作让我们重新思考了大语言模型的基础构建方式。

在过去几年,我们见证了大语言模型的飞速发展。然而,在这些模型的设计中,有一个基础环节始终显得格格不入 - 那就是分词器。

虽然模型架构已经实现了端到端的训练,但分词过程仍然依赖于启发式的预处理步骤。这种割裂导致了领域敏感性、噪声敏感性等诸多问题。

今天要分享的这篇论文题为《Byte Latent Transformer: Patches Scale Better Than Tokens》(地址:ai.meta.com/research/publications/byte-latent-transformer-patches-scale-better-than-tokens/),由Meta AI研究院的Artidoro Pagnoni等人完成,发表于2024年12月。

这项工作首次展示了一个能够在规模化层面上匹配基于分词的模型性能,同时在推理效率和鲁棒性方面取得显著提升的字节级架构。

这个被称为BLT的架构的核心创新在于其动态分组机制。它不再依赖固定的词表,而是基于下一个字节的熵来动态分配计算资源。

简单来说,当模型需要预测一个单词的开头时,这通常是一个高熵决策,需要更多计算资源;而预测单词结尾这样的低熵决策则可以更高效地处理。

在技术实现上,BLT包含三个转换器模块:两个轻量级的字节级本地模型和一个大型的全局潜在转换器。

通过熵估计进行动态分组,BLT可以在保持同样推理成本的情况下,同时增加模型规模和patch大小。研究团队在高达8B参数、4T训练字节的规模下进行了首个受控扩展研究,证明了这种方法的可行性。

从性能表现来看,BLT在多个关键指标上都展现出了令人印象深刻的结果。它不仅能够匹配Llama 3的训练性能,还能在推理时节省高达50%的计算量。特别是在处理长尾数据时,BLT表现出了更强的鲁棒性和更好的字符级理解能力。

但我们也要看到这项技术的局限性。首先,现有的转换器库和代码库都是为基于分词器的架构优化的,这意味着BLT在实际运行时可能需要更多的优化工作。其次,该架构的最佳参数配比可能需要进一步研究,特别是在更大规模下。

总的来说,BLT代表了一种全新的思路,它展示了在不依赖固定词表的情况下,如何构建高效且鲁棒的大语言模型。

这不仅是技术上的突破,更为语言模型的未来发展提供了新的可能性。正如论文作者所说,这是迈向更高效、更适应性强的语言模型的重要一步。