专栏名称: 阿里开发者

阿里巴巴官方技术号，关于阿里的技术创新均将呈现于此

以史为鉴，未雨绸缪：身处“大模型掀起的AI浪潮中”的感悟和思考

阿里开发者 · 公众号 · 科技公司 · 2025-02-10 08:29

正文

阿里妹导读

本文旨在帮助读者更深入地理解大模型和AI技术，重点介绍关键技术革新的背景与影响，特别是本次大模型时代和新一轮AI浪潮的推动因素与发展历程。

前言

大模型和AI毫无疑问是近几年最热的话题和方向。生成式AI在2024年的全球市场规模已经超5000亿美元，预计在2030年前有望为全球经济贡献7万亿美元的价值，中国则有望贡献约2万亿美元。OpenAI作为大语言模型技术的重要推动者，引领了本次技术变革。在2022年11月上线的ChatGPT引爆全球，影响力度大到国家战略层面，小到改变了个体的工作模式。近两年，为了追赶业界最先进的大模型，国内在大模型行业呈现出“百模大战”的竞争格局，通义千问、DeepSeek和豆包等等。毫无疑问，大模型以“威力之巨大，范围之广泛”的影响力再次掀起了AI的浪潮。 未来，AI必然会颠覆性地改变甚至替代某些行业。我也坚信AI取代不了人，但懂AI的人势必更具竞争力。 本文的动机是希望能够帮助小伙伴们对大模型和AI有更深刻的了解。主要包括，了解关键技术革新的前因后果，尤其是本次大模型时代对再次AI的浪潮。正确看待大模型，没有万能的技术和模型，只有了解大模型的优势和弊端，才能知道如何更好地落地应用。同时也了解下目前大模型在各行各业的落地案例及其遇到的问题。2030年回头来看这篇文章，说不定工作模式已经发生了很大的改变，儿时的科幻画面已成现实。希望未来的我们成为 能够驾驭AI的人，让AI释放人类更多的时间和精力去做更具有意义的事情。

写这篇文章的动机

希望能够帮助小伙伴们对大模型和AI有更深刻的了解。主要包括，了解关键技术革新的前因后果，尤其是本次大模型时代对再次AI的浪潮。正确看待大模型，没有万能的技术和模型，只有了解大模型的优势和弊端，才能知道如何更好地落地应用。同时也了解下目前大模型在各行各业的落地案例及其遇到的问题。值得说明的是，本文引用的图片来源都整理在文末的参考文献了。本文的章节组织如下：

第1节的引言主要从“全球、国内和身边”等视角表达“大模型时代再次掀起的AI浪潮，威力很大，范围很广”。个人的感悟是“我们应该拥抱大模型技术，取其精华并知其弊端，注重沉淀AI不可替代的经验和能力”。
第2节主要围绕“百模大战和大模型理论知识展开介绍”，本节尽量介绍一些通俗易懂的概念，帮助大家了解大模型到底是什么、支撑大模型发展的核心技术是什么、大模型并不等于AI，那它们的关系又是什么？
第3节将结合在AICON的现场参会经历，介绍大模型在各技术域的实践案例。包括大模型在搜广推能否带来范式性的革新，大模型实际落地所面临的安全性和可控性等问题，面向大模型的向量化数据库，大模型在诸如PPT等办公提效方面的落地案例等。
第4节作为Call Back主要总结个人的感悟和思考。一句话概括就是，“对大模型时代掀起的AI浪潮是充满期待，积极参与了解AI的优势和弊端，紧跟本次全球性的前沿技术风暴”。
第5节总结了参考文献，按小标题各取所需，包括综述类文章、大模型Tech Report、大模型排行榜、相关技术的发展史等。

一、引言

从全球的视角看AI。 早在20世纪50年代，香农和图灵先后提出的计算机博弈和图灵测试，让机器产生智能这一想法开始进入人们的视野。如下图所示，人工智能技术历经数十年掀起了四次技术革新，分别是“专家系统时代、机器学习时代、深度学习时代和大模型时代”。深度学习时代的爆发期在2012~2017年，这段时间横跨了我的本科和硕士阶段。印象特别深刻的是学校一半以上的实验室都开始转向深度学习相关的研究，着手购买GPU显卡。从搭建caffe环境开始，到复现各种深度模型，再到应用在学术或者工业界数据集做实验。当时，有不少机器学习研究者并不奉承深度学习，甚至嗤之以鼻。他们认为深度学习是一种通过堆叠算力和数据的暴力建模方式。但不可否认的是，深度学习在效率和潜力方面都具有突破性的提升。2012年，Hinton等人提出AlexNet深度模型在ImageNet图像识别比赛碾压第二名（传统机器学习SVM方法）的分类性能，业界迅速从模型深度和广度视角提出了各种版本的深度模型，在很多领域都取得了显著的效果。就个人而言，我也是从传统机器学习时代过渡到深度学习时代的人，前者大部分精力在研究各种手工算子和特征工程，后者直接通过端到端的训练方式替代甚至远超前者。以史为鉴，本轮从深度学习时代过渡到大模型时代必然也会发生巨大改变（程度甚至远超以往），我认为 “每次技术革新必然是在某些方面取得了突破性的效果，但也必然引发一些新的问题。我们应该拥抱新技术，取其精华并知其弊端，不断微调自身并沉淀那些机器不可替代的经验和能力”。往长远去想，如果机器真的能够替代人类大量危险、繁杂和无意义的事情，让人类有更多的时间去创新和享受生活，岂不美哉。

人工智能技术的前三个阶段由于数据、算力、场景落地和投资回报等方面的原因未能形成AI产业的商业闭环。第四个阶段基于大模型通用性、涌现性和强计算能力，大模型时代有望形成商业闭环。从身边的环境变化来看，无论是资本对AI领域的投入，还是各大厂对大模型相关技术的资源和迭代频率，甚至是大模型岗位的需求和待遇，都足以可见 “全球对大模型赋能AI及其商业化具有很高的期待，未来很多事情都会围绕AI展开”。

从国内的视角看AI。 2024年12月中旬，我去北京参加了AICON会议（全球人工智能与机器学习技术大会，聚焦大模型训练与推理、AI agent、RAG、多模态大模型等热门方向）， 让我再次深入感受到大模型对各行各业的影响，有一种再不参与大模型就有可能跟不上时代前沿的危机感。 本次会议总共约75个课题分享，讲师包括算法、工程、数科和产品等职位。课题具体包括：大模型+数据课题9个，大模型+加速&优化课题8个，大模型+搜广推2个，大模型+实际落地案例30+个（包括适配大模型的工程架构升级），大模型+商业化探索8个（包括落地的成本和安全性）。如下图所示，大模型和生成式AI是本年度最热的搜索词，以ChatGPT为首的大语言模型已经成为很多人的辅助工具（甚至有不少私人和企业的产业链在租用大模型服务），再加上近两年国内愈发激烈的百模大战，再次佐证了大模型时代的影响力。

从身边的视角看AI。 阿里巴巴集团CEO吴泳铭也明确提到：“电商业务和AI科技是集团最关键的发展方向。AI方面，我们将持续加大投入，推动以AI为动力的生产力革命，完善AI基础设施和配套支撑体系，坚持开源开放，在toB和toC领域持续的投入AI的产品研发，把握住AI时代的机遇”。大模型掀起的AI浪潮是以技术驱动的创新，作为技术从业者我们为此感觉到激动。但AI在电商领域具体以什么样的产品模式、能够为哪些方面带来突破性的革新仍是未知数。我相信已经有不少同事在各自的领域不断地探索和尝试，沉淀宝贵的落地经验。

二、大模型基础知识

2.1. 大模型是什么？

大模型的定义。 大模型（Large Model，也称基础模型，即Foundation Model）本质上是一个使用海量数据训练而成的深度神经网络模型，通过巨大的数据和参数规模实现了智能的涌现，展现出类似人类的智能（例如，自然语言处理、计算机视觉、语音识别等能力）。如下图所示，模型参数从2022年飞速提升，从百亿到十万亿的参数量，并且大部分是稠密型的dense类特征。要训练如此庞大的模型，需要海量的数据和算力（Money is all u need）。这也是近几年英伟达迅猛发展的主要原因，未来的算力将成为类似水电等基建。目前的大模型主要包括语言大模型、视觉大模型和多模态大模型。

大模型和小模型的区别。 小模型通常指参数较少、层数较浅的模型，它们具有轻量级、高效率、易于部署等优点，适用于数据量较小、计算资源有限的场景。而当模型的训练数据和参数不断扩大，直到达到一定的临界规模后，其表现出了一些未能预测的、更复杂的能力和特性，模型能够从原始训练数据中自动学习并发现新的、更高层次的特征和模式，这种能力被称为 “涌现能力” 。具备涌现能力的机器学习模型就被认为是独立意义上的大模型，这也是其和小模型最大意义上的区别。下表给出了大模型和小模型在某些维度上的差异，核心就是小模型能处理任务明确的场景，但类似通用型人工智能等复杂开放的场景只能依赖大模型。

大模型的缩放法则（Scaling Law）和涌现性（Emergent Ability）。 大模型的缩放法则和涌现性与AGI的发展息息相关。如下图所示， 缩放法则 是指随着模型规模逐步放大，任务的表现越来越好；如下图所示， 涌现性 是指随着模型的规模增长，当规模跨过一定阈值，对某类任务的效果会出现突然的性能增长，涌现出新的能力。当全部人类的知识被存储在大模型中，这些知识被动态连接起来时，其所具有的智能远超人们预期。

大模型与AI的关系：大模型不等于AI。 大模型是人工智能发展的一个重要方向，它们代表了当前AI技术的前沿。随着计算能力的提升和数据量的增加，大模型在多个领域的应用越来越广泛。 但大模型并非AI的全部， AI还包括许多其他技术和方法，如传统机器学习、增强学习等。生成式AI是大模型的核心方向，近几年诸如ChatGPT等火热的大模型都属于生成式大模型。总之，大模型的出现和发展推动了AI技术的进步，但同时也带来了新的挑战和问题，需要科研人员、政策制定者和社会各界共同努力解决。

2.2. 百模大战

**说明：本节主要参考亿欧智库的分析报告

百模大战是什么？ 2022年12月ChatGPT-3.5的发布引发了全球范围内对大模型的广泛关注。2023年2月，国内复旦和北大等高校率先发布大模型产品。2023年3月，以百度、阿里、360和商汤等为代表的企业陆续推出各自的大模型，2023年6月开始国内通现出众多的通用大模型和垂直大模型。截止2024年2月，国内公布的大模型数量已超过300个，市场竞争激烈，大模型行业呈现出“百模大战”的竞争格局。

引发百模大战的核心原因是什么？ 从技术的角度来看，如引言所述，大模型时代引发的AI浪潮有望形成商业闭环，因此基于技术可行性和未来巨大想象空间，众多企业和机构涌入大模型赛道，都想抓住AI的机遇。从企业长远发展来看，通用大模型经历爆发期，市场同质化竞争严重，资源、技术、人才能够落地能力成为厂商迈向下一阶段的核心竞争力。如下图所示，预计2025-2026年市场逐渐趋于清晰，优质企业坚守战场，剩余企业陆续退出竞争。2027-2028年预计通用大模型市场将出现头部竞争， 约3-5家厂商的大模型将成为中国大模型生态的底座。

国内大模型在全球范围内已具有一战之力，但仍任重道远。 如下图所示，聊天机器人竞技场是一个开源平台，通过人类偏好评估 AI，旨在使用布拉德利-特里模型生成实时排行榜。截止2024年12月份，幻方量化旗下的DeepSeek-v2.5和阿里的Qwen2.5-plus版本在全球并列排名11。谷歌和OpenAI霸榜top10，据说他们还有很多更牛的版本还未发布，国内大模型仍任重道远。补充：DeepSeek-V3在2024年12月底正式发布，核心亮点包括：1）性能对齐海外领军闭源模型；2）生成速度从20TPS大幅提高至60TPS，提升至3倍；3）API服务价格调整，每百万输入tokens 0.5 元（缓存命中）/ 2 元（缓存未命中），每百万输出 tokens 8 元。

2.3. 大模型理论知识：

人类主要使用语言进行表达与交流。为了使计算机能够与人类进行有效交流，科研人员一直致力于研发具有类人语言能力的人工智能算法，使之能够掌握以自然语言形式进行沟通与交流。让机器拥有像人类一样阅读、理解、写作和交流的能力。语言模型是提升机器语言智能的主要技术途径之一，本节主要以大语言模型为例介绍相关的概念和核心技术。除了大语言模型以外，还有视觉大模型和多模态大模型等方向，核心思路都能互相借鉴。但最终想要实现通用型人工智能（AGI），多模态大模型是必经之路。

如下图所示，根据个人理解的视角，整理了大模型理论学习知识的路线。就好像一个刚出生的婴儿，到中学时期都在学习通用知识和能力。到了大学时期，开始选择专业并在该领域内不断学习和调整，在满足人类世界观和道德观的基础上成为业界专家，并为社会做出力所能及的贡献。本节抛开数学和公式相关部分，感兴趣的小伙伴可以前往参考文献中精读《大语言模型综述》。

2.3.1. 语言模型的发展历程

语言模型旨在对于人类语言的内在规律进行建模，从而准确预测词序列中未来(或缺失)词或词元(Token)的概率。根据所采用技术方法的不同，语言模型的研究工作可以分为四个主要发展阶段。如下图所示，通过任务求解能力的角度对比了四代语言模型所表现出的能力优势与局限性，可见在语言模型的演化过程中，能够解决的任务范围得到了极大扩展，所获得的任务性能得到了显著提高，这是人工智能历史上的一次重要进步。

2.3.2. 通用大模型：预训练技术

2.3.2.1. 预训练数据集：

与早期的预训练语言模型相比，大语言模型需要更多的训练数据，这些数据需要涵盖广泛的内容范围。多领域、多源化的训练数据可以帮助大模型更加全面地学习真实世界的语言与知识，从而提高其通用性和准确性。如下图左表给出了目前常用于训练大语言模型的代表性数据集合。根据其内容类型进行分类，这些语料库可以划分为：网页、书籍、维基百科、代码以及混合型数据集。从下图给出的图示看到，绝大多数的大语言模型都选用了网页、书籍和对话文本等通用语料作为预训练数据。这些通用语料涵盖了多个主题类别的文本内容。

2.3.2.2. 预训练方法：

预训练是研发大语言模型的第一个训练阶段，也是最为重要的一个阶段。有效的预训练能够为大语言模型的能力奠定坚实的基础：通过在大规模语料上进行预训练，大语言模型可以获得通用的语言理解与生成能力，掌握较为广泛的世界知识，具备解决众多下游任务的性能潜力。在这一过程中，预训练语料的规模和质量对于提升大语言模型的能力至关重要。在进行模型的大规模预训练时，往往需要设计合适的自监督预训练任务，使得模型能够从海量无标注数据中学习到广泛的语义知识与世界知识。目前，常用的预训练任务主要分为三类，包括语言建模、去噪自编码以及混合去噪器。此外，《大语言模型综述》还介绍了模型参数量计算与效率分析，这部分能够帮助一线的研发同学计算大模型的参数量、运算量、训练时间和所需显存等数据，此处不展开赘述。

2.3.3. 通用大模型：主流的大模型结构

2.3.3.1. Transformer：

当前主流的大语言模型都基于Transformer模型进行设计的。Transformer是由多层的多头自注意力（Multi-head Self-attention）模块堆叠而成的神经网络模型。原始的Transformer模型由编码器和解码器两个部分构成，而这两个部分实际上可以独立使用，例如基于编码器架构的BERT模型和解码器架构的GPT模型。具体地，如下图所示，Transformer主要由三个关键组件组成，包括：Embedding（文本输入被划分为更小的单元，称为标记，可以是单词或子词。这些标记被转换为称为嵌入向量的数字向量，用于捕获单词的语义）、Transformer Block（处理和转换输入数据的模型，核心是attention机制）和Output Probabilities（最终的线性层和 softmax 层将处理的嵌入转换为概率，使模型能够预测序列中的下一个标记）。

介绍具体的原理之前，先安利一款名为 Transformer Explainer 的可视化开源工具，由佐治亚理工学院和IBM研究员联合开发，它能有效地帮助用户理解Transformer模型的复杂结构以及背后的数学运算。如下图所示，首先输入词经过embedding层得到对应的数字化向量X，然后对每个词向量xi∈X都经过如图中的Attention(Q,K,V)公式计算更新词向量。以self attention为例，每个词向量与其他词向量都进行attention计算后得到新的向量，从而能够有效地捕捉上下文信息，使得每个词的表示不仅与它自身的特征有关，还与它周围词语的特征相关联。目前，主流的搜广推模型中，multi-head target attention是对用户行为序列处理非常重要的技术，也是众多消融实验中效果最好的模块。

2.3.3.2. 大模型结构：

解码器架构。 在预训练语言模型时代，自然语言处理领域广泛采用了预训练+微调的范式，并诞生了以BERT为代表的编码器（Encoder-only）架构、以GPT为代表的解码器（Decoder-only）架构、以T5为代表的编码器-解码器（Encoder-decoder）架构的大规模预训练语言模型。 随着GPT系列模型的成功发展，当前自然语言处理领域走向了生成式大语言模型的道路，解码器架构已经成为了目前大语言模型的主流架构。 进一步，解码器架构还可以细分为两个变种架构，包括因果解码器（Causal Decoder）和前缀解码器（Prefix Decoder）。值得注意的是，学术界所提到解码器架构时，通常指的都是因果解码器架构。下图针对这三种架构进行了对比。其中，蓝色、绿色、黄色和灰色的圆角矩形分别表示前缀词元之间的注意力、前缀词元和目标词元之间的注意力、目标词元之间的注意力以及掩码注意力。

2.3.4. 领域大模型：高效微调技术（PEFT）

由于大语言模型的参数量巨大，进行全参数微调需要较多的算力资源开销。在现有文献中，参数高效微调是一个重要的研究方向，旨在减少需要训练的模型参数量，同时保证微调后的模型性能能够与全量微调的表现相媲美。同时，以低秩适配微调方法（LoRA）为例的PEFT也是目前工业界常用的技术。本节主要围绕LoRA展开介绍，其他诸如“适配器微调 Adapter Tuning、前缀微调 Prefix Tuning、提示微调 P-tuning v1&v2”等PEFT方法详见《大语言模型综述》。

LoRA的计算原理。和其它串行的适配器算法不同，LoRA的做法如下图(左)所示，在LLM的某些矩阵（

）旁插入一个和它并行的新的权值矩阵

。但是因为模型的低秩性的存在，我们可以将ΔW拆分成降维矩阵

和升维矩阵

。 其中 r≪min(hxh) ，从而实现了以极小的参数数量训练LLM。在训练时，我们将LLM的参数固定，只训练矩阵 A和B。

如下式所示，在模型训练完成之后，我们可以直接将A和B加到原参数上，从而在推理时不会产生额外的推理时延。在初始化时，A使用高斯初始化，B使用的零矩阵 0进行的初始化。因为r通常是一个非常小的值，所以LoRA在训练时引入的参数量是非常小的，因此它的训练也是非常高效的，也不会带来显著的显存增加。LoRA要求A或者B其中之一必须使用零矩阵进行初始化，这样当数据第一次通过网络时，它和预训练的结果是一致的，这样便保证了模型在初始阶段便有一个不错的效果。

2.3.4.1. RAG（Retrieval-Augmented Generation，检索增强生成）vs Fine-tuning

检索增强生成（Retrieval-Augmented Generation，RAG）指的是在LLM回答问题之前从外部知识库中检索相关信息，RAG有效地将LLM的参数化知识与非参数化的外部知识库结合起来，使其成为实现大型语言模型的最重要方法之一。本节重点讨论RAG和Fine-tuning的关系。

RAG像是一个会查资料的助手，RAG=搜索+LLM提示。 RAG要求模型回答查询，并提供通过搜索算法找到的信息作为上下文，查询和检索到的上下文都被注入到发送给 LLM 的提示中。如下图所示，RAG能够避免模型幻觉、提高答案准确性。但同时也依赖外部数据的质量，增加了复杂度和资源等问题。 Fine-tuning像是一个在特定领域里经过深造的专家 ，通过在特定领域进行二次训练的方式更好地完成特定任务。

选择RAG还是Fine-tuning？ 当需要访问外部数据源时，RAG更适合。当需要修改模型的行为、写作风格或特定领域的知识时，Fine-tuning更适合。但如果将RAG和Fine-tuning结合起来会达到更好的效果，就像给这个既聪明又有强大资料库的助手进行针对性的训练。他会先学习如何使用资料库，然后针对特定任务进行练习，学习如何将资料库中的知识应用到实际任务中，成为该领域的资深专家。

2.3.5. 人类对齐：RLHF技术分解

为了加强大语言模型与人类价值观的一致性，基于人类反馈的强化学习旨在利用收集到的人类反馈数据指导大语言模型进行微调，从而使得大语言模型在多个标准（例如有用性、诚实性和无害性）上实现与人类的对齐。RLHF 首先需要收集人类对于不同模型输出的偏好，然后使用收集到的人类反馈数据训练奖励模型，最后基于奖励模型使用强化学习算法微调大语言模型。如下图所示，RLHF算法系统主要包括三个关键组成部分：预训练模型、奖励模型和强化学习算法。

2.3.6. 提示学习

经过预训练、指令微调、人类对齐和提示学习后，我们接下来讨论如何通过提示学习方法来有效地使用大语言模型解决实际任务。目前常用的方法是设计合适的提示 (Prompting)，通过自然语言接口与大模型进行交互。在现有研究中，任务提示的设计主要依靠人工设计和自动优化两种策略来实现。为了更好地解决未见过的任务，一种典型的提示方法是上下文学习，它将任务描述与示例以自然语言文本形式加入到提示中。此外，思维链提示作为一种增强技术，将一系列中间推理步骤加入到提示中，以增强复杂推理任务的解决效果。

提示工程（Prompt Engineering）。下图给出了Prompt的核心要素。这些要素并不是每个 Prompt 都必须包含的，但根据特定的需求和上下文，合适地结合这些要素可以提高LLM生成的文本质量和相关性。 Prompt 是大部分。此外，这里推荐一个 Prompt评分工具，它能够从多个维度为你提供的 Prompt 提示词进行评分并给出建议。

https://alsc-info-ai.alibaba.net/workflow/bqSk2eNoRuqzXhSo

思维链（Chain-of-Thought，CoT）。从文科生到文理兼备的升华。OpenAI的ChatGPT4及其之前的版本都属于“快思考模式”，强调知识的学习、检索、生成问题和对话的能力。GPT-o系列版本开始引入“慢思考模式”，转向逻辑思维链，通过多步&复杂的推理来解决更难的问题，这才是人的智力精华所在。通过让大模型逐步参与将一个复杂问题分解为一步步的子问题并依次进行求解的过程可以显著提升大模型的性能，这一系列推理的中间步骤就被称为 思维链 。区别于传统的Prompt从输入直接到输出的映射 output> 的方式，CoT完成了从输入到思维链再到输出的映射，即 reasoning chain->output>。

2.3.7. 模型压缩

通过预训练、高效微调和RLHF等技术，我们已经得到了一个能力强大，具备较强的指令遵循能力使其能够胜任众多下游任务，同时也保证了人类价值观和社会伦理的基本准则，已经迫不及待想上线感受一番。但此时的大模型因其参数量巨大，在解码阶段（指在自回归架构中，大模型针对输入内容逐个单词生成输出内容的过程）需要占用大量的显存资源，在实际应用中的部署代价非常高。举个例子，以GPT-175B模型拥有1750亿参数，至少需要320GB的半精度（FP16）格式存储空间。此外，为了有效管理操作，部署该模型进行推理至少需要五个A100 GPU，每个GPU配备80GB内存。因此，我们需要通过一些模型压缩方法来减少大模型的显存占用，从而使得能够在资源有限的环境下使用大模型。首篇大模型压缩综述《A Survey on Model Compression for Large Language Models》给出了如下图所示的四类大模型压缩方法，包括：剪枝、知识蒸馏、量化和低秩分解等。

2.3.8. Agent 智能体：

AI Agent是人工智能技术的集大成者（包含上述提到的所有能力），其能力涵盖感知、推理、交互和行动。它是一种能够感知环境、决策制定及动作执行能力的自主算法系统。这些系统能够执行被动的任务，也能够主动寻找解决问题的方法，适应环境的变化，并在没有人类直接干预的情况下做出决策。如下图所示，钢铁侠的贾维斯就是一款理想型的超级智能体，能够理解自然语言、处理复杂的数据、进行自主决策，并与钢铁侠的战甲和其他设备进行无缝协作。它不仅能够执行主人的命令，还能够学习和适应，表现出高度的智能和情感理解。在许多科幻作品中，像贾维斯这样的人工智能通常超越了现有技术的发展水平，展示了理想化的人工智能能力。大胆想象下，如果在未来人均一个贾维斯，那该是个什么样子的社会水平。

三、大模型的实践案例

大模型+推荐的故事得从Meta这篇论文开始讲起《Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations》。Meta团队认为大规模推荐系统的特点在于依赖于高基数、异构的特征，以及每天处理数十亿的用户行为。尽管这些模型在具有数千个特征的大量数据上进行训练，但大多数行业中的深度学习推荐模型（DLRMs）在计算能力方面无法扩展。受到Transformer在语言和视觉领域成功的启发，他们重新审视了推荐系统的基本设计选择。紧接着，他们将推荐问题重新表述为生成建模框架内的顺序转换任务，并提出了一种新架构HSTU，旨在处理高基数、非平稳流式推荐数据。HSTU在合成数据和公共数据集上的NDCG指标上比基线提高了最多65.8%，并且在长度为8192的序列上比Transformer快5.3到15.2倍。更重要的是，生成式推荐器的模型质量在三个数量级的训练计算量上经验上呈幂律增长，达到GPT-3/LLaMa-2的规模，这减少了未来模型开发所需的碳足迹，并为进一步建立推荐领域的基础模型铺平了道路。