模型角度:基础模型是应用的根本,垂类模型、端侧模型加速应用过程
应用产品的爆发一定是在技术水平突破到一定程度上时产生的,本质是用户对于产品力的认可。本次ChatGPT产品背后175B版本模型是2020年诞生的,InstructGPT也是2021年诞生的。但是并没有引起如此广泛的关注。应用的“爆点”常常晚于技术的“爆点”。基于GenAI的爆款应用或许已经不远。
遵循Scaling law的规律提升基础模型的能力是确定性最高的方向。Scaling law可以类比为AI领域的“摩尔定律”,投入更多算力、获得更强模型的经验规律依旧指引着基础模型发展的方向。
除扩大训练和模型规模的途径,MoE等架构也能大幅提升模型的可用性。MoE混合专家模型架构就能够大大提升模型的“宽度”而非“深度”,大大降低推理时的算力消耗,降低应用门槛。
行业垂类模型的开发也能够加速行业应用的落地。通过在特定的领域或行业中经过训练和优化,垂类模型更专注于某个特定领域的知识和技能,具备更高的领域专业性和实用性,加速行业应用落地。
数据角度:贴近上游(数据)的公司更为受益,数据是规模效应的体现
人工智能正在经历模型为中心向数据为中心的范式转变。
以模型为中心的AI(Model-Centric AI):更关注选择模型类型、架构及超参数等方面,通过改进模型来提升AI的表现效果。但随着相关理论的成熟,模型在固定数据集上的表现逐渐趋于稳定,而针对复杂世界中的真实数据集,改进模型对提升表现的帮助也并不大。
以数据为中心的AI(Data-Centric AI):更关注数据的系统设计和工程化,通过改进数据集来提升AI的表现效果。实际这种AI常常保持模型固定,通过提高数据的质量和数量来实现性能的提高。对于机器学习而言,通过下游任务的表现可以很容易对数据集质量进行量化评估,有利于提升模型表现的可解释性。
虽然以GPT为代表的Transformer架构模型已经成为了当下的主流,但针对模型的创新仍在继续。以模型为中心和以数据为中心的范式将相互推动,共同提升模型的效果。
长远看,高质量的数据资源将形成“数据飞轮”效应,逐渐构成人工智能应用的核心竞争力。
“飞轮效应”,是指想推动静止的飞轮转起来,开始需要耗费较大力气,但当转速到达临界点,只需稍微用力,飞轮就可加速转动。对于AI公司而言,通过高质量的独家数据能够训练出表现更佳的AI模型,通过模型的应用又能获得更多高质量的数据,形成良性循环。
合成数据作为增强数据的方法,未来应用将会更加广泛。自动驾驶、医疗等领域应用层公司有望大规模采用合成数据,加速产品商业化应用。
如今数据集的质量对模型的表现起到越来越大的决定因素,但对于很多问题,现实世界中收集到的数据不能满足模型的训练需求,很多数据甚至无法在现实中搜集。对此类问题,采用合成数据是有效的解决方法。
合成数据(synthetic data)就是通过计算机技术生成的数据,而不是由真实事件产生的数据。这些合成数据具备“可用性”,能够在数学上或统计学上反映原始数据的属性,因此可以用来训练、测试并验证模型。
使用恰当合成数据训练的模型效果可以大幅提升。OpenAI的DALL•E 3和Sora模型就使用了合成数据的方法,大幅提升了训练数据质量并改善了模型表现。通过分别训练简短和详尽的文本生成器,生成了前代模型训练集中对图像的文本描述,并用来训练新版本的模型。这种方式取得了极大的模型效果提升。
自动驾驶领域广泛运用合成数据。自动驾驶面临很多长尾(Long Tail)场景。这些场景的发生的概率非常低,自动驾驶算法无法对其进行有效的识别和决策,一旦发生对驾驶安全会产生非常大的威胁。因此在现实中收集长尾场景对模型进行训练是不安全且不现实的。
通过运用模拟器合成数据,可以改善算法在长尾问题中的表现。首先对现有模型进行评估,再使用模拟器模拟算法失效的案例,并使用ML算法合成类似场景的图片加入训练集再次训练。如此反复后,算法应对类似场景的能力将能够显著提升。
用户角度:B端关注替代/提效等功能场景,C端关注产品力
B端客户关注能够直接带来效率提升和人力成本替代的应用。
对于B端客户而言,短期看直接带来提效和人力成本替代的应用是最有效的场景,长期看能够直接帮助企业创收的应用会拥有更多发展空间。
B端可以关注以Microsoft 365 Copilot等代表产品的商业化落地节奏。Microsoft 365 Copilot的定价为$30每月,且需要企业用户在Microsoft 365 E3、E5或Office 365 E3、E5订阅计划的基础上进行订阅选择。即使是针对相对昂贵的Microsoft 365方案,Copilot的订阅价格涨幅也分别达到了83%和79%。
C端应用短期用户是技术爱好者,长期还需有颠覆性产品力。
C端需要基于创造性和颠覆性的场景,应用本身的产品力需要足够强大且受众足够广泛。C端应用规律可能更类似与互联网时代,产品力需要足够强大。以引发用户关注的Pika为例,仅仅是AI原生的视频生成效果就形成了强大的传播效应。
模态角度:多模态是必然趋势,垂类模型促进应用
深度学习逐渐向多模态学习迈进,针对多模态的应用也处在早期开发阶段。通用的AI Agent需要和真实世界交互,处理感知数据是必然需要的能力。
从模型本身的发展角度看,单一模态的数据量是有限的。在获取一定数据量之后,仅仅是引入代码数据就能让NLP模型的数学能力大幅提升一样,多模态的数据也可能为单一模态任务带来大量的提升。
最重要的是,作为模态融合的基础,语言模型的能力已经达到了可用的程度,可以作为不同模态数据表示对齐的媒介。如OpenAI将GPT-4与DALL•E整合的方式就是先根据用户的提示使用GPT-4撰写更详细的提示,再调用DALL•E生成用户所需的图片内容。
2023年12月,Google发布的Gemini模型就是原生多模态大模型。其输入能够支持文本、语音、图片和视频,并且能够输出文本和图片。
2024年2月,OpenAI发布了视频生成大模型Sora。OpenAI通过将Transformer架构与Diffusion Model的训练思想相结合,利用强大的算力、工程能力以及GPT和DALL•E模型技术积累训练出了Sora,视频生成领域也拥有了类比“GPT时刻”的通用基础模型。随着OpenAI将这种具有开创性的技术路径走通,国内模型和应用厂商有望快速迭代出类Sora的视频生成模型和应用产品。
多模态应用与LLM应用类似,也将从原生应用出发,逐渐发展为更成熟可用的产品。从商业化应用节奏看,和文本结合的多模态任务落地节奏会更快,文生图任务已经逐渐达到了商用标准,文生视频也在快速突破中。
Adobe推出的Adobe Firefly是产品与多模态AI结合的代表性产品。Adobe拥有成熟的图片、视频等编辑产品,通过将AI的生成能力嵌入Photoshop等产品,可以帮助用户更好地完成对图片的二次创作。
在大模型迁移学习能力不足的背景下,垂类模型是增强“专才”能力的最有效途径。未来看,通用的超级应用最有可能诞生在通用的多模态LLM背景之下。
工程角度:系统将走向AI原生,GPTs标示应用开发的新方式
AI可能与系统深度耦合,软件应用将走向AI原生。现阶段的大模型能够帮助程序员提升效率,但依旧很难直接构建出可用的AI应用。未来的人工智能可能会先成为系统的部分组件,以增添或替换的方式与系统进行耦合。未来的软件系统可能会完全基于AI原生,系统内的所有组件都能够使用AI能力。
未来的软件将走向人工智能原生架构,并最终发展为整个的智能。随着AI技术的进步,在成本效益分析允许的情况下,应该能够在每个合适的场景使用AI。当下AI/ML模型被部署在特定的层次和领域内,随着演进的过程AI/ML模型开始跨领域部署,模型开始在不同的层次间共享和交流数据;未来模型生命周期管理跨领域实施,这意味着AI/ML模型及其管理变得更加集成和协调,数据驱动的基础设施将会贯穿整个架构,无论是跨层次还是跨领域,都可以灵活地共享数据和资源,实现智能化的优化和决策。
AGI将彻底改变人机交互的模式,也将改变基础软件的范式。
正如比尔盖茨预测的那样,AGI将颠覆软件行业,带来自键入命令到点击图标以来最大的计算革命。微软已经将Copilot功能集成在了Windows操作系统中,用户可以以自然语言对话的方式控制系统。以操作系统为代表的基础软件将与AI深度耦合。
OpenAI推出的GPTs是AI原生应用的一次尝试,支持完全无代码开发方式。
2023年11月,OpenAI举办了首届开发者大会。会上OpenAI发布了自定义功能GPTs,并搭配了GPT Builder工具用于协助用户完成自定义功能。用户无需掌握代码写法,只要结合指令、外部知识库和能力,就能够创建自定义版本的ChatGPT。用户还可以通过向GPT提供Zapier API来定制化自己的Action。
这种方式颠覆了传统的app开发流程:产品经理分析用户需求之后,与开发人员沟通,以专业编写代码的方式实现功能并进行多轮测试之后上线。应用的开发过程可能需要很长时间,也难以实现针对不同C端用户需求的定制化开发。
而GPTs的开发过程则是零门槛、由用户完成的过程。用户只需要与GPT Builder进行对话,就能够根据需要生成属于自己的GPTs。这个操作的过程可能只需要几分钟的时间。LLM直接承担了产品经理与开发者的角色,运用强大的自然语言处理能力与泛化能力直接完成了整个开发流程。GPTs的能力高度依从于基础模型的能力,且只能完成用户比较简单的需求,很难代替传统的软件开发过程。但随着模型能力的提升,这种定制化的边界也将有巨大的扩充潜力,这也将是产品化与定制化这一矛盾最有希望的解法。
GPT Store为代表的AI原生应用商店可能构建出新的平台生态。
在开发者大会上,OpenAI还推出了自己的“APP Store”——GPT Store。用户可以选择将自己的GPTs上传,OpenAI会根据访问次数等因素对GPTs进行排序,并开放给其他用户使用。未来GPTs的创造者也可以根据访问量收取一定费用。这是OpenAI建立自己平台生态与商业模式的一次尝试,不管是否能够成功,都将能够获得之前无法获得的私域数据(在默认情况下这些数据可以用于模型训练)。这些又将加入其“数据飞轮”中的一部分。即使最终无法变现,也能继续提升基础模型能力。
安全角度:涌现的大模型需要更多约束,安全必定伴生应用存在
安全问题主要涉及AI本身的安全性(内生安全问题)以及对于AI使用过程中的数据安全、网络安全(衍生安全问题)的监管。
针对内生安全问题,OpenAI正在研究通过AI监督AI的方式来保证未来超级人工智能的安全性。OpenAI在未来四年内将使用20%的计算资源在解决超级对齐(Superalignment)问题,用以引导和控制可能比人类聪明得多的人工智能系统。除此之外,可解释性的相关研究还需要近一步突破,这是解决人工智能应用安全的核心理论。
Anthropic通过建立宪法人工智能(Constitutional AI,CAI)模型的方式对AI进行约束。除传统的RLHF方式之外,Anthropic通过制定一系列的“宪法条款”来约束AI的行为。这些宪法借鉴了一系列来源,包括联合国人权宣言、信任和安全最佳实践、以及其他人工智能研究实验室提出的原则(例如来自 DeepMind的Sparrow Principle)。
Anthropic也对宪法的内容进行了一次公开的投票征集。参与者可以对现有规则(规范原则)进行投票,也可以添加自己的规则。大多数声明都达成了高度共识。未来随着AI能力持续提升,这种基于“宪法”的对齐可能会更加高效。
Anthropic参照ASL系统在预防灾难性风险和提升模型能力之间进行取舍。在2023年9月发布的RSP安全条款中,Anthropic定义了一个名为AI安全级别 (ASL) 的框架。如果他们的AI系统超出了遵守必要安全程序的能力,Anthropic可能会暂时暂停训练更强大的模型,并努力解决必要的安全问题。通过这种评级也能够在产品投放市场之前严格证明其安全性。
大模型的数据安全和网络安全监管同样重要。对企业而言应用LLM是会带来全新的安全挑战,由云计算平台或基础模型公司推出的安全服务或将更受欢迎。
Sora等模型的发布也让深度伪造(Deepfakes)问题成为了关注的焦点。这种技术能将视频中的脸孔替换成别人的脸孔,甚至创造出虚假的场景。当前有专家强调,实施有针对性的防御措施至关重要,这可能包括为人工智能生成的内容打上独特的标识符或“水印”,以便准确追踪信息源头,及时遏制虚假信息的传播。