随着AI技术逐步发展越过S曲线的第一拐点,AI的产业化或将以前所未有的速度推进。以人形机器人为代表的具身智能发展空间广阔。人们的消费习惯以及经济的产业结构都可能随着AI的产业化而得到重塑。AI作为强大的赋能工具有望增强中小企业的竞争力,但同时其接近“无限”的内容和服务供给能力也可能对现有市场带来冲击。
当前AI技术已经开始在诸多产业中得到应用。AI对互联网和传媒行业的效率提升作用尤为显著,商业化应用精彩纷呈,B端应用带来强大的内容生产能力,C端应用则带来创作的平权。AI在医疗健康产业中应用丰富,帮助医疗系统提效降本,但面临较多制度障碍和矛盾。AI技术有望促进高级别自动驾驶加速落地,重塑汽车产业的商业模式和竞争格局。家电产业属于非标准化场景且容错率低,虽然生成式AI和人形机器人给产业带来了富有想象力的前景,但目前仍有待技术成熟。
限制AI产业化的因素包括技术和制度两方面。在诸多值得期待的场景中,现有的AI技术尚未突破所需的效果阈值。制度因素则包括数据权益、版权、责任归属、伦理以及利益相关者的反对等诸多方面。在AI节约替代劳动的场景中,更容易产生限制AI的制度因素。综合看技术和制度两方面,AI在C端的应用推广相较B端会更慢也更难。
全球范围来看,美国在AI产业链和应用推广方面处于领先地位;印度等国家也在积极推广AI的产业应用。中国在AI技术和应用方面紧追美国,但产业生态尚不完善。为促进中国的AI产业化发展,政策或需适度放松监管,促进AI的消费应用。值得一提的是,人形机器人有望发展成为本轮AI技术进步落地的一个重要产业,而且具有高端制造业的属性。由于在制造业领域的产业链和规模优势,中国有望在人形机器人产业取得全球领先地位。
伴随着以ChatGPT为代表的生成式AI和大模型席卷全球,人们热切盼望AI能早日渗透应用到日常生产生活之中。乐观者认为AI的消费应用场景将在可预见的未来大量涌现,因为大模型让AI在不少常规任务上已经超过人的标准水平,对生产率的改善也有很多证据。Gartner公司认为2-5年内AI将进入商业化扩散阶段;Bloomberg公司预计未来十年生成式AI有望在软硬件、服务、广告、游戏等众多领域创造1.3万亿美元收入[1];本报告第三章估计,2024-2030年全球生成式AI硬件市场规模有望上涨到1.9万亿美元,大模型的市场规模可能达到1.2万亿美元。但保守者担忧AI的消费应用仍不成熟,面临技术和制度的强烈约束,难以落地;而且消费场景复杂多样,超出AI目前可预见的能力范围,同时存在不少伦理法规约束。
本章将聚焦于消费领域应用,系统地回答四个研究问题,以回应这些争论:第一,什么因素决定了AI技术的创新扩散(innovation diffusion)和商业化程度?第二,AI在消费产业内有哪些现实和潜在的应用?第三,未来AI应用推广有哪些阻碍因素?第四,相比其他大型经济体,中国在AI应用方面有什么优劣势?
之所以关注消费领域,是因为消费应用是AI技术发展的重要拉动力。回顾人类的技术发展史,需求对技术进步的作用举足轻重[2],消费正是需求的主要来源。消费市场通常竞争激烈,用户偏好多种多样;消费品的生命周期较短,技术迭代较快;而且消费场景复杂,对技术成熟度有较高的要求。这些都刺激了层出不穷的产品创新和质量提升。对于AI技术而言,互联网和游戏等消费类产业同样推动了其软硬件进步。在软件和算法方面,计算机科学早期就用玩游戏来测试算法,游戏被称为AI的“杀手级应用”[3]。DeepMind、动视暴雪等公司利用“星球大战”等游戏开发复杂问题的AI算法;棋类和Jeopardy游戏推动了机器学习、树搜索、知识图谱、自然语言处理等核心算法的进展;玩家之间的多模态交互对感知和互动算法及硬件设备不断提出新要求[4]。大批用户实时产生海量数据,也倒逼大数据处理技术进步。在硬件方面,游戏是高端显卡的主要应用场所,正是游戏玩家对高端显卡的旺盛需求支撑Nvidia公司研发出多款高性能的GPU,为其成为AI加速服务器的全球龙头奠定基础[5]。互联网电子商务和电竞游戏都要求IT基础设施满足高并发的商品浏览、交易执行、网络支付等功能需求,具备高可用、低时延的能力,这种需求倒逼了分布式IT架构和云计算的进步[6],云是AI算力硬件基础设施的核心部分。互联网行业还是中国AI加速服务器的最大销量来源,2022年贡献了中国AI加速器总销量的24%[7]。正是因为消费应用对AI发展重要,它的现状和前景才值得我们关注和深思。
一般来说,一个产业的市场增长符合S型曲线规律,会跨过两个拐点(图表5.1)。一开始,由于基础研究和技术路线探索不确定性大,产业处于萌芽期。技术路线清晰后,有更多参与者加入、更多用例出现,同时工艺进步显著,效率加快提高,产业越过曲线的第一个拐点,渗透率和市场规模进入高速增长期。最后,由于科学原理出现瓶颈、系统过于复杂、互补技术不完备等原因,新技术的效率进步开始放缓,产业越过第二个拐点,渗透率和市场规模都靠近天花板,产业进入成熟期[8]。
AI技术也不例外,诸多迹象表明这个产业已经跨越了第一个拐点,进入S曲线的高速成长期。2006年深度学习和2017年Transformer架构出现后,AI的主流技术路线基本形成,进入了大模型时代,吸引了越来越多的资本和创业者。模型训练算力(training compute)的增速扩大到每年0.5-0.7个数量级,而2015年前的增速仅为0.2-0.4个数量级[9],模型性能亦随之指数增长。与此同时,硬件的摩尔定律尚未失效,根据Epoch AI研究,芯片性能(FLOP/s)和单位价格所能买到的算力(FLOP/s per dollar)平均每2-3年增长一倍,DRAM内存和带宽平均4年增长一倍[10]。2024-2030年间全球AI硬件市场规模年复合增速有望超过30%(本报告第三章)。
为了在特定场景内应用,AI技术的效率首先要突破效果阈值,让它“能用”,满足用户的基本效用,这样才能在该场景下开始商业化。不过此时,新技术的成本可能很高,只有少部分用户愿意付出较高溢价来尝鲜试用,市场还处于商业化早期。随着应用规模扩大和技术进步,当技术成本足够低而用户效用足够高时,技术突破了成本阈值,变得“能负担”,大量用户有了支付意愿,它才能规模化扩散(图表5.2)。
资料来源:Our World in Data,中金研究院
图表5.2:技术商用和扩散须生产率突破“双重阈值”
跨过第一拐点后,随着市场规模扩大、技术继续进步,未来AI的能力将不断提升、成本下降,在更多应用场景里突破效果和成本阈值,其扩散速度和规模可能创历史,比过去所有通用目的技术(general purpose technology)都要快。第一,随着现代信息传播速度增加,更多国家的人能在短时间内知道新技术,导致
通用目的技术
的传播越来越快(图表5.1)。现在生成式AI的扩散速度更为惊人。ChatGPT一诞生就被世界广为知晓,2个月内触达1亿用户。但这个记录已经被Meta公司旗下聊天应用Threads所打破,凭借着母公司雄厚用户基础,Threads上线第五天用户数量超1亿[11]。
第二,技术开源和开放创新风潮将加速AI技术的扩散。回顾历史,开源在相当程度上推动了互联网技术的扩散。例如Apache 网络服务器软件开源推动了万维网基础设施;IBM向开源社区开放软件专利,降低了创业公司进入门槛,有利于下游市场繁荣;主流的深度学习开发框架如TensorFlow、PyTorch等都是开源,奠定了决策式AI应用繁荣的基石[12]。如今,Llama、Mistral等知名大模型开源将从两个途径加速AI的扩散。这些底层模型、框架和基础软件技术在大量开发者的使用中不断改进完善,提升AI技术的生产率,突破效果阈值。它们还能降低AI应用的综合开发成本,因为开源模型和框架能大幅提高AI产品开发者的劳动生产率,他们也能免费使用开源技术,而且各种开源的数据清洗、标注和管理工具如OpenRefine、CVAT等能让产业链分工更细致。除了开源,一些大模型会开放API或作为插件集成到现有产品,例如GPT-4集成到必应搜索、Edge浏览器的插件Sider能集成Claude、Gemini和ChatGPT等。这些都给AI产品带来了更广泛的流量,让更多人能从不同渠道接触和使用AI。
第三,AI在传播初期的使用成本就显著低于互联网、固定电话等历史上的ICT
通用目的技术
[13],上文显示其成本未来还将继续下降。除了芯片改进,AI算法模型的不断优化也将持续降低能耗,提高计算效率,从而让训练和推理成本继续下探。此外受商业竞争驱动,今年5月以来国内外大模型如GPT-4o、通义千问、豆包、文心一言等纷纷大幅度降价甚至开放免费使用。著名风投基金a16z的合伙人撰文提出有趣的观点[14],集成电路使计算的边际成本趋近0,带动了计算机普及;互联网使信息分发的边际成本趋近0,带动互联网普及;现在AI让创作文字图片和短视频等内容的边际成本也趋近于0,难以想象未来会出现什么样的应用。
目前,AI已经开始在国民经济与社会里广泛渗透应用。据Statista估算,2024年全球AI产业规模约1840亿美元,但2030年将接近8270亿美元[15],复合年增长率约29%。在微观层面上,麦肯锡调查显示,2023年55%的企业组织至少在一个业务环节中应用AI技术,较2022年提高5个百分点,更是较2017年提高20个百分点[16]。2023年,394家《财富》世界500强企业在财报电话会议中提及AI,较2022年增长50%[17]。我们在2024年初对国内112家上市公司做了问卷调查,70%的企业回复已开始尝试AI(详见本报告第四章)。除了企业,消费者也积极使用AI技术。BCG在2023年9月的调查显示,75%的被访消费者表示曾使用过ChatGPT或其他AI驱动的服务[18]。
(二)以人形机器人为主要代表的具身智能有广阔的发展空间
AI的应用有两大类形态。一类形态是对数据进行计算之后输出直接被用户感知的结果,由此与用户互动,可称为“数字智能”。数字智能已经表现出强大的能力和惊人的应用进展。另一类形态是与现实物理环境交互,基于物理“身体”与环境交互获取模拟信号和信息、理解问题、做出决策和行动,AI输出的信号往往只是中间产品,必须通过物理硬件来产生三维空间内的运动行为,被称为“具身智能”(embodied AI)[19]。
具身智能的主要代表之一是人形机器人。人形机器人有近似于人类的外表和行动能力,以人机交互、运动控制和环境感知为核心技术[20]。它在AI基础上叠加了对人体物理能力的模拟和增强,所以不仅替代人类智能活动,还可替代人类体力活动。借助于灵巧的手和足部,机器人能适应于人类社会的现有基础设施,全面融入人类的日常生产生活场景,与人深度交互。它能像普通人一样在不同场所移动和操作,解决多项任务,展现出高于传统机器人的通用性。所以一台人形服务机器人能代替原本每个场景所需的单一任务机器人,一物多用的性价比很高。
凭借较高的智能性和情境适应性,人形机器人有望应用于人们生产生活的多个场景,替代人类劳动,给社会带来明显的增益。对于中国而言,其应用将能缓解老龄化社会的劳动力短缺问题。例如,我国目前失能和部分失能老年人超过4000万,国内80岁以上的老人有一半需要长期家庭护理服务[21],可“解放”大批原本需要护理老人的壮年劳动力进入社会工作。又例如,据统计中国2023年工矿商贸企业生产安全事故死亡2.1万人[22],如果由机器人来替代危险工作环境下的劳动力,就能挽救上万个破碎的家庭。本田公司还设想出“分身机器人”[23],扮演人们在另一个地点的分身,跨越空间远程操作。这样人们就不必因临时急事在办公室、家庭之间来回,能节省大量时间。
人形机器人是AI与高端制造业融合的典型产品,是AI价值链从信息技术服务业向制造业的延伸,潜在市场规模巨大。它涉及到AI、运动控制、仿生学、认知科学、行为科学和材料学等综合学科[24],产业链长而复杂,组成部分包含了决策系统(“大脑”)、行为控制系统(“小脑”)、感知系统(“神经”)、本体和能量系统等(图表5.3)。本体和控制等组成部分与传统机器人有一定重合,“大脑”、“神经”和手部是人形机器人的核心特色,其中“大脑”和“神经”与AI密不可分。每个主要零部件都有较高的精度要求和技术水平。这条复杂度、精密度都很高的产业长链与汽车和智能手机有一定相似性,一旦商业化后进入工业或生活的多个场景,有可能创造出同样级别规模的大市场。不少市场咨询机构普遍预测到2030年前的市场规模平均增速超过30%[25]。乐观者如马斯克甚至认为2040年全球保有量达10亿台,2060年100亿台[26],即使价格从现在的上万美元/台降到与智能手机同价(约1千美元/台),届时市场规模也可达上万亿美元。
尽管人形机器人目前尚未突破技术效果阈值,出现了“莫拉维克悖论”——“电脑很容易如成人般地下棋,但很难如一岁小孩般感知和行动”[27],不过以大模型为代表的技术进步日新月异,让人形机器人的发展前景更为明朗,有望加快应用落地[28]。大模型能提高人形机器人的泛化能力,让机器人更好地学习分解任务、辨识复杂物体;能为机器人在复杂场景中分解任务、执行长程任务提供支持;也能让人和机器人之间的交互通过自然语言更加流畅地进行。除了大模型,机器人的训练数据积累手段日益丰富,研究者正在通过离线强化学习、仿真、共享已有数据库等方式收集训练数据[29],例如Nvidia公司的IsaacSim仿真平台、DeepMind的Open X-Embodiment数据库、Hugging Face上的LeRobot数据库。
AI产业化之后,第一个重要的宏观意义是改变制造业和服务业的比重,未来服务业的比重可能上升,经济结构发生深刻变化。首先,AI能扩大服务供给,以供给创造需求,促进服务业部门本身扩张。生成式AI能以超高的效率创作出海量的内容,提升文化娱乐等行业的供给能力,未来人形机器人也能不间断地在各种场景提供服务,由此许多服务业的“鲍莫尔病”显著缓解,成本降低。当服务“加量不加价”时,原本被抑制的需求能够释放,比如人们愿意看更多电影和视频,玩更多游戏,甚至有新型服务出现。
其次,AI让制造业的有些环节从传统的制造形态转变为服务形态,从出售商品的业态转变为出售服务的业态,价值链的重点发生根本迁移。随着AI广泛渗透进入各种产品,竞争的关键会从硬件转向产品内的AI软件系统,企业过软件系统为客户带来更优质的产品体验,软件服务成为销售的核心价值。例如,智能驾驶系统是车企竞争的关键,车企销售的重点会转向能持续升级的智能驾驶软件,用户要更多支付软件服务租金来让车辆功能最大化,所以未来某种程度上车企的销售重点转向“出行服务”。国内某著名智能电动汽车企业曾出口到乌兹别克斯坦,发现随后的服务是一个大的痛点,因为过去的汽车出口是硬件商品贸易,但将来具备智能驾驶功能的整车出口要把高精地图、软件升级包等整套应用服务都包含在内,否则这个智能车在海外就“又聋又瞎”。这些数字形态的出口就是服务贸易。
第二个宏观意义是AI技术进入消费类产业后,将改变消费三要素“人、货、场”及其关系[30],重构消费者的体验和购物行为。AI的核心价值之一是定制化、个性化,更精确地匹配人和货的关系。企业用AI技术提早洞察顾客对新产品的需求,甚至邀请顾客共同参与设计开发产品,让产品天生就为顾客而定制,减少了后续营销成本。这既是改变货的性质,也同时改变了人和货之间的关系。例如,有研究表明,研究人员用大数据技术从全球近1万个网站收集了23万条与风筝冲浪(kiteboarding)相关的用户发帖,利用自然语言处理(NLP)技术鉴别出用户的潜在需求,前瞻性开发了26个受到用户启发的创新产品和功能,其中一半被厂商商业化[31]。AI也能创造新的消费场景体验。比如“虚拟试衣间”功能让消费者在不实际试穿衣物的情况下,通过上传自己的照片或视频来模拟穿衣效果,从而提供新颖的购物体验。消费者能尝试大量衣品,更容易促成交易,商家也免去了用户网上购物后又要退货的成本。
第三个宏观意义是AI与其他先进技术相结合,有可能改变服务交付方式、优化资源配置、提高工作效率,从而重塑经济空间布局。AI工具改变了消费场景,AI试衣、远程智慧诊疗、智能客服等应用让不同服务能7*24跨地域运行,消费者和服务提供者不需要身处同一地理空间。AI也可以帮助服务企业更有效地分配资源,比如通过更精准的预测分析来优化库存管理和物流安排,使企业在成本较低的地区设立配送服务中心,而不必局限于高成本的商业中心地带。我们可以设想,当未来AI agent、人形机器人、数字人、智能汽车等工具落地后,agent作为工作助理,机器人和数字人能协助人远程工作,智能汽车作为移动办公空间,这将显著提高人并行处理、远程处理任务的工作效率,使远程工作更有可行性,减少了经济活动的地理集聚。
目前互联网传媒行业涌现出许多“小而美”的AI应用创业公司,虽然团队成员很少,但能做出广受欢迎的产品,企业也获得高估值。例如游戏“幻兽帕鲁”最初由4个人开发,聊天应用Character.AI团队仅20多人,短视频应用公司Pika在只有4人时就估值上亿美元[32]。事实上,这个现象反映了AI有助于增强中小垂直应用企业的竞争力。中小企业活力增强后,将让市场格局变得更不稳定,但这样的竞争对消费者是好事。
首先,AI技术能提高企业的生产率,节约要素投入,使之保持组织精简。这对资源不足的中小企业、创业公司尤为重要,有助于提升它们的存活率。在国内游戏行业,本来一个游戏项目的资深原画师、美工班组、专业设计团队大约占项目开支的30%-60%,但AIGC能大大缩短出品时间,人力开支显著减少,初创公司存活率从20%上升到35%[33]。其次,“模型即服务”(Model-as-a-service,MaaS)将是AI技术供应商的主要商业模式,帮助用户节省精力[34]。供应商为用户提供现成的机器学习模型或包装好的软件产品,用户只需在预训练模型基础上继续“微调”出一个适合本行业或本企业所需的模型,或者通过API接口调用模型即可。所以垂直行业的中小企业用户不用操心复杂的中后台AI技术和资本开支问题,只需要专注于开发前台应用,发挥自己的创意、敏捷和行业知识的比较优势。再次,中小企业的业务不稳定,没有太多资金,MaaS模式的按需付费模式符合它们的开支需求。调用AIGC通常按输入输出token付费,用户无须像过往采购软件甚至私有化部署一样一次性增加大笔开支,它能满足用户对资源的弹性需求,帮助用户节约成本。美国在2018年调研了全国85万个企业,发现创业公司很乐于应用AI,它们应用AI与收入增长有显著正相关性,也更受风险投资欢迎[35]。另一个调研表明,目前美国年收入小于5亿美元的中小公司使用生成式AI的比例是中型公司(收入5-10亿美元)的3倍、中大型公司(收入10-100亿美元)的2倍,与大型公司(收入100亿美元以上)相当[36]。
(五)AI在部分产业中的“无限供给”能力可能冲击市场形成
目前AI已经能够在极短时间内生成内容、做出分析,随着技术的改进、输入输出token长度的增加,AI将以几乎为零的边际成本在艺术、教育、培训、翻译等服务消费领域提供服务和产品。这种几乎无限的供给能力将冲击现有人类服务和产品市场的固有结构,可能破坏从业人员的职业成长体系,进而损害目前还只能由人类创作和提供的高水平服务和产品的供给机制。好莱坞演员工会对演员权益的保护,《纽约时报》为了保护其作家群体而起诉OpenAI[37],都反映了AI给现有市场带来的冲击。
我们以绘画艺术来说明AI的重大影响。首先,AI作品可能让绘画市场退化,压缩画家成长的空间。现代画家的培养和成长要经历学校、圈内展示、商业展示、专业杂志评论、提名奖项、收藏直到拍卖等一系列阶梯[38],他们与阶梯上各环节的从业者、大众消费者互动建设繁荣的产业链[39],其中大众消费者对各类画家的需求作用不可忽视[40]。但海量的AI作品出现、尤其是大众消费者可自我创作后,相当一部分消费者将会被分流。市场变小,普通画家生存空间被大大压缩,耐心供养高水平画家的土壤变小,将“抽掉”他们经过磨练和市场互动从藉藉无名的新人逐步成长的阶梯。其次,低成本和海量供给的AI作品会放慢市场对新人创作的反馈速度,使其成长变慢。艺术品的价值根本在于稀缺性[41],画廊商人的惯例是压低新人作品价格,通过市场销量反馈来逐步调整,每次售罄后会涨价,从而抬升新人身价和地位[42]。如果AIGC使平均水准、满足普通大众品味的作品不再稀缺且成本低廉,这些替代品将使新人作品的销售放缓,反馈速度变慢。再次,AIGC会导致市场上充斥风格雷同的作品,减少了画家个人风格的独特性和创新性,更不利于有创意的新人获得认可。当普通人的艺术晋阶道路被损害,高水平作品诞生的概率也将降低。
当然,人类现有的市场机制可能会自发调节以回应AI带来的冲击。在AI产品充斥市场的情况下,消费者对人类产品和服务的支付意愿可能会上升。市场可能会形成AI和人类两部分的分离均衡,但要实现这种分离均衡,需要建立成功的信号机制,使消费者能够区分人类和AI产品以便支付相应的人类产品溢价。例如,原先存在于绘画市场的专业机构可能是一种潜在的信号机制,画家与学院沙龙、专业评论机构、展览会、画廊、拍卖行、艺术中间商等形成绑定关系,对艺术品创作过程进行完全记录,从而向潜在买家发出信号。教育机构可通过线下培训或建立名师档案体系,向家长保证自己的教育培训是由人类教师提供,等等。但是,并非所有市场都能够自发建立相应机制而成功分割人类和AI两个市场。当市场无法自发地良性回应AI的冲击时,适当的政策干预可能是必要的(参见第四章关于AI对劳动力市场影响的相关讨论)。
我们从两个视角来梳理AI在消费类产业的现状和潜在应用。一个是经营业务视角,分为B端和C端应用,前者主要服务于企业内部用户,后者直接面向消费者。需要说明的是,有些应用的客户虽然是企业,但位于企业前台面向消费者的环节,例如客服、销售等,本文也将之归为C端应用。
另一个视角是AI提高生产生活效率的途径。从提效途径视角看,AI应用对组织的影响可归纳为3R——分别是替代(replace)、提升(reinforce)和创造(reveal)作用[43],以减少劳动要素投入或产生更多增加值。替代作用是减少投入生产的劳动量,提升作用是改善和丰富现有产品和服务,创造作用是产生“AI原生”(AI-native)的产品、服务和商业模式。所谓AI原生产品,是指将AI作为产品自然、核心的功能,而不是在原有产品上附加AI作为增值功能模块,AI原生产品具有学习和适应能力,核心价值是与客户产生个性化的交互[44]。由于提升和创造作用都是为企业带来增加值,本文将发挥提升和创造作用的应用统称为“价值提升型”应用,而发挥替代作用的应用称为“节约替代型”应用。
发生在不同业务环节的应用有不同的效果和成本阈值,所以下文将以这两个视角为维度,构成一个2*2的矩阵,将AI目前和潜在的产业应用场景放入该矩阵,以更清晰地区分不同类别应用的现状和前景。可看到各个行业都有一些场景里的AI已突破效果或成本阈值,陆续商用和扩散,尤其是大模型的广泛应用潜力有目共睹,整体而言AI产业已越过发展曲线的第一拐点。
本文将具体选择互联网和传媒、医疗保健、汽车、家电和服务机器人这几个消费类产业加以讨论,因为它们代表了AI发展的不同脉络。一个脉络是技术路线差异。正如本报告第四章所述,以深度学习为代表的AI更接近“休谟式”的经验主义智能,基于大量数据的统计规律来推理判断,互联网传媒、医疗保健业、汽车的大部分AI应用都是这种形式;但在复杂三维环境中操作的服务机器人可能需要“模仿学习”,即观察和模仿专家的行为来学习如何执行任务,模仿学习更接近于人类从小跟随观察父母学习的过程[45]。另一个脉络是产品载体差异。在互联网和医疗保健等产业中,AI主要以数字智能形态出现,以软件形式嵌入到计算机、医疗仪器系统;但汽车、机器人的AI是具身智能,软件系统要与硬件系统紧密结合,依托硬件实现最终目的。
(一)互联网和传媒产业受生成式AI技术影响大,商业化落地正在加速
传媒和互联网产业天然需要生产大量的数据和内容,线上化、数字化程度发达,是目前生成式AI应用最活跃的产业,在已有的“专业平台生产内容”(Professional generated content,PGC)、“用户生产内容”(User generated content,UGC)之外实现AIGC。不论是C端、B端前台还是中后台,AI在不少场景已经突破双重阈值,实现扩散。这些应用为消费者和企业节约了大量时间,或衍生出新的产品功能和商业模式。
目前成熟的生成式AI应用是以ChatGPT为代表的聊天机器人和各种模态转化产品,包括文生图、文生视频、图生文等等。例如Midjourney是一款典型的AI文生图工具,仅输入少许提示关键词就可在不到1分钟时间内生成高质量的图片,由此大幅缩窄创作时间,降低了创作门槛。Sora则是AI文生视频的典型应用。AI也能帮助创作剧本,DeepMind推出的AI写作模型Dramatron能够实现根据用户输入的要求,自动生成人物、情节、场景描述及对话等,大幅降低创意实现的成本及时间。
更为前沿的是应用是AI agent、AI NPC(non-player character)和数字人等产品。AI agent体现了人机协作的理想,将在业务流程自动化、个人助理等场景应用。近期,以GPT-4o为代表的大模型有望让AI agent产品有更强的情绪理解能力和多模态互动能力;苹果公司等推出了能识别用户界面(UI)操作的多模态模型,将推动agent在手机等终端落地[46]。AI可制作游戏NPC,让消费者感到更有趣,延伸出“为定制NPC付费”(自定义NPC形象性格等)、“为与NPC交互付费”(如部分恋爱聊天软件)等AI原生的商业模式。数字人可以用来模仿真人,高度逼真、对答交流,这个应用已有初步尝试,例如商汤科技制作了汤晓鸥教授的数字人,在商汤公司内部和互联网上都备受好评。
国内互联网和传媒业的AI应用渗透率在快速增长。根据Quest Mobile统计[47],国内用户对互联网和传媒业的AIGC应用抱有很大热情。独立的AIGC应用软件(例如豆包、文心一言、智谱清言等)用户在去年爆发式增长,去重后的用户总数从2023年1月的141万增长到2024年3月的7380万。仅从独立应用看,AIGC在国内互联网群体的渗透率就突破了5%。按经典的Rogers创新扩散曲线[48],当渗透率突破2.5%之后,创新就进入用户加速渗透的阶段。如果算上内嵌在传统的国民级App里的AI应用(例如淘宝里的AI识图、AI试衣间和资深导购员,美图秀秀里的图片编辑工具),由于这类App已经有过亿活跃用户,AI用户数量将翻数倍。在B端应用方面,艾瑞咨询显示,2023年AIGC技术在中国广告主企业线上营销活动中的渗透率已达48%;游戏行业多个公司如完美世界表示已经将AI技术应用在研发的多个环节[49]。
注:写在框里的应用为潜在尚未落地的场景。
资料来源:中金研究院
注:调查完成于2023年中。富裕阶层定义为家庭可支配月收入>26400元的人群,中产为5800-26400元人群。
资料来源:BCG《2023上半年中国消费者信心报告》,中金研究院
在当前的中国宏观经济形势下,AI有可能促进电商和传媒消费。我国居民消费能力总体承压,消费者在选购商品时愈发追求性价比。面对更谨慎务实的消费者,智能导购、智能广告可帮助企业向消费者推荐更精准的产品和服务,做好内容、搜索和电商之间的流量转化,以争夺有限的“钱包份额”。厂家到经销商可努力应用AI技术优化生产流程和供应链,降低成本并提升效率,来增强自身产品的性价比,从而吸引更多消费者。例如厂商可用AI技术来制作并投放广告,去掉传统广告中介,并用AI来预测广告买量推广模型,尽量节约广告预算。相比于实物消费,目前国内消费者愿意把更多的支出用于文娱、休闲、旅游等用途(图表5.5)。中产以上的娱乐旅游休闲等体验消费升级,2023年全国演出市场总体经济规模739.94亿元,比2019年增长29.3%,达到历史新高[50]。在传媒娱乐行业的前台环节,像游戏NPC、虚拟伴侣等AI原生的产品能为消费者带来更有趣的玩法;数字导游、虚拟旅游等塑造全新的文旅模式,AIGC未来创造出更多虚拟现实的内容,这些都能给消费者带来个性化、沉浸式的消费体验。网易的《逆水寒》、完美世界的《诛仙世界》都加入了AI NPC玩法;快手、哔哩哔哩等平台已上线AI创作工具。在中后台环节,AIGC为影视、游戏企业生产内容赋能,实现精品内容体量指数化提升。优质IP的多模态内容和衍生品开发后,还能满足不同偏好的消费者。
互联网和传媒业的AI应用将深刻塑造产业未来趋势。对于核心是文娱内容的传媒业,AI应用的趋势是赋能行业生产效率提升,探索全新的内容展现与交互方式,变革娱乐休闲体验。由于传媒内容的形式多样,且更高的商业价值落在影音、游戏、融媒体这类复杂融合的内容形式下,因此行业更期待生成式AI迭代出多模态的内容产出能力。未来我们期待AI支持生成信息量更丰富且逻辑更完善的内容,以及期待支持更多维度的内容生产,例如可交互的3D模型等。我们也关注到在阅读、教育、游戏NPC等应用上,用户体验变革有初步的进展。
未来,传媒业的AI应用将在B端实现强大的内容生产能力,在C端达成创作能力的平权。对于B端(PGC)而言,多模态AI加速IP变现,有望实现精品内容体量指数化攀升,追求极致体验。它缩短了IP的开发周期,也能延展其内容层次,文字、漫画、视频等多模态内容都有可能呈现,加速了优质IP“一鱼多吃”。对UGC而言,提供低门槛创作工具——例如短视频应用“剪映”和音乐应用Suno等,让普通人也能制作较好的融媒体内容。此外,在数据版权资产开发方面,海外市场版权合作协议盈利模式、商业化前景初步展现。例如Adobe希望摄影师和艺术家提交短视频以供模型训练,平均报酬约为2.62美元/分钟[51]。
在互联网业,由于提示词(prompt)技巧要求较高、效果可控性不足,当前C端应用商业模式并不清晰;但在B端与专业人工操作相结合(例如电商、短视频KOL),赋能增效的商业逻辑更清晰,用户价值明显,是短期内主要的商业化路径。百度、腾讯、Google、Meta等公司均在其财报中披露AIGC服务了B端广告主客户,为自己也创造了营收。中金公司研究部估计,三年内国内服务平面设计市场的AIGC工具有望产生55-80亿元营收,广告营销市场能产生150亿元收入[52]。
目前生成式AI还在早期快速渗透阶段,各家垂类工具的竞争虽然激烈,但市场蛋糕在扩大,所以竞争不是主旋律,增量市场空间充裕。在中长期里,除了底层模型能力,产品落地能力、切换成本和下游应用生态将是竞争的关键。产品落地能力是指AIGC工具能否快速精准地抓住用户痛点,紧密嵌入其工作流。嵌入工作流之后,工具要比拼如何积累用户的使用习惯和数据资产,增强用户粘性,抬升其切换成本以增强自己的先发优势。AIGC工具与当前主流互联网产品的融合度也很关键,因为用户做出图片视频等内容后,最终要发布到电商和社交平台上去转化,所以工具能否与下游应用生态无缝融合也同样重要。例如用户使用字节跳动旗下的醒图、剪映等AIGC工具后,能够一键导入到抖音、头条产品,反之亦然,这就很有利于醒图和剪映扩大用户基数。
(二)医疗健康产业中AI的应用场景丰富,但面临不少制度障碍和矛盾的制约
医疗健康领域是AI应用最具潜力的行业之一。居民疾病负担逐渐从急性传染性疾病转向慢性病,疾病谱变化使居民健康需求增加且更加复杂多样[53]。可是医疗服务供给资源普遍不足,尤其是发展中国家的医疗服务可及性、公平性还有较大改善空间。AI应用不仅能够提升医疗系统的效率,同时也能极大改善医疗公平性。
近年来,医疗健康领域AI产品创新活跃,不少场景能满足效果阈值。在生成式AI出现前,利用机器学习等AI技术进行医学影像图片辅助识别已经较为成熟(图表5.6)。截至2023年11月底,国内已有122款智能软件获准入[54],其中绝大部分为AI辅助影像诊断软件。2022年对全国3000多名影像科医生的调查表明,62.1%的医生表示其科室已有医学影像AI产品的应用[55],大型医院普及率较高,三级医院70%以上影像科使用了AI产品[56]。智能病历填写和质量控制、以及医疗保险报销和商保预授权也是机器学习算法应用比较深入的场景。
前沿的应用则来自于生成式AI,它不仅加强了已有应用场景,也拓展了许多新场景。2023年Google开发了Med-PaLM2大语言模型,帮助医生捕捉前沿临床知识、训练医生对话技巧,同时也能帮助患者更好了解其自身健康状况[57]。未来生成式AI能够利用可穿戴设备以及带有各种传感器的智能终端所收集的大量数据,加强对急性后期和康复期患者监测,提高预后质量[58]。
AI应用有望缩短创新药品研发周期。首先,AI模型可分析药物分子作用机制,有望对药物分子治病机理和毒性、安全性做出相应预测判断,降低现有人力资本密集型环节的时间和成本。AI模型也可对现有已知分子结构做出优化建议,甚至设计生成新的药物分子,提升研发质量。其次,AI模型能够优化临床实验安排,挑选更适合的实验被试,并能基于过往案例设计适宜的临床方案,缩短临床实验的时间和成本。研发周期和成本的降低短期内可能带来终端消费的药品价格下降,长期内增加新分子供给,促进行业竞争。
AI应用还能提升医疗资源利用效率,降低医疗成本。微观层面,智能终端普及后会产生大量个体健康数据,与医疗数据结合后可建立从健康行为到疾病发作的全链条因果关系,提升疾病预防监测效率,或在疾病发生早期阶段进行高效率诊出,能避免疾病进展至中末期给患者和医保系统带来的巨额医疗支出,减少医疗体系的综合医疗成本支出。中观层面,AI赋能将提高普通医生的诊断和治疗水平,缩小各级医院之间的质量差别,降低医疗服务提供集中化趋势,让低级别医院承担更多的治疗工作,有利分级诊疗的实现。宏观层面,由于部署成本高,医疗可及性提升后,居民利用服务的频率增高,短期内AI应用可能会造成医疗费用增长,但长期看,AI提高了医疗系统的运行效率,减少了资源浪费,且提高了医疗和保健水平,总体上能降低社会成本,增加社会总福利。
注:写在框里的应用为潜在尚未落地的场景。
资料来源:中金研究院
然而,医疗类AI应用的推广普及相对缓慢,面临一些制度障碍和矛盾。目前的AI诊疗仍然必须由医生复核把关来承担责任,不允许系统独立承担责任,所以AI诊疗系统实际上还很难真正实现帮医生节约劳动的作用。AI系统还有可能导致过度医疗或医疗不足。过度医疗的一个案例是某地三级医院引入肺结节影像识别 AI 技术后,筛查人次在三年里增长73%,但当地卫生统计年鉴显示非传染性疾病谱分布无显著改变,疑似该技术让肺结节患者过度医疗[59]。医疗不足的案例是美国United Health保险公司用AI系统评估患者所需的后期疗养护理时间,以此裁定保险赔付金额,系统给出的时间通常远远少于专业医生的判断,但保险公司仍然对超出系统估计时间的护理不予赔付,引发多起诉讼[60]。还有业内人士担心依赖于应用AI诊断系统可能会让病理学家的技能退化,例如在肾脏病理学检查时,他们不再亲自观察评估基本结构要素,失去对组织结构的深入理解[61]。
(三)大模型加速高级别自动驾驶落地,驱动汽车产业变革
AI在汽车消费领域的主要结合是自动驾驶,减少了对司机的需求,其强大的感知决策和控制能力能辅助降低司机犯错概率,减少不良交通行为,改善交通路况。2012年以来,基于深度神经网络的自动驾驶感知和决策算法取得了快速进展,众多车企已在产品上将其商业化落地。经过十年的积累,L2级别的辅助驾驶已经普遍商用;L3级别自动驾驶在部分领先车企的产品上落地,并在高速公路等特定区域内路测,在北京亦庄、上海嘉定等地区甚至开始了该级别出租车的示范运营[62];至于L4以上高等级自动驾驶还只能在特定封闭场景内商用,例如矿区、港口、机场等。但在现实城市道路中,各种复杂因素较多,有很多长尾情景(corner case),自动驾驶难度系数显著增长,目前尚无L4落地。
Transformer算法和大模型出现后,高级别的自动驾驶研发和落地速度有望加快。Gartner公司认为,高级别自动驾驶已越过泡沫破灭后的低谷期,预计在5-10年内规模化扩散[63]。大模型包括语言模型、视觉模型和多模态大模型,分别可用于自动驾驶的多个技术环节[64]。语言模型可帮助汽车更好理解乘客的指令,控制车辆以满足个性化需求。客户也能描述车辆状态、环境细节等,让车辆生成驾驶决策,这增强了自动驾驶系统的可解释性。大语言模型还能从文本数据中总结和提取知识,例如ADEPT系统使用GPT从美国公路交通安全管理局的事故报告中提取关键信息,生成用于模拟和测试的不同场景代码。视觉大模型的一个作用是增强汽车对周围环境的感知准确度。Tesla推出了基于Transformer的鸟瞰图算法技术,更准确地融合和判断多个传感器捕捉的信息。另一个作用是产生更好的仿真驾驶场景,以仿真数据弥补真实训练数据的不足,提高自动驾驶模型的迭代速度。例如Nvidia公司的自动驾驶仿真平台DRIVE Sim就可以通过合成数据工具来提高仿真场景与真实场景的相似性,清华大学人工智能研究院也在做类似仿真平台。仿真甚至能虚拟出一些长尾场景。大模型还可用于“知识蒸馏”,给图片打标后,去训练特定功能的小模型,例如行人注意力、意图识别等小模型。大模型也能帮助自动驾驶厂商进行数据预标注,再交给专业标注公司,降低人工标注的成本。
AI将孵化汽车出行产业的新商业模式。一是智能驾驶发展将催化“无人驾驶出租车”(Robotaxi)等商业模式。Robotaxi让人们出行的费用大幅度降低,出租车数量也能降低。对于租车公司而言,无人车辆可实现不间断运行,资产运营效率能显著提高。二是智能软件包已经成为Tesla、蔚来等众多车企新的营收来源,未来随着硬件成本继续降低,软件订阅收费占比可能继续提升,将颠覆汽车销售的现有商业模式。三是高阶智驾带来的驾驶员和企业新的权责划分需要新的法规,也将重塑车险业的商业模式,责任划分、承保对象、费率水平等都会发生改变。四是用户出行数据将成为新的资产,如何合规地存储和运营这笔资产,找到合适的商业模式是一个新问题。
这一波智能化浪潮将重构汽车产业格局。首先,未来汽车的差异化将主要体现在整车中央控制的软件系统上[65],包括智能座舱、自动驾驶功能、智能底盘等,智能化水平成为车企竞争的主要变量。智能化领先的车企将从中受益,获得竞争优势。其次,消费者更加关注汽车的智能化功能和个性化体验,而不仅仅是品牌本身。基于传统内燃机、变速箱技术体系建立美誉的经典品牌若不及时技术转型,品牌壁垒会受到较大冲击。再次,在传统汽车时代,车企竞争呈现出较强的寡头垄断特点,几个大型汽车制造商占据了市场的主导地位。但在智能汽车时代,科技公司、互联网公司、软件开发商等新兴参与者入局,这些新进入者凭借在人工智能的技术优势和雄厚的资本累积,有可能挑战传统车企的市场地位,丰富竞争生态。群起的“造车新势力”就是典型。最后,传统汽车产业链的上下游分为主机厂、Tier 1、Tier2等层级,提供核心硬件的Tier 1供应商相对于主机厂可能有较大话语权,但在“软件定义汽车”的智能化时代,这个局面可能会发生变化。因为硬件变成了标准化产品,而智驾软件成为差异化关键,所以我们看到现在几乎所有有能力的主机厂都想自主研发系统,来掌控这个核心价值;一些头部智驾方案供应商也会插入这个产业链,成为介于主机厂和Tier 1供应商之间的一道环节。这些新情况使产业上下游之间的利益格局发生了变化。
汽车企业的服务方式也会变革。售前,现在不少车企借助AI和VR/AR技术提供沉浸式、个性化的购车体验,利用AI聊天机器人提供24/7的客户咨询服务,提高了销售和服务效率,为消费者提供更加便捷和印象深刻的购车旅程。售后,AI可对汽车行驶数据和维保记录进行深度分析,通过预测性维护提前发现潜在问题并提醒车主进行维修,这样可以减少故障发生的几率,提升客户满意度。车机软件及时进行远程升级(OTA)也是一种售后服务,让车企与客户在整个售后生命周期保持一定频率的服务沟通,可增强客户粘性。另外,由于智能座舱提供丰富的交互体验与娱乐方式,驾驶员的驾驶注意力负担减轻后就能更好地享受智能车舱的功能,甚至把汽车当做移动办公场所,那么持续优化座舱体验和内容将是车企做好服务的又一重点。
社会的交通系统也可能随之发生变化。一是智能网联技术使车、路、云端加强互联,通过即时通讯传递更快捷的车路端信息,整个交通指挥管理系统也更加高效和聪明。交通信号灯的周期优化,车辆行驶更为顺畅,以减少交通拥堵。二是当未来远期Robotaxi的运行效率和使用便利程度够高,用车成本低于拥有一辆私家车的成本时,人们对私家车的需求可能大幅减少,大部分人出行依靠共享汽车。届时乘用车数量会大幅减少,不论是住宅区还是公共场所都不需再设置那么多停车位。
(四)家电产业中的AI应用和人形机器人的推广仍有待技术成熟
家电产业的AI功能集成在产品里,直接面向消费者。有些产品发挥替代作用,节约消费者的时间,例如扫地机器人、家庭服务机器人等;有些让现有家电产品功能更丰富,提升了消费者的生活品质,例如智能网络摄像头、由大模型驱动的智能家电以及智慧家居系统等。
因为家用垂直场景非常丰富,家电产业的惯例不是等待技术的完全成熟,而是在技术演进的过程中,将阶段性成熟的AI技术逐步纳入不同场景的应用里,以改善现有产品的功能,甚至会推出一些有趣的、意想不到的新应用。目前扫地机器人和智能网络摄像头是比较成熟的AI应用,但这是传统的决策式AI而非生成式AI。业内认为,嵌入大模型的智能家电(音箱、电视、投影仪等)和服务机器人是未来生成式AI与家电结合的典型场景。
具备多模态能力的智能音箱将是家电设备的前沿应用。早期的智能音箱已有了亚马逊Alexa、百度小爱、小米等标志性语音交互产品,已经影响了很多消费者,那么未来嵌入多模态大模型、升级换代后就是一个很自然的产品入口。它有望作为智慧家居控制中心,成为真正的AI agent,具备广阔的市场空间。它具备智能化的语音交互能力,准确地识别消费者的意图和需求,消费者可通过音箱自然轻松地控制各种智能家居设备、进行信息查询、获取娱乐内容推荐,音箱还能为消费者提供更多情绪价值,具备初级的情感陪护功能,甚至还能辅导小孩做作业。尽管智能音箱所依赖的生成式AI技术尚未跨过效果阈值——例如对方言、口音、口语的识别能力不足,跨场景对话能力较弱,但新出的GPT-4o已经展现出很强的多模态识别和对话能力,可能标志着技术接近效果阈值。
在服务机器人里,人形机器人是未来进入家庭的理想对象,国内外不少公司做出了炒菜、收纳等各种场景的原型产品。不过,技术难题和居高不下的成本让行业还处于发展早期[66]。第一,人形机器人有多个开发设计问题的技术方案尚未收敛,产业界还在探索[67]。比如,在模型方面,究竟是感知理解、任务决策、运动规划等每部分各做一个模型,连接组合;还是用一个类似Tesla FSD、Google RT系列的端到端的统一大模型?上肢操作是否要用深度学习还是模仿学习模型?在结构设计方面,手部采用二指方案——很多人认为两指夹持器(2-finger gripper)或四指就能完成大多数日常任务,还是完全仿人的五指方案?为了完成多种任务,是在机器人本体上像“瑞士军刀”一样集成安装多个工具,还是做一个足够灵巧的手?在传感器方面,机器人要依靠“深度相机+激光雷达”来观察外部环境,还是像马斯克一样,从“第一性原理”出发单纯依靠视觉传感器?五官的传感器像人一样安装在头部,还是躯干上?
第二,相比语言模型和视频模型,机器人训练较难。它的训练数据是多模态,有些场景如炒菜机器人还需要视觉、嗅觉、味觉和触觉等,不仅仅是低维的语言、图片和视频,目前记录和传递各种感觉的传感器尚不够成熟稳定。而且,机器人在现实场景训练的数据积累速度更慢一些,不像语言和视频模型很容易就从网络获得海量文字图片数据。特别是家用场景数据,有专家认为,“不可能有上百万群众自发愿意买一个没有什么功能的机器人到家里,用摇控器指挥机器人干事情”[68]。尽管上文说过,现在有各种仿真和共享数据库用于机器训练,但毕竟不是用新鲜的真实场景训练。
第三,平衡机器人的开发成本和容错率有较大难度,对经济性是挑战。如果机器人“大脑”由深度学习大模型驱动,其输出内容可能是概率性的,执行结果可能不稳定。进入日常消费场景,它可能要与老人小孩等交互,为了避免伤害,机器人的容错率可能较低。若要求机器人出错概率很低,甚至低于人类,可能要付出非常高的开发成本。在某些非结构性场景中,机器替代产生的价值不高但容错率却很低,要付出的机器人开发成本很高。例如家庭清洁服务机器人只是省了1个小时的打扫家务时间,对普通人而言时间价值并不是很高,消费者不一定愿意购买,可是开发一个能适应不同家居环境的机器人却非易事。
由于机器人需要一定容错率空间,目前在标准化场景的泛化迁移难度低,我们预计未来人形机器人将在容错率、操作标准化程度较高的场景先落地(图表5.7)。操作标准化是指机器人要完成的动作模式较为标准清晰,例如搬运东西是标准化任务,而护理就是高度非标的任务。有一些容错率极低但操作标准化程度较高的场景——例如生产线上组装动作标准化很强,一旦弄错检测停工返修给生产线带来的成本就比较大——可能会对机器人设计固定算法以保证执行的一致性,并设定安全冗余机制以容错。此外,高付费能力、低精度要求场景也可能先落地。
尽管AI在消费类产业有广阔的应用前景,目前在多个场景逐渐落地,扩散速度可能高于其他
通用目的技术
,但扩散仍然可能重复“螺旋式上升”的历史,会遇到不少障碍,并不会一帆风顺。回顾历史,新产品和技术的扩散通常是一个有风险的长过程,其风险通常来自技术成本高、基础设施不足、市场前景不明朗、利益集团反对等[69]。由此人们对新技术商业化的预期通常会经历“乐观à狂热à破灭à复苏”的周期,Gartner的技术炒作曲线(Hype cycle)就是其具象化代表[70]。根据Gartner在2023年估计[71],生成式 AI正处于炒作曲线的顶点,人们对于技术抱有超越当前现实的狂热预期,后面应该会经历能力不达预期的低谷,还需要2-5年才能规模化扩散。
AI技术在诸多消费应用尚未突破该场景所必需的效果阈值。在家电和机器人领域,家用环境的场景复杂精细,但目前的服务机器人无法成熟地处理家庭内部的非标工作环境。在医疗保健业的效果障碍包括:第一,目前AI模型泛化能力不足,基于特定任务而开发,例如胸部X射线训练集模型,这种基于特定任务的范式生成的模型很不灵活,仅限于执行由训练数据集及标签预先定义的任务,而在临床实践中常常遇到罕见情况,被称为“看不见的长尾挑战”,这时候AI模型就难以灵活应用。第二,深度学习的结果还难以解释、验证和监督,考虑到临床端容错率较低,任何医疗过程产生的错误决策可能直接影响患者诊疗效果及医患纠纷处理,所以AI诊断的可靠性、准确性和责任归属等问题是监管及商业化应用过程中需要给予高端关注的要素。第三,真实世界的精准诊疗需要的不是单一维度的医疗数据和模型,而是要结合多个维度的信息,如检测、影像、基因、访谈等,这就决定目前基于单一类型数据训练的AI医疗模型只能用于辅助。第四,不少医疗模型的训练数据来自特定人群,可能存在一定“偏见”,在迁移到其他国家地区使用时的泛化能力可能不够。在互联网和传媒业的效果障碍包括:首先,大模型的逻辑推理能力和可靠性都有待继续提高,导致AI agent目前还无法处理稍微复杂的多任务。其次,不少AIGC工具使用有一定学习成本,用户需要花费较长时间去学习和适应如何更好地去输入提示词。
与B端应用相比,C端应用的效果阈值更高,研发难度更大。C端应用直接面对多样化、非标化的消费者需求,对应用效果的稳定性、适应性有较高要求,做不好直接损害用户体验和企业营收;但B端应用的功能需求较为明确,易保证输出结果符合需求,而且应用结果主要影响企业内部的成本结构和运营效率,用户更能容忍。以医疗保健为例,目前B端应用如药物研发、临床试验方案设计优化、院内信息系统优化(如多学科会诊系统、电子病历语音转码)等,针对部分原本人力资本密集型的业务模式和业务环节,AI或能够充分发挥其基于数据密集、统计规律分析等维度的特色以解放生产力,替代部分重复性工作(如药物分子人工枚举筛选)。但在更多直接面对患者的临床应用如AI影像、AI问诊、手术机器人等,AI要赋能医护人员给出正确决策,协助医生和患者理解诊疗行为逻辑,一旦给出错误决策,对患者利益和医疗机构的新产品接受度的负面影响会很大,后续产业应用将更谨慎。
除了技术障碍,制度问题是创新扩散的另一大障碍,包含监管、法律、政策、社会伦理文化等,都可以算作广义制度的一部分。本文同样用2*2矩阵分类框架来划分制度障碍类型(图表5.8)。
第一类制度障碍出现于C端的价值提升型应用。一是AI违规使用和欺诈风险,例如DeepFake进行“换脸”就深受社会担忧。二是AI生成的作品是否享有版权,归属于谁。国内已有多起AIGC相关版权诉讼,引发了广泛关注[72]。
第二类制度障碍出现于C端的节约替代型应用。首先,AI应用存在责任和伦理问题,尤其在医疗领域体现充分(见本文第二部分)。除了医疗领域,人形机器人的应用也有伦理制约,有些暴力场景可能还不宜用机器人来替代,例如保安、警察等岗位。其次,大模型生产的内容很可能出现涉嫌种族、性别、意识形态方面的问题,引发合规风险。各国企业和监管对此特别在意,Google的Gemini大模型生成图像甚至出现了“矫枉过正”的闹剧。再次,大众对AI生成的作品接受度还较低。在游戏领域里,很多用户从心里抵触AI,他们认为人的创作才有意义和价值,机器批量化生成的动画图片等没有价值且危害原来的从业者。例如育碧公司的AI写作工具被众多玩家批评,网易公司《世界之外》游戏的玩家也抵触AI美术生成的“抽卡”资源[73]。
第三类制度障碍出现于B端的节约替代型应用。最典型的就是AI会冲击大量既有就业和经济利益,引起利益相关者的强烈反弹。例如好莱坞演员和编剧举行了罢工,编剧工会要求公司使用AI工具时,不能影响雇工的原本工资,演员协会要求对被替代的演员有最低补偿标准[74]。另一个例子是上世纪90年代美国国会支持医疗保险公司引入AI系统对医生诊疗决策进行监督和控费,但该系统的评估标准不够透明,也影响到医生的收入和权威,引起医生群体反弹[75]。
各个场景有一个共同制度问题是数据问题。一是训练数据获取困难。例如不论在中国还是美国,医疗诊断数据分布碎片化,病历、药品、医保等数据分布在不同机构,又受隐私保护,跨机构甚至机构内部打通共享数据程度较低。有些专业服务业如律师、猎头等从业人员甚至不愿意分享个人掌握的关键客户信息给所在机构,导致AI很难获得数据和应用落地[76]。二是数据权益未落实,引发一系列诉讼,例如美国Getty Images公司诉Stability AI未经许可复制和抓取了大量图像,《纽约时报》也正式起诉微软和OpenAI未经允许抓取其文字用于训练,国内也发生了AI生成声音人格权侵权案[77]。
从以上种种制度障碍可归纳两个现象。其一,由图表5.8可见,AI发生替代作用的场景有更多制度障碍,而在价值提升场景的障碍相对较少。这表明社会更易接受AI的“增效”结果,却对AI的“降本”结果有重重忧虑,毕竟替代作用会更多冲击既有利益格局,引发更多利益相关者反弹。其二,C端应用有更多制度障碍。一个可能原因是它与客户体验、企业声誉和社会安全稳定相关,出问题的处理成本更高,所以监管更加严格、社会疑虑更多;而B端应用的风险主要与企业内部流程和运营相关,主要影响效率,来自外界环境的疑虑更小。另一个可能原因是C端应用要基于用户行为数据来反馈改进,数据合规问题更敏感;而B端应用往往基于企业内部流程数据改进,数据方面的障碍更小一些。结合上节关于技术障碍的内容可发现,不论从技术因素还是制度因素考量,未来AI的B端应用可能更快普及,C端应用会慢一些。
AI相关企业的数量可作为衡量一国AI产业发达程度的一个代理指标,不论是创业公司数量还是所有类型企业数量(图表5.9),美国毫无悬念居于首位,中国、印度和英国位居前列。考虑到美国是发达国家的代表,印度是发展中国家的代表,本文将这两国与中国相比较,以取他山之石,推进中国的AI应用。
注:此处提供了两个口径的企业数量。AI创业公司累计数量来自于Stanford报告;产业分类属于AI的现有企业数量来自于Crunchbase,检索条件是产业分类为AI+Generative AI,状态为在运营中,数据采自2024年4月19日。后者中有些并不是创业公司,主营业务也不一定是AI,往往是其他产业切入AI,例如滴滴公司。所以前者口径显示的企业数量远远小于后者。
资料来源:Stanford AI Index Report 2023,Crunchbase,中金研究院
美国一直引领人工智能领域的发展,AI基础研究与产业应用形成了闭环,形成了完整的产业链。2023年全球发布的重要机器学习模型中,来源于美国的有61个,大幅领先于中国(15个);基础模型(Foundation Models)中来源于美国的有109个,而中国仅20个[78]。美国有一大批专注做AI开发工具的厂商,有效连接基础设施层和应用层,降低了开发应用的门槛。例如在游戏领域,Unity公司研发了AI游戏引擎,Nvidia推出了ACE服务,微软与Inworld合作打造AI NPC的开发工具等。完整的产业链催生出许多AI开发企业。截至2024年2月初,游戏和传媒产业公司业务与AI相关的美国企业有1553家,远高于中国(118家),专注做工具开发的美国企业有954家,接近中国同类企业数量的30倍(34家)[79]。在应用层,美国的覆盖场景较为丰富,有大量有创意的生活服务类应用;相比之下中国的AI应用以文档生成、营销、电商等商务场景为主。丰富的应用为美国AI基础研究积累了大量数据。2022年中美各自发表的AI论文中,美国有14.1%来自产业界,而中国仅有7.4%[80]。
美国AI应用产业体系完善的一个重要原因是投资供给充分。从总量看,2013-2023年间美国在AI领域累计PE/VC投资额为3352.4亿美元,是中国的3倍[81],且近年来两国的差距扩大(参见本报告第十二章)。从结构看,值得注意的是,大型科技企业是美国AI风投的主要参与者,2023年美国60%以上的AI领域风险投资来自亚马逊、微软和Google三家;而百度、阿里、腾讯三家在国内AI领域风投的占比仅约22%[82]。国内消费类产业AI应用和开发工具创业公司获得的大额融资不足,2023年中国获得1亿美元以上融资的14家企业中仅有2家是消费应用企业,且获得的融资最少,无开发工具公司;而美国同期融资最多的14家AI创业公司中,5家企业的主营业务为开发工具,另有5家为消费类产业应用[83]。充分的资金供给使美国AI企业敢于投入研发;对比之下,国内创业公司往往更倾向于做“活下去”的业务,不敢坚定不移“烧钱”研发。
另一个原因则是AI人才和技术供给充分。2022全球前2%的顶尖AI研究人员中,本科毕业于美国和中国的占比分别为28%和26%,然而近60%的人才选择在美国工作,选择在中国工作的仅12%[84]。全球重要深度模型的研究者主要来自美国(2022年为285人),而中国的人数甚至被欧洲超越(2022年仅有49人)[85]。另外,美国的开源社区在AI技术和数据集上的积累以及开放度领先全球,既诞生了PyTorch、TensorFlow等经典AI开源框架,也有Llama等知名开源大模型。
第三个重要原因是美国对AI的产业需求要比中国成熟。以游戏为例,美国有7500多家公司,为AI开发工具商提供了大量B端用户;但中国的游戏市场集中度较高,只有约1000家公司,开发工具的B端用户较少。而且,美国有为软件授权付费的成熟商业环境,为企业开发AI工具提供了良好的激励。
印度的AI基础能力落后于中国,但差距正逐渐缩小。目前印度在GitHub上发起的开源AI项目数量远超中国,然而项目质量(累计获得star的数量)暂时不如中国[86];其中,从有中度影响力的GitHub项目占比看,印度已经超越中国,但有高度影响力的GitHub项目方面,中国仍领先印度(图表5.10)。2023年全球发布的重要机器学习模型中,印度仅有1个,且并无基础模型贡献。
不过,印度政府和企业都非常重视AI的应用价值。印度政府在2018年就制定了AI战略规划,与中国的AI战略注重保持其全球竞争力不同,印度的AI战略更注重其对社会经济问题的解决价值[87],旨在利用AI促进经济增长、社会发展,使印度成为AI的创新实验地。在该战略框架下,印度政府建立了“国际AI转化中心”(ICTAI),注重AI研究的市场转化与社会重要领域的开发应用[88]。印度企业很早就意识到AI对生产效率的提升并积极落地AI技术,积极利用AI技术的企业占比高于中国。在非IT领域,金融、零售和医疗类企业AI渗透率超过50%[89]。在2022年麦肯锡针对企业家的调研中,62%的印度受访企业已经落地布局AI技术,高于美国(59%)和全球平均(50%)[90]。2023年IBM的企业IT部门调查也显示了相似结论[91]。此外,民众对于AI的信任也是AI产业化的关键驱动因素。毕马威显示95%的印度民众愿意接受AI技术,87%的民众愿意在工作中相信AI技术,该比例均处于全球最高[92]。
注:中度影响定义为项目在GitHub上被拷贝分叉(fork)6-100次,高度影响定义为项目被分叉100次以上。
资料来源:OECD.AI,中金研究院
印度在AI产业化方面具备较强后发潜力,可借助与美国的合作实现短期跨越。2024年初印度政府发起了India AI项目,开始强化对大模型的开发和算力建设。Nvidia宣布与印度塔塔集团和信实工业合作,使用GH200 Grace Hopper超级芯片在印度建造超级计算机[93]。部分印度AI企业已利用美国的公开数据进行模型训练或美国的云服务进行应用开发。印度公共部门的数据开放程度也较高,2023年Oxford Gov AI Readiness Index显示,印度的数据开放得分非常高。
医疗卫生领域是印度AI应用的重要场景。可及性不足是印度卫生保健体系面临的主要矛盾。一方面,印度面临着急性传染性疾病和慢性非传染性疾病的双重挑战,2012年印度传染性疾病死亡率是中国的6倍以上[94],30-79岁人群高血压标化发病率接近中国[95];另一方面,印度的卫生资源严重不足,2013-2021年间印度每万人拥有的医师数、护士数、床位数都远低于中国[96]。《柳叶刀》公布的2019年全球医疗可及性与质量指数显示,印度得分很低[97]。因此印度政府和医院非常重视与大型AI科技类企业合作来提高可及性。例如印度第二大医院集团Apollo Hospital分别与微软、Google合作,开发心脏病发病风险模型和医学影像AI模型[98];印度政府机构NITI Aayog牵头,与微软和本地初创企业Forus Health合作,建立糖尿病性视网膜病变的早期诊断模型等[99]。值得注意的是,新冠疫情期间印度将AI技术应用于医疗卫生各领域,各类面向民众和医务患者的问答聊天机器人相继问世,政府也通过AI类应用程序捕捉个人生活轨迹,以此识别疫情的传播风险并采取措施[100]。
(一)中国需适度优化对游戏、互联网和医疗等行业的监管以促进AI的消费应用
中国的AI应用有很大的潜力,潜在的数据资源体量和场景数量都蔚为可观。为了充分发挥潜能,促进AI产业更好地发展,保持在世界第一梯队,追赶美国,我们有必要坚持投入更多资金、提高大模型基础能力、建设算力硬件设施、打造人才队伍(见本报告第二章)。不仅如此,我们还要及时优化对互联网、游戏、医疗等行业的监管内容和方式、营造宽松的监管环境,在这些最有希望快速渗透生成式AI的行业里,让企业探索更加广阔的AI应用场景,促进消费。
1、发挥互联网大厂的领军作用
从数据、产品、技术和资金供给的各个角度看,互联网大厂都是推动AI产业进步的重要力量。它们既是AI技术开发的主力,拥有独特的海量数据优势,也是有丰富算力的公有云厂商,也由此各自开发了自己的大模型。庞大的人口基数和快速的经济增长使中国在移动互联网时代培育了全球最多的互联网用户和不少互联网大厂,长期沉淀了巨量的高质量居民行为数据,为训练复杂的大模型提供了宝贵的资源。与美国应用软件的边界分明、场景较为单一不同,腾讯、美团、字节等超级APP覆盖多元化的应用场景,数据维度也更加丰富,这为通过交叉场景训练AI Agent提供了先天的便利条件。它们也是AI技术的重度用户,业务全链条多个场景都有AI应用的潜力。一般而言,企业的技术开发与自己业务需求紧密契合,非常有利于创新,因为业务给技术提供了源源不断的需求,新技术在自身业务中先行先试,“用中学”。除了自身开发大模型,这些大厂还通过风险投资来支持创业公司打造大模型。智谱AI、百川智能、MiniMax和月之暗面等知名国内大模型创业公司背后都有阿里、腾讯等大厂数亿美元以上的投资。
所以,建议发挥互联网大厂在研发和算力方面的领军作用。大模型研发是一项非常复杂、消耗大量资金的活动,互联网大厂是大模型研发的重要领军力量,建议推动大厂形成技术、算力、数据等各类联盟,并在合规前提下向联盟适当开放部分公共数据训练,共同推进技术攻关;鼓励互联网大厂的AI领域风险投资,激励更多资金进场,使各类有特色的AI应用开发企业和拥有核心技术能力的创业公司在一级资本市场推动下做大做强;适当宽容AI的输出内容,引导应用开发企业“放下包袱”,减少合规风险和成本。另外,要引导各类AI开发工具和基础模型的开源社区建设,以降低中小企业应用开发成本。
2、优化游戏行业审批制度
正如本文开头所介绍,游戏行业的发展与竞争促进了AI相关软硬件技术的发展[101]。目前国内有庞大的游戏市场——2023年国内游戏产值突破3000亿人民币,国内市场同比增长13.95%, 用户规模历史新高[102]。这个大规模市场将为我国AI在游戏业落地,由此拉动AI技术进步提供厚实的土壤。不过,我国对游戏上线的审批较严格,有AI原生玩法的游戏上线速度较慢,只能以服务现有游戏或出海为主,不利于创新性的中小游戏公司依托国内大市场发展。对下游应用的监管限制会传导到产业链上游的景气度。上文显示,中国游戏产业链上游专注做开发工具的企业的数量(34家)远低于美国(954家)。
美国对游戏行业的监管态度基于整体考量,注重平衡产业创新和公众利益,认为应该更多依靠行业自律,通过游戏分级实现行业良性发展。学术研究表明,游戏本身可能带来积极影响,增强儿童的空间认知、团队合作、社会参与的意愿和能力,甚至作为一种教育工具用来培养儿童学习知识、练习对话技巧以及完成任务的能力[103]。联邦政府曾尝试出台相关监管方案,但最终未能获得参众两院通过[104]。不过,美国的监管将防止未成年人沉溺游戏的责任交给了家庭自主承担,这可能会造成部分学生因为管理不严而耽误学习。所以,建议我国监管部门在合理限制未成年人使用时长和付费额度的同时[105],优化游戏审批流程或实行备案制,让优秀的AI原生创新性游戏能及时上线,促进产业繁荣。