专栏名称: 闻学臣科技研究
研究成果发布
目录
相关文章推荐
哔哩哔哩  ·  猫咪当老板的超市,AI都做不出来 ·  2 天前  
哔哩哔哩  ·  和张艺兴「趁热聊聊」,他和他的新歌 ·  3 天前  
哔哩哔哩  ·  BW2025招展正式启动! ·  3 天前  
哔哩哔哩  ·  让猛男猛女集体落泪的童年神曲 ·  4 天前  
哔哩哔哩  ·  昨天B站跨晚,这是给我干哪年来了? ·  4 天前  
51好读  ›  专栏  ›  闻学臣科技研究

AI深度研究之二十五:AI应用:追本溯源之后,我们相信什么?【中泰计算机】

闻学臣科技研究  · 公众号  ·  · 2024-03-22 11:17

正文

01

 报告摘要

  Abstract


投资要点

AI应用的能力来自基础模型的能力,目前产业处于技术突破后向商业落地转变的关键时期。从人工智能的发展历史来看,技术最终能够落地应用才是行业能够维持繁荣的关键。本轮技术革命由生成式大模型开启,将有望诞生真正的通用人工智能。但当下的应用还是集中在AI的原生能力的场景中开发的,GPT Store等新的商业模式还在探索中。


未来的AI应用将走向AI Agent的终极形态,AIOS可能在基础层面提供支撑。Agent是指拥有一定“智能”,能够与环境产生交互的智能体。在软件中Agent可能表现为基于模型原生生成能力的LLM Agent,在C端的形式可能是个人助理,能够处理用户的日程、邮件等;在B端的形式可能是替代OA、办公软件形态存在的集成流程办公软件。在硬件中Agent可能表现为搭载有大模型的终端手机、PC、机器人等,能够更好满足用户的定制化需求。AI将为计算机带来软硬件层面的重构,AIOS在未来是支持Agent的重要基础。


从产业演进的角度看,应用发展的过程表现出了一定的共性。从模型角度看,垂类和端侧模型推进了应用落地的节奏;从数据角度看,高质量私域数据依旧是模型和应用的核心壁垒;从用户角度看,B端客户关注应用的替代/提效等功能场景,C端用户则更关注产品力表现;从模态角度看,多模态依旧是必然趋势,通用的超级应用最可能诞生在通用多模态LLM之下;从工程角度看,系统将走向AI原生,基础软件、应用软件乃至操作系统都可能迎来重构,计算机的基础架构可能迎来一次改变;从安全角度看,涌现的大模型表现出了超乎想象的能力,保证其本身和数据安全性将会是极其重要的课题。


AI应用在适合原生能力的场景、以及前瞻性应用中的落地更快。从赛道看,具有“大规模+低门槛”的客服对话场景是最先得到应用的,代码生成+低代码开发场景与视觉AI+工业场景同样能得到较快应用。从科研领域看,AI for Science也拥有巨大的潜力,在基础、交叉学科均有前瞻性的应用。



投资建议

投资建议:人工智能新一轮十年级的技术和产业革命大幕已经拉开。GPT、Sora、Gemini 1.5、Claude 3等基础模型能力持续迭代,各场景应用已经进入商业模式落地阶段,只需静待数据验证。对应的投资方向如下:

模型视角:建议关注科大讯飞、商汤、格灵深瞳、云从科技、云天励飞、三六零等;

应用模态视角:文本建议关注金山办公、彩讯股份、福昕软件;代码建议关注金现代;图片视频建议关注万兴科技;3D建模建议关注中望软件、索辰科技、广联达、华大九天、概伦电子、浩辰软件、盈建科等;

中长期垂直龙头视角:金蝶国际、广联达、恒生电子、明源云、中科软、用友网络、同花顺、北森控股等;

行业应用场景视角:金融场景建议关注恒生电子、顶点软件、同花顺、中科软、宇信科技、百融云、京北方、天阳科技、长亮科技、新致软件等;医疗场景建议关注卫宁健康、创业慧康、嘉和美康、医渡科技、鹰瞳科技等;汽车场景建议关注中科创达、德赛西威、经纬恒润、万集科技、岩山科技等;其他建议关注焦点科技、萤石网络、鼎捷软件、赛意信息、拓尔思、佳发教育、神思电子、云鼎科技、鸥玛软件、金桥信息等;

安全视角:建议关注深信服、启明星辰、国投智能、天融信、绿盟科技、迪普科技、安恒信息、安博通、盛邦安全、永信至诚、亚信安全、奇安信等。



风险提示

风险提示:相关技术落地不及预期的风险,行业竞争加剧风险,政策风险,能耗过大风险,信息更新不及时风险等。



投资主题

报告亮点

人工智能是一个具有复杂性的交叉领域。我们复盘了行业发展的历史,对产业共性进行了分析,通过对产业演变的推演分析了其中的核心要素,并试图为投资者寻找到更具确定性的投资方向。


投资逻辑

人工智能新一轮十年级的技术和产业革命大幕已经拉开。Sora、Gemini 1.5、Claude 3等基础模型能力持续迭代,各场景应用已经进入商业模式落地阶段,只需静待数据验证。建议从模型、应用模态、中长期垂直龙头、行业应用、安全视角关注公司。


02

 报告正文

  Details


内容目录



正文内容

产业复盘:AI是技术驱动的行业,正处于商业应用关键期

人工智能是赋予机器执行人类行为和任务能力的学科,旨在让机器模仿类似人类智力的复杂认知能力,技术的进步是推动产业创新的核心力量。

产业历史复盘:人工智能经历了各类思想的涌现、对立与融合

与其他技术发展的规律相似,AI技术的发展也是不断融合已有的技术和思想后,加入新的创造并获得新的突破。

纵观人工智能近百年的发展历史,主流的观点基本都来自于三大思想流派:符号主义(Symbolism)、连接主义(Connectionism)和行为主义(Actionism)。

针对感官信息在人类记忆中的存储方式和“智能”的产生方式,各学派的观点也不同:

  • 符号主义认为,智能源于数理逻辑,人类的思维过程可以使用符号系统和规则进行表示;

  • 连接主义认为,感官的刺激并不存储在记忆中, 而是在神经网络中建立起 “刺激-响应”的连接, 通过这种连接产生了智能行为。因此智能是一种基于符号的逻辑和计算活动,靠知识和规则进行决策。 

  • 行为主义认为,智能是具身化和情境化的,会在与真实环境的交互作用中表现出来,而不是依赖于预先设定的知识和目标。

历史中符号主义和连接主义曾轮流占据行业主流。从连接主义与符号主义被引用的出版物数量对比可以看出,两者曾经轮番引领行业的发展方向。

符号主义的强项在于其能够进行知识表示和逻辑推理,可解释性更强;而连接主义特别擅长于处理大规模数据和模式识别问题。而行为主义适用于处理强化学习,对于神经网络参数的误差传递问题和机器学习中的数值计算问题也有更好表现。

当下越来越多的研究致力于将符号主义和连接主义结合起来,以期望克服各自的局限性,改善AI在部分下游任务中的表现。如将语言模型与知识图谱(Knowledge Graphs)结合,或在生成阶段使用RAG(Retrieval-Augmented Generation,检索增强生成)方法查询外部数据源等。


应用落地始终是横亘在行业前的难题

复盘历史,我们发现AI落地应用才是行业能够维持繁荣的关键。如今人工智能的主流方法论(神经网络等)诞生的时间很早,但由于硬件性能所限,这类算法设想难以落地应用,随之而来的就是整个行业的资金枯竭,研究也进入沉寂期。而在数年或数十年之后,随着软硬件技术的进步,这些设想可能再次获得创新与发展,表现出新的生命力,再次引领行业的热潮。

AI第一次繁荣与寒冬:自1958年人工智能编程语言LISP被开发出来之后,人工智能行业就进入了一次发展的繁荣期。然而在1950s-1960s年代,大量资金和支持被投入到机器翻译的研究中,但应用进展却不顺利。1966年美国政府率先大幅削减了对人工智能研究的投入资金,行业进入了第一次寒冬。

AI第二次繁荣与寒冬:1980年代,随着更多的数据能够输入进计算机中,符号主义的专家系统引领了第二次的人工智能产业繁荣。专家系统在财务规划、医疗诊断、地质勘探和微电子电路设计等领域都能够发挥一定作用。然而专家系统能力依旧有限且构建极为复杂,始终无法真正落地应用。1984年,约翰•麦卡锡批评专家系统,认为它们缺少对自身局限性的常识和知识。1987年至1989年,DARPA ISTO主任Schwarz认为人工智能研究“在特定领域取得的成功非常有限”。随后人工智能研究的资金也快速减少,大量人工智能公司在此期间破产,行业进入了第二次寒冬。

从历史中可以发现,AI的两次行业寒冬都是因为硬件和软件技术有所限制,受制于特定领域、特定模型和特定任务的限制,通用性不强,技术没能突破应用奇点,行业投资资金枯竭,最终进入了低谷期。因此,应用商业落地的关注是跟踪本行业的重点。

AI的第三次繁荣:自从2012年AlexNet为代表的深度学习爆发后,AI产业迎来了第三次繁荣时期。随着AlphaGo战胜围棋世界冠军李世石和柯洁,深度学习也迎来了巨大的关注。2022年10月,随着人工智能对话应用ChatGPT的发布,生成式人工智能GenAI(Generative AI)迎来了爆发期。支撑ChatGPT的基础模型GPT-3早在2020年就被创造出来,但只有当ChatGPT这个对话产品走入大众视野中,生成式、通用的人工智能才成为了产业关注的焦点。

本次的技术突破首先来自算法架构的优化,Transformer突破了文本长距离依赖性的难题,以此为架构的生成式NLP神经网络模型才能够大幅扩充规模和训练集。随后OpenAI又投入了大量算力资源扩充模型的训练集和参数规模,使大模型表现出涌现性并大幅提升泛化能力。自此,生成式人工智能也真正开始拥有了通用性,我们正处于从ANI(窄域人工智能)走向AGI(通用人工智能)时代的开端。


行业规模将超千亿,AIGC应用空间将迎爆发期

人工智能行业处于快速增长期,直接支出规模将超千亿。IDC预测2027年中国AI投资规模有望达到381亿美元,在全球占比约9%。

与生成式AI相关的AIGC(AI Generated Content)市场也将迎来高速爆发期。随着基础持续突破、行业生态逐渐完善和商业模式成熟,2030年AIGC市场规模有望超万亿。

AI应用目前尚处于红海时期,商业模式仍在探索中,竞争格局较为分散。从底层基础设施、基础模型和衍生的服务、应用等领域的竞争处于早期阶段。


未来展望:应用将走向AI Agent终极形态,AIOS将成系统基础

AI的定义中始终包含智能体的概念

Agent是一种软件程序,旨在与其环境交互,感知接收到的数据,并根据该数据采取行动以实现特定目标。通俗理解,即能够与环境(软件或硬件)产生交互行动(Actions)的智能应用。


在人工智能的历史上,“智能”的概念很早就已经扩展到了智能体Agent的范畴。1950年,由艾伦•图灵提出的图灵测试(Turing Test)被设计成一种思维实验,如果人类提问者无法分辨书面回答是来自人类还是计算机,那就证明通过了测试。这类计算机需要具备多种能力:

  • 自然语言处理(Natural Language Processing),以使用人类的语言进行交流;

  • 知识表示(Knowledge Representation),以存储它所知道的内容;

  • 自动推理(Automated Reasoning),以回答问题并得出新的结论;

  • 机器学习(Machine Learning),以适应新的环境并检测和推断模式;

1989年,Harnad又进一步提出完全图灵测试(Total Turing Test),在原始图灵测试的基础上增加了视觉、听觉等其他维度的测试,只有感知、认知能力全部达到了人的标准才算是通过图灵测试。在这样的要求下,计算机需要与真实世界中的对象和人进行交互,还需要拥有更多能力:

  • 计算机视觉(Computer Vision)和语音识别功能,用以感知世界;

  • 机器人学(Robotics),以操纵对象并与真实世界产生交互。

Agent正在一步步走向现实。随着人工智能技术的发展,通过CV和语音识别进行人机交互已经成为了现实,将人工智能与机器学结合将成为未来应用发展的核心趋势。当下语音、图像、视频等模态信息处理技术都产生了突破,未来也将为智能系统带来更多信息输入,推进其从感知智能到认知智能的升级,并最终将能力赋能给应用。


从LLM到Agent,还需要经历什么?

根据自主能力的不同,基于LLM的Agent的形态将会经历完全辅助、部分自主、完全自主的过程。

基于大语言模型的Agent AI由三部分组成:大脑(Brain)、感知(Perception)和行动(Action)。

  • 大脑:如同人类一样,大脑是Agent的核心。它不仅存储关键的记忆、信息和知识,而且还承担着信息处理、决策、推理和计划等基本任务。

  • 感知:能够将主体的感知空间从纯文本空间扩展到多模态空间,包括文本、声音、视觉、触觉、嗅觉等。这种扩展使代理能够更好地感知来自外部环境的信息。

  • 行动:使智能体拥有文本输出、采取具体行动、使用工具的能力,以便其更好地响应环境变化,提供反馈,甚至改变和塑造环境。

Agent最终将走向具身智能,向机器人等实体形态发展。LLM Agent内核的决策能力将扩展为具体的行动,并通过机器人等实体与现实物理世界产生反应与交互。

2024年1月,Google DeepMind和Stanford共同发布了机器人Mobile ALOHA。这个机器人能够直接从真实演示中执行端到端模仿学习,能够执行烹饪等家务技能。通过采用基于Transformer的行动组块(Action Chunking with Transformers)的学习算法,能够较好地完成对人类动作的模仿学习。


AIOS:重构软件与创造智能体的关键一步

我们发现,AI同时具有软件和硬件性质:它不仅是一个运行在算力设备上的软件,也能够承担计算功能。

  • 软件的特点:无限复制,其成本绝大部分在前期研发费用,后续使用的边际成本极低。

  • 硬件的特点:短期看训练、推理与算力基础设施深度绑定。从更长远的角度看,AI本身就扮演着基础设施的角色。

因此看待AI发展时,我们不仅应当从软件本身的视角来思考,也要从其硬件的特性考量。当AI与基础软件深度耦合,未来的AI本身可能已经成为了计算机的组成部分,必将对计算机的各层次架构产生深远的影响:大型语言模型的引入大大提升了开发的效率,降低了开发的门槛,也将开始改变现有的操作系统、架构、乃至编程语言。AI对基础软件操作系统的重构将可能改变软件应用的底层生态。

与传统的OS架构不同,未来的操作系统可能成为大语言模型为核心的AIOS。用户与Agent应用和操作系统的交互以自然语言的prompt形式进行,LLM则会调用工具API完成相应的响应和操作。


AI Agent的软件应用:目前依旧是LLM结合简单API操作软件

目前的AI Agent软件应用还是基于LLM自身的特性,通过调用传统应用软件的API来完成操作与交互行为的。

AutoGPT是通过接入OpenAI基础模型实现Agent AI的代表性产品。它最初是发布于Github上的一个开源项目。用户可以通过自然语言提出任务需求,AutoGPT则可将这一计划拆分为若干个子任务,并能够操作使用互联网或其他工具完成这些任务。

Adept AI通过构建多模态架构实现视觉(如UI)识别,赋能办公流程。Adept AI成立于2022年1月,是一个构建通用人工智能的机器学习研究和产品实验室,公司的目标是训练模型来使用世界上的每一种软件工具和 API。

对于知识工作者而言,合格的Agent助理应当可以访问屏幕上可见的内容,而这些数据和信息通常是以图像形式呈现的。同时操作软件时用户需要点击按钮或滚动浏览菜单,但许多业务相关软件没有API或API不完整。因此Adept AI设计了Fuyu-8B的多模态架构,通过有效识别屏幕上的UI来控制软件。


AI Agent的硬件应用:首先与现有终端结合,等待成熟硬件产品诞生

当AI推理的载体不再是大规模的云端服务器,而是边缘侧的硬件计算设备时,应用的形态将不再是单纯的软件,而是表现为与硬件深度结合的基础软件+部分应用功能。端侧硬件需要更加成熟,能够支撑起更强大基础模型的推理功能。作为端侧“大脑”的边缘模型也能够拥有足够的能力和通用性。

与现有终端结合是Agent走向端侧应用的重要场景。

通过与手机、电脑等终端设备结合,AI将会走入普通人的生活,承担起“个人助理”的角色。以高通、华为海思为代表的芯片厂商也纷纷布局手机AI芯片。

以AI Pin为代表的可穿戴设备能够更好运用AI原生能力,更加接近个人助理的形态。其使用的操作系统名Cosmos,能够按用户需调用各种功能,提供纯粹的AI体验。AI Pin也获得了OpenAI的技术支持,搭载了基于GPT-4开发的专有语言模型,能够帮助用户梳理来自于邮件、短信等不同渠道的信息并总结要点,以及支持实时翻译功能。

智能汽车的端到端智能可能成为高阶智能驾驶新的突破方向。汽车作为成熟的端侧机器人产品,搭载BEV+Transformer路线已经实现了智能驾驶能力的飞跃。主流的自动驾驶系统包括感知、定位、预测、决策、规划和控制六大核心功能。

端到端自动驾驶系统将系统视作一个黑箱,将所有模块神经网络化,训练一个或者多个神经网络,得到从感知结果到控制命令的直接映射。这种方式能够将决策算法从规则驱动转向数据驱动,有望解决困扰自动驾驶领域的长尾问题。

2023年8月,特斯拉FSD Beta V12测试版作为首个端到端AI自动驾驶系统问世。在驾驶时仅依靠车载摄像头和神经网络识别道路和交通情况,并做出相应决策。经过数百万个视频剪辑的训练,取代了超过30万行显式的C++代码。从测试表现看,搭载了FSD Beta V12自动驾驶系统的车辆能够应对各类驾驶场景,并体现出强大的泛化能力。


过程推演:六个角度找寻应用层演进中的确定性

模型角度:基础模型是应用的根本,垂类模型、端侧模型加速应用过程

应用产品的爆发一定是在技术水平突破到一定程度上时产生的,本质是用户对于产品力的认可。本次ChatGPT产品背后175B版本模型是2020年诞生的,InstructGPT也是2021年诞生的。但是并没有引起如此广泛的关注。应用的“爆点”常常晚于技术的“爆点”。基于GenAI的爆款应用或许已经不远。

遵循Scaling law的规律提升基础模型的能力是确定性最高的方向。Scaling law可以类比为AI领域的“摩尔定律”,投入更多算力、获得更强模型的经验规律依旧指引着基础模型发展的方向。

除扩大训练和模型规模的途径,MoE等架构也能大幅提升模型的可用性。MoE混合专家模型架构就能够大大提升模型的“宽度”而非“深度”,大大降低推理时的算力消耗,降低应用门槛。

行业垂类模型的开发也能够加速行业应用的落地。通过在特定的领域或行业中经过训练和优化,垂类模型更专注于某个特定领域的知识和技能,具备更高的领域专业性和实用性,加速行业应用落地。


数据角度:贴近上游(数据)的公司更为受益,数据是规模效应的体现

人工智能正在经历模型为中心向数据为中心的范式转变。

以模型为中心的AI(Model-Centric AI):更关注选择模型类型、架构及超参数等方面,通过改进模型来提升AI的表现效果。但随着相关理论的成熟,模型在固定数据集上的表现逐渐趋于稳定,而针对复杂世界中的真实数据集,改进模型对提升表现的帮助也并不大。

以数据为中心的AI(Data-Centric AI):更关注数据的系统设计和工程化,通过改进数据集来提升AI的表现效果。实际这种AI常常保持模型固定,通过提高数据的质量和数量来实现性能的提高。对于机器学习而言,通过下游任务的表现可以很容易对数据集质量进行量化评估,有利于提升模型表现的可解释性。

虽然以GPT为代表的Transformer架构模型已经成为了当下的主流,但针对模型的创新仍在继续。以模型为中心和以数据为中心的范式将相互推动,共同提升模型的效果。

长远看,高质量的数据资源将形成“数据飞轮”效应,逐渐构成人工智能应用的核心竞争力。

“飞轮效应”,是指想推动静止的飞轮转起来,开始需要耗费较大力气,但当转速到达临界点,只需稍微用力,飞轮就可加速转动。对于AI公司而言,通过高质量的独家数据能够训练出表现更佳的AI模型,通过模型的应用又能获得更多高质量的数据,形成良性循环。

合成数据作为增强数据的方法,未来应用将会更加广泛。自动驾驶、医疗等领域应用层公司有望大规模采用合成数据,加速产品商业化应用。

如今数据集的质量对模型的表现起到越来越大的决定因素,但对于很多问题,现实世界中收集到的数据不能满足模型的训练需求,很多数据甚至无法在现实中搜集。对此类问题,采用合成数据是有效的解决方法。

合成数据(synthetic data)就是通过计算机技术生成的数据,而不是由真实事件产生的数据。这些合成数据具备“可用性”,能够在数学上或统计学上反映原始数据的属性,因此可以用来训练、测试并验证模型。

使用恰当合成数据训练的模型效果可以大幅提升。OpenAI的DALL•E 3和Sora模型就使用了合成数据的方法,大幅提升了训练数据质量并改善了模型表现。通过分别训练简短和详尽的文本生成器,生成了前代模型训练集中对图像的文本描述,并用来训练新版本的模型。这种方式取得了极大的模型效果提升。

自动驾驶领域广泛运用合成数据。自动驾驶面临很多长尾(Long Tail)场景。这些场景的发生的概率非常低,自动驾驶算法无法对其进行有效的识别和决策,一旦发生对驾驶安全会产生非常大的威胁。因此在现实中收集长尾场景对模型进行训练是不安全且不现实的。

通过运用模拟器合成数据,可以改善算法在长尾问题中的表现。首先对现有模型进行评估,再使用模拟器模拟算法失效的案例,并使用ML算法合成类似场景的图片加入训练集再次训练。如此反复后,算法应对类似场景的能力将能够显著提升。


用户角度:B端关注替代/提效等功能场景,C端关注产品力

B端客户关注能够直接带来效率提升和人力成本替代的应用。

对于B端客户而言,短期看直接带来提效和人力成本替代的应用是最有效的场景,长期看能够直接帮助企业创收的应用会拥有更多发展空间。

  • 降本逻辑:能够直接增加办公效率或提升业务运转效率(如办公软件);能够替代人力成本(如智能客服);

  • 创收逻辑:能够直接成为或构建业务和产品的一部分,从而为企业直接创造收入(售卖AI产品的公司);

B端可以关注以Microsoft 365 Copilot等代表产品的商业化落地节奏。Microsoft 365 Copilot的定价为$30每月,且需要企业用户在Microsoft 365 E3、E5或Office 365 E3、E5订阅计划的基础上进行订阅选择。即使是针对相对昂贵的Microsoft 365方案,Copilot的订阅价格涨幅也分别达到了83%和79%。


C端应用短期用户是技术爱好者,长期还需有颠覆性产品力。

C端需要基于创造性和颠覆性的场景,应用本身的产品力需要足够强大且受众足够广泛。C端应用规律可能更类似与互联网时代,产品力需要足够强大。以引发用户关注的Pika为例,仅仅是AI原生的视频生成效果就形成了强大的传播效应。


模态角度:多模态是必然趋势,垂类模型促进应用

深度学习逐渐向多模态学习迈进,针对多模态的应用也处在早期开发阶段。通用的AI Agent需要和真实世界交互,处理感知数据是必然需要的能力。

从模型本身的发展角度看,单一模态的数据量是有限的。在获取一定数据量之后,仅仅是引入代码数据就能让NLP模型的数学能力大幅提升一样,多模态的数据也可能为单一模态任务带来大量的提升。

最重要的是,作为模态融合的基础,语言模型的能力已经达到了可用的程度,可以作为不同模态数据表示对齐的媒介。如OpenAI将GPT-4与DALL•E整合的方式就是先根据用户的提示使用GPT-4撰写更详细的提示,再调用DALL•E生成用户所需的图片内容。

2023年12月,Google发布的Gemini模型就是原生多模态大模型。其输入能够支持文本、语音、图片和视频,并且能够输出文本和图片。

2024年2月,OpenAI发布了视频生成大模型Sora。OpenAI通过将Transformer架构与Diffusion Model的训练思想相结合,利用强大的算力、工程能力以及GPT和DALL•E模型技术积累训练出了Sora,视频生成领域也拥有了类比“GPT时刻”的通用基础模型。随着OpenAI将这种具有开创性的技术路径走通,国内模型和应用厂商有望快速迭代出类Sora的视频生成模型和应用产品。

多模态应用与LLM应用类似,也将从原生应用出发,逐渐发展为更成熟可用的产品。从商业化应用节奏看,和文本结合的多模态任务落地节奏会更快,文生图任务已经逐渐达到了商用标准,文生视频也在快速突破中。

Adobe推出的Adobe Firefly是产品与多模态AI结合的代表性产品。Adobe拥有成熟的图片、视频等编辑产品,通过将AI的生成能力嵌入Photoshop等产品,可以帮助用户更好地完成对图片的二次创作。

在大模型迁移学习能力不足的背景下,垂类模型是增强“专才”能力的最有效途径。未来看,通用的超级应用最有可能诞生在通用的多模态LLM背景之下。


工程角度:系统将走向AI原生,GPTs标示应用开发的新方式

AI可能与系统深度耦合,软件应用将走向AI原生。现阶段的大模型能够帮助程序员提升效率,但依旧很难直接构建出可用的AI应用。未来的人工智能可能会先成为系统的部分组件,以增添或替换的方式与系统进行耦合。未来的软件系统可能会完全基于AI原生,系统内的所有组件都能够使用AI能力。

未来的软件将走向人工智能原生架构,并最终发展为整个的智能。随着AI技术的进步,在成本效益分析允许的情况下,应该能够在每个合适的场景使用AI。当下AI/ML模型被部署在特定的层次和领域内,随着演进的过程AI/ML模型开始跨领域部署,模型开始在不同的层次间共享和交流数据;未来模型生命周期管理跨领域实施,这意味着AI/ML模型及其管理变得更加集成和协调,数据驱动的基础设施将会贯穿整个架构,无论是跨层次还是跨领域,都可以灵活地共享数据和资源,实现智能化的优化和决策。

AGI将彻底改变人机交互的模式,也将改变基础软件的范式。

正如比尔盖茨预测的那样,AGI将颠覆软件行业,带来自键入命令到点击图标以来最大的计算革命。微软已经将Copilot功能集成在了Windows操作系统中,用户可以以自然语言对话的方式控制系统。以操作系统为代表的基础软件将与AI深度耦合。

OpenAI推出的GPTs是AI原生应用的一次尝试,支持完全无代码开发方式。

2023年11月,OpenAI举办了首届开发者大会。会上OpenAI发布了自定义功能GPTs,并搭配了GPT Builder工具用于协助用户完成自定义功能。用户无需掌握代码写法,只要结合指令、外部知识库和能力,就能够创建自定义版本的ChatGPT。用户还可以通过向GPT提供Zapier API来定制化自己的Action。

这种方式颠覆了传统的app开发流程:产品经理分析用户需求之后,与开发人员沟通,以专业编写代码的方式实现功能并进行多轮测试之后上线。应用的开发过程可能需要很长时间,也难以实现针对不同C端用户需求的定制化开发。

而GPTs的开发过程则是零门槛、由用户完成的过程。用户只需要与GPT Builder进行对话,就能够根据需要生成属于自己的GPTs。这个操作的过程可能只需要几分钟的时间。LLM直接承担了产品经理与开发者的角色,运用强大的自然语言处理能力与泛化能力直接完成了整个开发流程。GPTs的能力高度依从于基础模型的能力,且只能完成用户比较简单的需求,很难代替传统的软件开发过程。但随着模型能力的提升,这种定制化的边界也将有巨大的扩充潜力,这也将是产品化与定制化这一矛盾最有希望的解法。

GPT Store为代表的AI原生应用商店可能构建出新的平台生态。

在开发者大会上,OpenAI还推出了自己的“APP Store”——GPT Store。用户可以选择将自己的GPTs上传,OpenAI会根据访问次数等因素对GPTs进行排序,并开放给其他用户使用。未来GPTs的创造者也可以根据访问量收取一定费用。这是OpenAI建立自己平台生态与商业模式的一次尝试,不管是否能够成功,都将能够获得之前无法获得的私域数据(在默认情况下这些数据可以用于模型训练)。这些又将加入其“数据飞轮”中的一部分。即使最终无法变现,也能继续提升基础模型能力。


安全角度:涌现的大模型需要更多约束,安全必定伴生应用存在

安全问题主要涉及AI本身的安全性(内生安全问题)以及对于AI使用过程中的数据安全、网络安全(衍生安全问题)的监管。

针对内生安全问题,OpenAI正在研究通过AI监督AI的方式来保证未来超级人工智能的安全性。OpenAI在未来四年内将使用20%的计算资源在解决超级对齐(Superalignment)问题,用以引导和控制可能比人类聪明得多的人工智能系统。除此之外,可解释性的相关研究还需要近一步突破,这是解决人工智能应用安全的核心理论。

Anthropic通过建立宪法人工智能(Constitutional AI,CAI)模型的方式对AI进行约束。除传统的RLHF方式之外,Anthropic通过制定一系列的“宪法条款”来约束AI的行为。这些宪法借鉴了一系列来源,包括联合国人权宣言、信任和安全最佳实践、以及其他人工智能研究实验室提出的原则(例如来自 DeepMind的Sparrow Principle)。

Anthropic也对宪法的内容进行了一次公开的投票征集。参与者可以对现有规则(规范原则)进行投票,也可以添加自己的规则。大多数声明都达成了高度共识。未来随着AI能力持续提升,这种基于“宪法”的对齐可能会更加高效。

Anthropic参照ASL系统在预防灾难性风险和提升模型能力之间进行取舍。在2023年9月发布的RSP安全条款中,Anthropic定义了一个名为AI安全级别 (ASL) 的框架。如果他们的AI系统超出了遵守必要安全程序的能力,Anthropic可能会暂时暂停训练更强大的模型,并努力解决必要的安全问题。通过这种评级也能够在产品投放市场之前严格证明其安全性。

大模型的数据安全和网络安全监管同样重要。对企业而言应用LLM是会带来全新的安全挑战,由云计算平台或基础模型公司推出的安全服务或将更受欢迎。

Sora等模型的发布也让深度伪造(Deepfakes)问题成为了关注的焦点。这种技术能将视频中的脸孔替换成别人的脸孔,甚至创造出虚假的场景。当前有专家强调,实施有针对性的防御措施至关重要,这可能包括为人工智能生成的内容打上独特的标识符或“水印”,以便准确追踪信息源头,及时遏制虚假信息的传播。


过程推演:六个角度找寻应用层演进中的确定性

此前几部分我们从技术的角度推断发展,是为了抓住行业长期演进的脉络;本章我们将从已经较为成熟的落地场景出发,选取具有代表性的赛道进行分析,提炼出较快运用AI能力的行业具备的共性,以发现更多的前瞻性投资机会。

赛道特点:足够适合原生AI能力,大模型能带来较大提效 

AI+智能客服:最广泛的应用场景,可赋能几乎所有行业

  • 响应高并发、个性化程度高、专业程度较低的提示是大语言模型最擅长的场景。对话式的客服场景如果使用人工,成本会十分庞大。但其涉及的知识库是有限的,使用GenAI就能很好地替代客服的服务。

  • GPT-4V等多模态大模型能够赋能保险机构,辅助保险理赔场景。GPT-4V可以准确识别和评估车辆受损程度,并且识别损坏以及图像中描绘的车辆特定信息,如品牌、型号、牌照和其他相关细节。保险公司有望在未来实现保险报告自动化生成。

  • AI智能催收帮助银行等金融机构贷后管理能力。AI催收可代替人工外呼与真人直接对话,很大程度上解决了人工坐席不足、非上班时间外呼人员缺乏和重复外呼的问题。相比人工催收,AI也能够始终使用礼貌用语,有效规避了与欠债人的冲突。

AI+工业:工业质检/智能矿山,视觉大模型的有效应用场景

  • AI能够辅助工业质检,有效替代制造业人工。传统人工质检效率较低,且如今制造企业普遍面临招工困难、人员培训成本高、人工流失率高、质检不够精准等问题。AI能够代替人工完成该部分工作:典型应用场景包括3C零部件缺陷检测、汽车零部件缺陷检测、钢铁外表面缺陷检测等。IDC预计2022-2026年中国工业AI质检复合增速为33%,到2026年工业AI质检整体市场将达到13.35亿美元。

  • 封闭场景如矿山可运用CV大模型能力大幅提升效率和安全性。如云鼎科技联合华为盘古大模型发布了矿山行业大模型,在采煤、掘进、主运等多个场景提供AI能力,且模型可以复制到其他矿井使用。

AI+低代码开发:AI承担代码工作,最大限度减少人力成本

  • GenAI在代码生成领域有较好的表现,与工具平台结合能够实现低代码开发过程。

  • 微软在Power Platform 服务中集成了AI Copilot能力,应用包括低代码工具 Power Apps,无代码的数据可视化工具 Power BI,以及工作流自动化平台 Power Automate等。用户也可以通过在Office 365中调用API实现应用。


前瞻性应用:现有技术进入瓶颈,结合AI能力寻找新突破

AI for Science:对AI和Science的双向赋能

AI for Science即科学智能,指通过使用AI技术辅助科学研究,以解决复杂科学问题的方式。实际上运用AI承担处理数据等工作已经非常普遍,先前也诞生过很多针对特定问题的AI模型。

大语言模型的应用为AI for Science领域提供了新的思路和方向。LLMs 使得知识的提取和综合变得高效、便捷,能够大大降低新学者进入研究领域的门槛;LLMs也可以加速并改进知识贡献的过程,帮助研究人员快速检索和阅读论文等。

科学发现的过程中常常遵循两种范式,AI应用都能够为其提供加成。

模型驱动的牛顿范式是基于第一性原理的研究方法。这种方法通过提出抽象模型来对物理世界进行概括。但随着原理越来越复杂,我们开始面临维度灾难问题。“维度灾难”是指在某些问题的求解中,随着维数的增加,计算代价会呈指数增长,基于特定原理创造的模型方程可能无法求解。AI可以帮助科学家提取现实信息,从而实现对问题的多维度建模。

数据驱动的开普勒范式是通过分析数据提取统计学规律的研究方法。但随着数据规模不断扩大,依旧可能面临维度灾难问题。AI可以提供一种高效的数据处理方法,为科研提供有力的辅助作用。

对于LLM本身而言,想从“智能”走向“智慧”,学习大量科学知识是非常有效的方法。科研论文本身就是非常高质量的语料,其大量富有逻辑和知识性的内容能够帮助大模型提升效果。

科学原理本身也能够为AI带来新的思路和启发。人工智能从诞生以来就是一门交叉学科,与数学、哲学、心理学、语言学、统计学、神经科学、机器人学等学科均有所交叉。其中很多原理也能指导人工智能算法或思想的进步:如目前文生图领域的基础扩散模型就是基于热力学定律的原理创造出的;而泊松流模型(PFGM)也是基于静电学现象得出的。

AI+半导体:AI辅助微观建模,全方位助力芯片产业突破

  • 随着半导体制程的不断缩小,摩尔定律面临越来越大的挑战。三星和台积电等头部芯片企业在研发先进制程时已经遇到微观尺度的建模瓶颈,靠传统DFT 软件在效率和精度上难以兼顾。

  • AI能够在材料制造领域提供高精度建模能力,较好模拟微观结构;在芯片设计领域可以辅助电路设计;在先进制程与工艺提升方面可以为反应过程提供原子尺度的模拟,对更高尺度模型进行耦合等。 

AI+分子生物:AI蛋白质折叠预测有望带来制药领域新突破 

  • 以AlphaFold数据库为代表的AI+分子生物学领域取得了极大突破。AlphaFold 是 DeepMind 开源的人工智能系统,借助它可以更准确地预测蛋白质的形状。目前已经有超过2亿种开源蛋白质预测结构。由于大多数药物通过与蛋白质上的不同位点结合起作用,AlphaFold可以预测科学家以前并不了解的蛋白质结构,制药公司将可以借助AI发现更多可能有效的药物分子,减少试错成本。

AI+气象:大幅提升气象预测精度,预测飓风位置 

  • AI能够解决传统数值天气预报 (NWP) 系统无法兼顾准确性与时效性的问题。由于 NWP 计算量巨大,启动时间都要超过 2小时,因此难以满足“降水临近预报”的要求。

  • 2022年华为发布的盘古气象大模型运用AI技术,在1小时至7天预报精度首次超过了欧洲中期预报中心的传统数值预测系统,预测速度也提升了上万倍。



各领域AI应用上市公司梳理

B端应用:产品特性由下游行业定义,关注对标厂商产品化节奏

对于B端应用而言,下游客户的场景和需求始终是最重要的的,AI应用场景也聚焦在为下游客户实际赋能的效应之上。对于部分场景已经有海外更成熟的对标产品,需要着重关注海外的商业化拐点;对于尚无对标应用的场景,则需要回归到具体商业模式上,关注实际的产品力与下游客户的付费意愿。

金山办公:对标Copilot推出WPS AI,办公软件应用核心标的

  • WPS AI是国内唯一直接对标Microsoft 365 Copilot的产品。2023年7月6日金山办公正式推出WPS AI,随后2023年11月16日开启了公测。目前WPS AI能够在WPS系列办公软件中使用,为用户提供文本生成、PPT生成等功能。

  • Microsoft Copilot已经展现出了订阅人数和ARPU值的双升。WPS AI作为相应对标产品,发展空间广阔。

中科创达:以操作系统能力为基,端侧机器人的前瞻布局者

  • 中科创达自2008年成立以来,一直以操作系统为核心不断进行技术积累与创新,业务领域也从最初的智能终端逐步拓展到智能汽车、智能物联网、智能行业等领域。如今AI将逐渐对操作系统带来重构,中科创达也将持续为下游用户提供操作系统及端侧AI的部署能力。

  • 自研魔方系列大模型,布局端侧机器人等场景。中科创达通过将魔方大语言模型部署在TurboX智能模组上,能够将人类的语音指令转换成文字,进行意图理解,规划出任务并进行拆分,输出给机器人的执行器去执行。

  • 中科创达同样为机器人提供开发解决方案,加速端侧产品迭代。基于高通平台,提供了不同算力的核心模组(SOM),配套的操作系统、开发工具包和服务,适用于工业、服务、消费产品等领域的机器人产品需求。

焦点科技:AI助手麦可赋能B2B外贸行业

  • 焦点结合传统中国制造网业务,推出面向外贸企业的专属 AI 助手麦可。经过多轮升级,AI麦可已具备多维产品服务能力,可以通过智能产品发布(智能撰写产品信息、批量智能发品、智能产品润色、重复产品检查调整)、内容智能生成、AI辅助商机跟进(AI接待、买家智能画像、翻译与自动回复、新客分析与开发信撰写)、AI辅助拓客(行业情报、智能拓客、行业扫描仪、商机线索管理)等能力实现外贸全流程覆盖。

  • 截至2023年12月31日,购买AI麦可的会员数约 4000 位(不含试用体验包客户),现金回款超过 2000 万元。

鼎捷软件:AI+雅典娜中台,助力企业数字化转型

  • 鼎捷打造了数据驱动的数智化PaaS平台雅典娜中台。以数据驱动和知识封装为核心思维,鼎捷雅典娜PaaS平台包含封装了行业管理机制的知识图谱,并搭配数据驱动模块,实时侦测企业关键数据的变化;在数据发生变化后,依据机制里规范的执行方式,协助客户响应动作。

  • 通过与基础模型厂商的合作,打造ChatFile等PLM功能。2023年10月,鼎捷发布了新一代业内首款融入AI技术的智能化PLM(产品生命周期管理系统),基于雅典娜的数智化能力,接入Open API,集成ChatFile了应用场景,能够提升信息获取和企业运转的整体效率。


C端应用:百花齐放,关注AI对产品力的提升和赋能

C端应用百花齐放,应当更加关注AI对产品力带来的提升。历史上C端的超级应用一定都是在产品力上具有革命性,受众足够广泛且足够便宜的应用。当下AI时代虽然还没有诞生真正的超级应用,但随着开发者的不断探索,超级应用的到来时刻可能已经不远。

万兴科技:多产品线引入AI功能,“天幕”大模型全线赋能 

  • 通过将AI能力引入核心产品万兴喵影,万兴有望对标Adobe Firefly的商业模式提升产品力。万兴喵影2024的更新中上线了AI文字快剪、智能人声分离、AI智能遮罩、AI智能补帧等编辑功能。

  • 2024年1月,万兴科技发布了音视频多媒体大模型“天幕”。“天幕”由视频大模型、音频大模型、图片大模型、语言大模型组成,基于15亿用户行为及100亿本土化高质量音视频数据沉淀,具备一键成片、AI美术设计、文生音乐、音频增强、音效分析、多语言对话等核心能力。

科大讯飞:基础模型的先行者,下游终端场景丰富

  • 科大讯飞是国内领先的基础模型厂商。其星火认知大模型在文本生成外,能够实现多模态理解与生成、视觉问答、虚拟人视频等功能。

  • 2024年1月,科大讯飞发布了星火V3.5版本模型。模型能力整体接近GPT-4 Turbo,数学、语言理解、语音交互能力超过GPT-4 Turbo;代码能力达到GPT-4 Turbo 96%;多模态达到GPT-4V 91%。

  • 通过将大模型引入王牌产品学习机,科大讯飞实现了AI对教育场景的赋能。AI能够与学生互动,发挥其原生能力。

彩讯股份:AI+邮箱打造个人智能助理

  • 彩讯股份结合其邮箱能力打造了AI智能邮箱产品。AI智能邮箱助手能够实现对邮件数据的智能整合、分析和反馈,如智能邮件摘要、邮件润色/改写、智能归类和整理、日程智能调整、智能月报、个性化推荐等功能。


安全应用:针对GenAI特点进行应用开发,注重案例积累与迭代

国投智能:前瞻布局AI+公共安全,打造大模型“天擎”

  • 与信创领域结合,大模型能力创新赋能公共安全取证环节。“天擎”公共安全大模型是国内首个此类大模型,拥有丰富的公共安全行业知识,具备强大的警务意图识别、警务情报分析、案情推理等业务理解和推理能力,能够从海量数据中持续自我进化,实现行业知识、业务问题,解决反馈的全流程闭环进化。

  • 结合基础大数据能力,探索AI网络安全解决方案。国投智能牵头大数据标准制定,已承接了全国超过三分之一的省级公共安全大数据平台,超过80个地级市数据平台,积累了丰富的数据处理、调度和分析能力。目前公司正着力于将大数据和AI技术协助执行网络空间社会治理,助力执法部门实现“大数据打造无贼天下”的目标。公司拥有市场上支持率领先、覆盖面最广的电子数据取证产品体系和综合解决方案,包括手机取证、计算机取证、云取证、物联取证、区块链取证、便携取证等系列产品,市场占有率持续领先,竞争力优势明显。

永信至诚:与基础模型厂商深度合作,针对AI诈骗等场景打造应用 

  • 聚焦AI安全评估,与基础模型厂商深度合作。LLM时代企业需要面对针对大模型本身的网络安全攻击问题;在数据收集、数据预处理、模型训练、模型推理等各阶段面临的个人隐私、数据合规、数据篡改、投毒攻击等数据安全风险;以及企业在使用AI大模型过程中,可能遭遇的数据泄露、模型接口等安全风险。2023年7月,永信至诚宣布与商汤科技达成合作,双方将围绕人工智能安全测试评估、大模型场景化安全应用及人工智能攻防对抗等方面展开长期深度合作。

  • “AI换脸”等诈骗高发,永信至诚“i春秋”能够为此类场景提供安全防护。当前的AI换脸和AI拟声是AI技术的衍生应用,一般通过GAN算法原理,将图片或视频合并叠加到源图片或视频上,借助神经网络技术进行大样本学习,将个人的声音、面部表情及身体动作拼接合成虚假内容。针对此类的新型电信诈骗,永信至诚旗下“i春秋”产品能够通过场景化、高仿真、可视化的互动体验系统提升用户的安全意识水平。

  • 公司网络靶场和数字风洞产品为AI安全提供基础设施平台。面对GenAI可能存在隐私泄露、数据泄露等数据安全风险,公司的网络靶场和数字风洞产品具备对该类产品和风险进行安全测试评估的能力。

  • 公司基于“春秋”靶场构建大模型,用户能够通过对话交互轻松完成网络靶场仿真场景的设计与构建,不仅可以实现拓扑设计、网络构建、自动化仿真场景生成、场景下发等一系列复杂操作,还支持快速生成各种网络靶场场景供不同角色用户进行实战演练,充分满足用户对专业仿真场景使用的需求。

深信服:发布安全GPT

  • 深信服发布了国内首个企业级安全GPT云端大模型技术应用——安全GPT(Security GPT)。安全GPT已学习海量网络安全垂直领域专业知识和威胁情报,能大幅提升安全检测效果,增强安全运营效率和交互体验,助力安全领先一步。


风险提示

技术落地不及预期:尽管人工智能技术取得了巨大进步,但在实际应用中仍存在一些难以克服的技术障碍。例如大模型虽然取得了显著进展,但在理解复杂语境和细微情感方面仍有限制。此外,一些先进的人工智能模型需要大量的数据和计算资源,这在实际应用中可能不切实际或成本过高。

行业竞争加剧:随着人工智能技术的普及,越来越多的企业和研究机构投入到这一领域,导致行业竞争日益激烈。这种竞争可能促使一些公司为了抢占市场份额而过早推出未成熟的产品,从而影响整个行业的健康发展。

政策风险:人工智能技术的发展引起了政府和监管机构的关注,特别是在隐私保护、数据安全和伦理方面。不同国家和地区对人工智能的监管政策存在差异,这可能给企业带来合规挑战。此外,政策的不确定性也可能影响企业的投资决策和技术发展。

能耗过大:训练和运行大型人工智能模型需要大量的计算资源,这导致能耗急剧增加。随着对环境可持续性的关注日益增加,能耗问题成为人工智能领域面临的重要挑战之一。研究人员和企业正在寻求更高效的算法和硬件设计来降低能耗,但这仍是一个长期的挑战。

信息更新不及时:报告可能会出现信息更新不及时的风险。

一 THE END 一



中泰计算机闻学臣团队

分析师:闻学臣 

执业证书编号:S0740519090007


联席首席分析师:何柄谕 

执业证书编号:S0740519090003


联席首席分析师:苏仪

执业证书编号:S0740520060001


联系人:刘一哲

Email:[email protected]


联系人:王雪晴

Email:[email protected]


团队成员:蒋丹

Email:[email protected]




重要声明


    《证券期货投资者适当性管理办法》于2017年7月1日起正式实施,通过微信订阅号制作的本资料仅面向中泰证券客户中的专业投资者,完整的投资观点应以中泰证券研究所发布的研究报告为准。若您非中泰证券客户中的专业投资者,为保证服务质量、控制投资风险,请勿订阅、接受或使用本订阅号中的任何信息。

因本订阅号难以设置访问权限,若给您造成不便,烦请谅解!中泰证券不会因为关注、收到或阅读本订阅号推送内容而视相关人员为中泰证券的客户。感谢您给予的理解与配合,市场有风险,投资需谨慎。


    本订阅号为中泰证券计算机团队设立的。本订阅号不是中泰证券计算机团队研究报告的发布平台,所载的资料均摘自中泰证券研究所已经发布的研究报告或对已经发布报告的后续解读。若因报告的摘编而产生的歧义,应以报告发布当日的完整内容为准。请注意,本资料仅代表报告发布当日的判断,相关的研究观点可根据中泰证券后续发布的研究报告在不发出通知的情形下作出更改,本订阅号不承担更新推送信息或另行通知义务,后续更新信息请以中泰证券正式发布的研究报告为准。 


    本订阅号所载的资料、工具、意见、信息及推测仅提供给客户作参考之用,不构成任何投资、法律、会计或税务的最终操作建议,中泰证券及相关研究团队不就本订阅号推送的内容对最终操作建议做出任何担保。任何订阅人不应凭借本订阅号推送信息进行具体操作,订阅人应自主作出投资决策并自行承担所有投资风险。在任何情况下,中泰证券及相关研究团队不对任何人因使用本订阅号推送信息所引起的任何损失承担任何责任。市场有风险,投资需谨慎。中泰证券及相关内容提供方保留对本订阅号所载内容的一切法律权利,未经书面授权,任何人或机构不得以任何方式修改、转载或者复制本订阅号推送信息。若征得本公司同意进行引用、转发的,需在允许的范围内使用,并注明出处为“中泰证券研究所”,且不得对内容进行任何有悖原意的引用、删节和修改。