大模型专题 | 大模型生态加速突破！2024年是应用元年吗？

天风国际 · 公众号 · · 2024-03-15 18:19

正文

随着 Open AI 将通用大模型训练的结果通过 ChatGPT 的应用形式带到大家面前，发展了大半个世纪的人工智能领域正式步入了广泛意义生产力提升的新纪元。虽然在此之前， AI 算法已经在各行各业（通过大数据或充分的训练数据）悄悄开启了生产力的变革 —— 从推荐算法到千人千面，从更好用的机械臂到车辆自动巡航。但在 GPT 之前，大部分算法的开展方向都更多倾向于小模型，通过在某一特定领域的固定场景的有限但大量数据，训练出以服务于指定场景操作的辅助模型，以提高在对应场景下的生产效率。

图片来源于：网络

GPT 作为大模型的出现，更多意义上是将足够多的 “ 日常小模型 ” 整合到一起，从而诞生了普通人可以使用的 AI 模型工具。我们也太久困于 “ 人工智障 ” ，大模型的表现让我们感觉离着 “ 自然语言交互 ” 更近了一步。

图片来源于：网络

2023 年 12 月 7 日， Google 发布了新一款基于联合训练的原生多模态大模型 Gemini 。 谷歌（ GOOG.US ）所发布的 Gemini 在 Gemini 的模型报告中， Gemini 可以理解文档和手写笔迹，识别学生的推理步骤，并给出详细的解答，生成对应的 Latex 公式。

图片来源于：网络

而 OpenAI 在 2023 年 9 月发布的 GPT-4V 在处理交织的多模态互动方面体现了通用性和强大的处理能力。视频解读和情感解读任务，并衍生出了医学图像解读、具身代理和 GUI 导航等场景应用。还有许多潜在的功能等待使用者发掘。

图片来源于：天风证券

在海外大幅发展的情况下，中国厂商不甘落后， 2023 年 10 月 17 日 百度（ BIDU.US ）发布文心大模型 4.0 ，个人和企业客户可通过百度智能云千帆大模型平台接入使用，百度可延伸提供企业级一站式客户服务，打通芯片 + 平台 + 模型 + 应用的 4 层架构，实现应用落地。

图片来源于：百度

除此以外， 2023 年 10 月 31 日， 阿里云（ 09988.HK ）正式发布千亿级参数大模型通义千问 2.0 。在 10 项权威测评中，通义千问 2.0 综合性能超过 GPT-3.5 ，正在加速追赶 GPT-4 。

图片来源于：阿里云

而这一番的操作最后得到的结果便是，大模型数量在增加，因此技术也在不断的突破， Sora 采用 Diffusion Transformer 结构，使用时空 Latent patch 表示视频和图像，或成为模拟现实的基础。美国的初创企业 Pika Labs ，对外正式发布了其全新的视频生成与编辑软件 ——Pika 1.0 。该软件具备视频处理能力，可生成并编辑 3D 动画、动漫、卡通以及电影等多种形式的视频内容。

图片来源于：网络

数量的变多，质量的提高，也就代表着需求持续增加，投入逐步加大。根据天分证券数据显示， META （ META.US ）到 2024 年底会拥有约 35 万台 H100 ，将其他 GPU 纳入计算， Meta 将拥有约 60 万台 GPU 。今年会加大 AI 基础设施的投资， 2024 年全年的资本支出将在 300 亿至 370 亿美元之间，比之前的上限增加 20 亿美元。

图片来源于：天风证券

谷歌（ GOOG.US ）引入了一种突破性的超级计算机架构 AIHyper ，结合了强大的 TPU 和 GPU 、 AI 软件和多主机技术，为模型的训练和部署提供了性能和成本优势。到 2024 年，谷歌预计 CAPEX 将比 2023 年显著增加。

图片来源于：天风证券

当下的市场随着市场收益的确定性被探索，战争迷雾的散开，也迫使各大公司都需要对大模型有所动作。可预见的未来，大模型的时代会逐渐拉开序幕。

谷歌（ GOOG.US ）所发布的 Gemini 在 Gemini 的模型报告中， Gemini 可以理解文档和手写笔迹，识别学生的推理步骤，并给出详细的解答，生成对应的 Latex 公式。

微软（ MSFT.US ） OpenAI 在 2023 年 9 月发布的 GPT-4V 在处理交织的多模态互动方面体现了通用性和强大的处理能力。在输入模式方面， GPT-4V 具备图片标记互动、识别无定式图文输入和接受案例引导的能力。在输出模式方面，强大的多模态处理能力使得 GPT-4V 可以完成事件划分、视频解读和情感解读任务。基于丰富的功能， GPT-4V 衍生出了医学图像解读、具身代理和 GUI 导航等场景应用。还有许多潜在的功能等待使用者发掘。

百度（ BIDU.US ）发布文心大模型 4.0 ，个人和企业客户可通过百度智能云千帆大模型平台接入使用，百度可延伸提供企业级一站式客户服务，打通芯片 + 平台 + 模型 + 应用的 4 层架构，实现应用落地。

金山办公（ 688111 ）金山办公软件股份有限公司是国内领先的办公软件和服务提供商，主要从事 WPSOffice 办公软件产品及服务的设计研发及销售推广。公司主要产品包括 WPS Office 办公软件、金山文档等办公能力产品矩阵以及金山数字办公平台解决方案。公司和中国五矿联合建设的“商密安全文档防护体系” , 成为在国资委《中央企业商密安全保护技术指引》下的首个实践项目和应用成果。

彩讯股份（ 300634 ）彩讯科技股份有限公司专注于企业数字化转型赛道，沉淀形成了业界领先的技术和运营双中台战略，主营协同办公、智慧渠道、云和大数据三大产品线，可为客户提供产品销售、软件定制开发、技术服务及效果运营灵活的业务模式，客户可根据需求，选择个性化的业务服务。

大华股份（ 002236 ）浙江大华技术股份有限公司是我国安防视频监控行业的龙头企业 , 主要产品为前端产品、存储产品、中心产品、云计算与大数据产品和服务、智能楼宇产品、人工智能算法、芯片技术、视频物联创新业务产品。公司已形成音视频编解码算法技术、信息存储调用技术、集成电路应用技术、网络控制与传输技术、嵌入式开发技术五大核心技术平台和面向安防视频监控前沿领域的 " 大安防 " 产品架构。

海康威视（ 002415 ）杭州海康威视数字技术股份有限公司的主营业务是以视频为核心的智能物联网解决方案和大数据服务提供商 , 业务聚焦于综合安防、大数据服务和智慧业务 , 构建开放合作生态 , 为公共服务领域用户、企事业用户和中小企业用户提供服务 , 致力于构筑云边融合、物信融合、数智融合的智慧城市和数字化企业。

万兴科技（ 300624 ）万兴科技集团股份有限公司持续聚焦以视频创意软件业务，积极推动绘图创意、文档创意和实用工具的技术创新与质量提升，快速响应市场需求，强化移动端业务布局，不断探索新产品新功能。

千方科技（ 002373 ）北京千方科技股份有限公司的主营业务是智慧交通和智能物联，大数据和人工智能等领域。

当虹科技（ 688039 ）当虹科技股份有限公司专注于智能视频技术的算法研究，拥有高质量视频编转码 , 智能人像识别 , 全平台播放 , 视频云服务 , 低延时视频通讯 , 视频结构化 ,5G 边缘计算等核心算法的研究与应用成果，为行业客户提供高质量 , 高性能 , 高安全性的一站式从中心端到边缘端的智能视频解决方案与视频云服务。

云从科技（ 688327 ）云从科技集团股份有限公司的主营业务是人工智能算法研究及应用 , 面向客户提供人机协同操作系统和人工智能解决方案。主要产品或服务包括人机协同操作系统、人工智能解决方案。公司及核心技术团队曾先后 9 次获得国内外智能感知领域桂冠，并于 2018 年获得了“吴文俊人工智能科技进步奖一等奖”。

大模型专题 | 大模型生态加速突破！2024年是应用元年吗？

正文

请到「今天看啥」查看全文