专栏名称: 天翼智库

天翼智库是中国电信研究院战略发展研究所承办的面向公众的智库研究信息发布平台，为您提供最新信息通信行业发展动态、政策观察、产业分析和战略洞察等。

【大模型周报第103期】OpenAI发布新一代推理模型o3

天翼智库 · 公众号 · · 2025-01-03 07:00

正文

本期总览

【人工智能治理与行业政策】关键词： 内容标识、标准化、人工监督

12月8日-11日，中央网信办副主任王京涛在全国网络安全标准化技术委员会于海南海口举办的2024年第二次“标准周”活动中指出，要以标准规范引领人工智能等新技术新应用安全有序发展， 加快推动《人工智能生成合成内容标识办法》等标准的研制发布。

12月13日， 工业和信息化部决定成立部人工智能标准化技术委员会 ，编号为MIIT/TC1，主要负责人工智能评估测试、运营运维、数据集、基础硬件、软件平台、大模型、应用成熟度、应用开发管理、人工智能风险等领域行业标准制修订工作。

12月19日， 谷歌针对其大型语言模型Gemini回复的外包评估流程进行调整 ，要求外包评估员不得再以缺乏专业知识为由跳过某些特定的评估任务，意味着一些高度专业性领域（如医疗）将由缺乏相关背景知识的评估员进行评估，或将导致Gemini在该领域因非专业评估而导致信息输出偏差。

【前沿技术进展】关键词： 推理模型、轻量级模型、视觉大模型

12月20日， OpenAI发布新一代推理模型o3 ，该系列模型包括o3及o3-mini两个版本，其中o3系列模型复杂推理能力、推理成本及速度较o1有大幅提升，o3-mini引入低、中、高三档推理级别，用户可根据具体需求调整模型推理深度。中等推理强度的o3-mini推理表现甚至超过o1模型。当前OpenAI开放o3系列模型安全测试申请，受邀人员可测试o3性能，预计于2025年1月推出o3-mini。

12月13日， 微软推出14B参数的小型语言模型Phi-4 ，数学推理能力大幅增强，在多个评测基准上媲美甚至超过Llama-3.3-70B，并在GPQA和MATH（数学竞赛）基准上超过GPT-4o，关键技术包括在预训练阶段和训练过程中引入高质量合成数据、精选和过滤高质量数据源（如网页、代码库、许可书籍等）、后训练技术创新。目前，Phi-4已在Azure AI Foundry上开放使用。

12月18日消息， Meta携手斯坦福大学推出多模态开源模型Apollo ，显著提升机器对视频的理解能力。Apollo通过组合使用不同组件、对处理后视频片段添加时间戳、分阶段训练、优化数据组合等技术，使其性能超越大部分更大规模模型。Apollo模型系列包括1.5B、3B和7B参数三种规模，能够灵活满足不同的计算需求和实际应用场景。

12月16日， 月之暗面发布视觉思考模型k1 ，该模型在后训练阶段引入强化学习技术，原生支持端到端图像理解和思维链技术，在数学、物理、化学等基础科学学科的基准能力测试中表现超过OpenAI o1、GPT-4o及Claude 3.5 Sonnet，但在一些场景和泛化能力上与OpenAI的o1系列模型相比仍有差距。目前已上线最新版手机App和网页版Kimi+。

【产品应用创新】关键词： 视频生成、智能眼镜、多模态大模型

12月12日， 巨人网络发布“千影QianYing”有声游戏生成大模型 ，包含游戏视频生成大模型YingGame、视频配音大模型YingSound。YingGame可实现角色多样动作的交互控制，自定义游戏角色，同时具备更好的游戏物理仿真特性。YingSound具备时间对齐和视频语义理解能力，可端到端地为各类视频生成多种类型的音效，涵盖真实场景视频、动漫视频与游戏视频等。

12月17日， Meta公司宣布对其Ray-Ban Meta智能眼镜增加实时对话和语言翻译功能。 通过实时AI，智能眼镜能够通过内置摄像头看到佩戴者所看到的一切，并能进行实时对话。翻译功能则能够让智能眼镜在英语和西班牙语、法语或意大利语之间进行实时翻译。

12月18日， 字节跳动豆包大模型家族迎来全新升级 。豆包·视觉理解模型正式发布，该模型具备更强的内容识别、视觉描述和理解推理能力，定价每千token 0.003元。豆包通用模型pro完成新版本迭代，在综合任务处理、代码、数学等能力上较5月份有30%以上提升。此外，字节跳动还发布豆包·音乐模型4.0、豆包·文生图模型2.1、veOmniverse+豆包·3D生成模型等模型。

当地时间12月19日， 谷歌发布多模态推理模型Gemini 2.0 Flash Thinking ，擅长多模态理解、推理以及编程任务，但只支持32K Token的输入内容，模型在Lmsys chatbot arena总分及编程、数学、创意写作等细项评分处于第一名或并列第一状态。该模型的训练流程、架构设计、许可要求及成本等详细信息尚未公开。当前，用户可在谷歌AI Studio平台上免费使用该模型实验版。

【产业市场竞合】关键词： 轻量级模型、产业竞争、专用芯片、AI智能体

12月11日消息， 面壁智能宣布完成新一轮数亿元融资 ，本轮融资完成后，面壁智能以端侧AI为代表的高效大模型商业化布局将进一步提速，以同等参数、更高性能、更低能耗、更快速度的高效大模型深度服务行业，为用户创造具体可感知的价值。

12月11日消息， 谷歌向美国联邦贸易委员会施压，要求解除微软在其云服务器上托管OpenAI技术的独家协议 。谷歌和亚马逊等云服务企业与微软存在竞争关系，希望解除协议后能托管OpenAI的人工智能服务，从而避免其客户同时使用微软的服务器来获取OpenAI的技术服务。

12月11日消息， 苹果正在与博通合作开发其首款专为人工智能设计的服务器芯片 ，旨在满足Apple增强型AI功能的巨大计算需求，同时提高性能和能效。这款芯片的内部代号为Baltra，将采用台积电先进的3nm工艺N3P，计划12个月内完成初步设计，最早或于2026年投入量产。

12月19日， 国内首个智能体安全生态协作组织“IIFAA智能体可信互连工作组”在京宣布成立 ，该工作组致力于推动行业共同制定跨智能体交互的相关安全技术规范，以应对智能体高速发展所带来的安全协作挑战，共建开放、合作、共赢的智能体生态。工作组由IIFAA互联网可信认证联盟发起成立，小米、华为、字节、阿里、蚂蚁、京东、中国移动、高通等二十余家头部科技企业和单位成为工作组首批成员。

【业内专家观点】关键词： 预训练、聊天机器人

12月14日， 前OpenAI联合创始人Ilya Sutskever表示预训练时代即将终结 。Ilya Sutskever认为数据是AI的化石燃料，随着全球数据的限制，未来人工智能将面临数据瓶颈，使用现有数据进行有效训练的增长趋势会放缓，预训练时代也会逐步结束，未来AI发展将聚焦于智能体、合成数据和推理时间计算。

12月11日消息， 字节管理层判断AI对话类产品可能只是AI产品的“中间态” ，长期更理想的产品形式，大概率需要更视觉化的用户体验、更低的用户使用门槛。因此，字节已经提升了即梦的产品优先级，尝试用新的路径打造AI时代的“抖音”。

OpenAI发布会洞察：从技术突破到用户拓展的系统级思考

1. 模型侧，推理阶段Scaling Law已成为行业共识，通用大模型迎来提速发展

一是o3的发布证明增加推理计算的Scaling路线行之有效。 此次发布会推出的新一代模型o3在通用领域的深度推理能力进一步提升，其在数学、编码、博士级科学问答等复杂问题超越部分人类专家的水平、在Arc-AGI基准接近人类水平，清华大学长聘副教授、面壁智能发起人刘知远表示这一提升是基于增加推理计算量实现。o3(低计算量模式)ARC-AGI测试的每个任务耗20美金,o3(高计算量模式)每个任务耗费数千美金，o3推理成本提升亦从侧面印证增加推理计算量能提升模型推理性能，结合谷歌Gemini 2.0 Flash Thinking，月之暗面的K0-math、k1视觉推理等推理模型相继推出，通过增加推理计算量实现模型推理能力提升正成为行业共识。 二是通用大模型将在新Scaling范式下开启新一轮提速。 从发布节奏看，相较于GPT系列模型平均间隔11.8个月更新一代，从o1至o3的跨越仅相隔3个月；ARC-AGI模型评测基准亦能显示加速趋势，2020年3月发布的GPT-3评分为0%，至2024年GPT-4o达到5%水平历时4年，而至o1-preview达到13.33%水平仅相隔4个月、至o3(高计算量模式）达到87.5%水平仅相隔3个月。

2. Infra侧，提升推理性价比、丰富后训练微调工具成持续降低模型落地门槛的关键手段

一是持续提升推理性价比是前沿模型落地需解决的长期重点工作。 此次发布的正式版o1相比预览版更加高效，每次推理使用的token减少60%、延迟也更低；推出GPT-4o及GPT-4o mini两款模型的实时API主打低成本高效率，如GPT-4o的音频处理费用直接降低60%，而缓存音频输入的定价更是降低87.5%。 二是持续丰富后训练微调技术，提升模型在垂直领域落地的性能和适应性。 比如OpenAI发布强化微调工具,允许企业以极低的成本和数据量快速提升模型在专业领域（如法律、保险、医疗等）的推理能力和准确性，发布偏好微调工具，通过直接优化用户偏好来确保模型适应用户的个性化需求，进而推动大模型在客户支持、文案写作或内容审核等需要强调风格、语气或特定偏好的场景中应用普及。

3. 产品侧，多维度手段提升ChatGPT可用性，会话助手向代理工具转变的用户基础逐渐夯实

产品功能层面，功能完善和开放同步推进，提升用户交互体验。 如ChatGPT联网搜索、ChatGPT Canvas等功能向所有用户免费开放，并推出Project项目管理功能，进一步提升用户与AI协作的流畅性。 商业模式层面，推出多层次订阅体系，满足多元化用户需求。 如普通用户可通过免费版轻松应对日常简单任务；而专业用户则可选择Plus版，享受o1模型的有限访问权限，助力其处理复杂任务。对AI性能有极高要求的科研工作者、复杂代码开发者等专业用户群体，可通过ChatGPT Pro使用o1 Pro模式及无限次使用的特权，助力其更精准、高效地解决复杂问题。 产品生态层面，丰富用户接入渠道，实现广泛用户覆盖。 如ChatGPT深度集成至苹果的iOS、iPadOS和macOS操作系统，极大覆盖苹果设备海外市场用户；新增支持拨号接入使用ChatGPT，实现产品向智能手机和移动互联网渗透率较低的区域及用户群体的覆盖；与超级应用WhatsApp集成，支持用户短信与其对话，触达近30亿用户。 OpenAI首席产品官Kevin Weil曾称ChatGPT会从单纯的会话助手向更为强大的代理工具转变， 连续12天的发布会涵盖诸多产品层面创新，或为ChatGPT向代理工具升级奠定用户基础。

每周一场景：知识管理

1. 场景简介

知识管理是指政府部门收集内外部信息，搭建政务领域知识库，借助大模型等智能化能力，实现跨部门、跨领域的知识整合和共享、提供智能检索服务，帮助政府工作人员快速获取所需信息。目标是通过有效的知识管理策略，提高政府的行政效率和决策科学性，促进公共服务水平的提升。《上海市推进“人工智能+”行动，打造“智慧好办”政务服务实施方案》提出，全量精细化梳理办理事项涉及的适用条件、所需材料、业务规则、审查要点等，运用人工智能等技术，关联各业务清单和数据要素之间逻辑关系，构建知识图谱，为智能审查、智能问答、生成式设计提供数据基础。

传统的知识管理主要存在以下痛点和难点：

信息体量大且杂乱： 政府部门内部堆积大量信息资料，且类型繁多，包括政策文件、统计数据、企业报告等，涵盖文本、图片、音视频等多种模态，信息杂乱无章，人工整理和维护困难，难以实现系统性的整理和组织。

信息检索难精准定位，耗时费力： 员工在海量非结构化信息中搜索所需知识，难以精准匹配，搜索定位差，易错过关键信息，查找费时费力。

知识系统孤岛多，存在共享壁垒： 政府内部的信息和知识往往分散在不同的部门、员工和文件中，各个知识库相互独立，使得跨部门、跨员工的知识共享和交流变得困难。

2. 大模型赋能

大模型在知识管理领域通过语义理解、智能检索、自动化归纳与分类等能力，提升知识管理的效率、准确性。

优化知识获取与整理能力： 大模型能够从会议对话等交互内容中提取知识资产，提高知识获取效率，同时能够自动化地处理大量的知识数据，完成信息的分类、标签化、摘要提取等。

搜索优化与个性化推荐能力： 大模型能够整合文本、图像、语音等多种模态的信息，实现跨模态的信息检索和理解，为用户提供精准的知识检索定位。同时基于用户的查询历史和兴趣偏好，大模型能够进行个性化的知识推荐，帮助用户快速找到他们感兴趣或需要的信息。

系统性组织整理知识内容： 大模型能够将海量的、分散的、异构的知识数据进行高效集成、整合和挖掘，根据政府部门的业务特点和需求，建立知识体系框架，构建知识分类和层级关系，利用知识图谱技术对知识和信息进行可视化和关联分析，形成结构化知识网络。

3. 产品&解决方案

蜜巢知知通智能知识管理平台： 该平台是基于蜜巢政务大模型构建的高效、智能的知识管理工具，能够帮助政府优化数字资产管理，实现内部数据资产的高效利用与增值。平台具备强大的跨模态检索功能，能够融合政企内部文本、图片、音频等多种格式的文档，构建跨模态知识库，高效、精准地满足用户大规模文档检索的复杂需求，同时平台支持语音自动转换为文本，且具备智能识别提取图表、表格及图像中的信息的能力，实现非结构化数据向高价值资讯的转化。此外平台具备智能问答与知识定位功能，用户可以通过关键词检索或提问的方式，快速获取所需的信息和知识。平台可以准确定位知识点，帮助使用者快速核对“标准化答案”信息。

泛微·采知连知识管理系统： 该系统基于小e大模型的语义理解、任务编排等能力，驱动组织知识管理与创新，该系统具备以下核心功能：一是利用RPA智能采集机器人同步多渠道知识，快速积累组织知识资产，无需人工干预实现知识的自动采集。二是能够解析文件、图片等类型的知识，提炼核心要素，形成智能标签和摘要，帮助用户更快速地理解文档内容。三是利用自然语言融合和语义理解等AI能力提供快速、准确的知识问答服务。四是根据用户历史工作记录，提供检索智能化推荐，更快定位用户所需内容。五是搜索结果图谱化，将组织的知识、人员、业务场景等智能化关联，实现知识的可视化管理和深度挖掘。

中关村科金智能助手： 中关村科金基于自研的领域大模型和企业知识库打造智能知识助手，该产品具备以下功能：一是知识管理与检索，基于领域大模型、多模态文档解析和知识搜索技术，能够轻松识别非结构化信息，自动生成专属AI知识库，实现跨模态、跨来源的精准问答定位。二是统一知识库构建，支持多种数据源和文档类型的接入，自动完成分类、标签划分，实现知识的高效提取、统计和归纳。三是智能文档分析，能够精准提炼文档要点，智能总结全文摘要，节省阅读时间。

4. 应用实例

（1）江苏省地区级检察院公文助手

江苏省地区级检察院公文助手是江苏省检察院与江苏移动合作推出的政务应用，通过集成OCR卷宗信息预警、执行笔录及法律文书（如民事调解书、判决书、结案通知书）总结等智能化功能，并运用Transformer架构、预训练与微调等先进技术，实现公文处理的高效、精准与自动化，有效提升工作效率并确保了数据安全与合规性。该方案入选2024中国“大模型+知识管理”最佳实践案例TOP15。

（2）天津高新区“高小新AI”应用

天津高新区“高小新AI”为天津市首个落地的大模型政务应用场景，由天津滨海高新区联合360集团共同研发，依托360大模型技术以及“本地+云端+服务”的创新架构，能够提供知识库管理、政务办公、政务问答、应用创作等多种功能。高小新AI政务知识库的构建基于互联网政务相关数据，结合大模型能力，为政务人员提供精准的知识问答服务，这使得办公人员能够快速构建专属助手，提升工作效率和个性化体验，缓解在知识管理和运用上的痛点、难点，进一步推动高新区政府的数字化转型与创新。

本文作者

林舒阳

战略发展研究所

助理分析师

硕士，专注于工业互联网、大数据等领域技术及产业研究工作。

【大模型周报第103期】OpenAI发布新一代推理模型o3

正文

请到「今天看啥」查看全文