专栏名称: 人工智能与大数据技术

分享大数据、云计算、人工智能等高科技先进技术

DeepSeek 开源新模型；字节跳动发布面向海外的AI中文开发环境IDE；OpenAI 博士级「超级智能体」即将登场

人工智能与大数据技术 · 公众号 · 大数据 · 2025-01-21 11:33

正文

请到「今天看啥」查看全文

0、DeepSeek 开源了两个新的推理模型

deepseek 开源了两个新的推理模型：DeepSeek-R1 和 DeepSeek-R1-Zero。同时也开放了思维链的 API：deepseek-reasoner。

https://github.com/deepseek-ai/DeepSeek-R1

DeepSeek-R1-Zero 是一个通过大规模强化学习 (RL) 训练的模型，没有将监督微调 (SFT) 作为预备步骤，它在推理方面表现出卓越的性能。通过强化学习，DeepSeek-R1-Zero 自然而然地涌现出许多强大且有趣的推理行为。（微博蚁工厂）

1、DeepSeek-R1 发布，性能对齐 OpenAI o1 正式版

1 月 20 日，DeepSeek 正式发布 DeepSeek-R1，并同步开源模型权重。

据官方介绍，DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。

DeepSeek 在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时，通过 DeepSeek-R1 的输出，蒸馏了 6 个小模型开源给社区，其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。

API 及价格方面，DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元（缓存命中）/ 4 元（缓存未命中），每百万输出 tokens 16 元。

DeepSeek 表示，DeepSeek-R1 遵循 MIT License，允许用户通过蒸馏技术借助 R1 训练其他模型；DeepSeek-R1 上线API，对用户开放思维链输出，通过设置 model='deepseek-reasoner' 即可调用。

目前，登录 DeepSeek 官网或官方 App，打开「深度思考」模式，即可调用最新版 DeepSeek-R1 完成各类推理任务。

2、OpenAI 被曝博士级「超级智能体」即将登场

1 月 19 日，据 Axios 报道，OpenAI「Operator」项目取得突破，CEO Sam Altman 预计将于 1 月 30 日向美国政府进行闭门简报。

据悉，「Operator」是 OpenAI 开发的一种具有博士级别能力的自主 AI 智能体，能够在浏览器中独立执行任务，比如编写代码、预订旅行、管理日程等。据 M1 Astra 信息称，「Operator」将很快在 ChatGPT macOS 版中推出。

此前，OpenAI 于 2024 年 2 月向媒体透露，内部正在开发 AI Agent；同年 11 月，OpenAI 透露 2025 年 1 月将发布代号为「Operator」的 AI Agent 工具。

而 1 月 20 日，Sam Altman 发文表示 OpenAI 下个月不会部署 AGI，并且公司也并未构建 AGI。Altman 也透露，下个月将会有「非常酷」的产品推出，但也希望用户能对其的期望值降低百倍。

此外，OpenAI 近日再次陷入了舆论风波。一位名为「Meemi」的 Epoch AI 承包商透露，OpenAI 不仅为 FrontierMath 基准测试提供资金支持，还获得了测试题库的特权访问权，随后，Epoch AI 副主任兼联合创始人之一 Tamay Besiroglu 很快在 X 平台承认了此事。

据了解，去年 12 月，OpenAI 正式发布了新一代号称突破 AI 极限的 o3 模型。在其中一项名为 FrontierMath 的 AI 数学基准测试（成绩单）中，OpenAI 以 25.2% 的准确率遥遥领先，远超 GPT-4 和 Gemini 等模型不足 2% 的成绩。据分析，本次造假，或许是 o3 的成绩在短时间内获得极大提高的重要原因。

3、微软 AI 战略面临硬件挑战，Windows 10 用户升级难题待解

微软正推动 AI 战略，Windows 11 Copilot+ PC 是其代表产品。但许多旧款 PC 因硬件限制无法升级至 Windows 11，成为微软面临的挑战。2025 年 10 月 Windows 10 将停止支持，微软未计划为其添加 AI 功能。戴尔通过 Pro AI Studio 简化了 PC 上运行 AI 的流程，但微软如何解决 Windows 10 设备升级问题仍是未知。微软正鼓励用户升级至 Windows 11 以利用其 AI 能力，但顶级 Copilot+ PC 的高价格能否被普通消费者接受还有待观察。

4、阿里打响2025年“反内卷”第一枪：春节后推免费“AI数字员工”

1月20日消息，近日，据阿里1688透露，春节后1688将继续开展去年的反内卷行动，面向源头厂商出台一系列利好举措，包括推出免费的“AI数字员工”。据了解，阿里AI数字员工是由阿里云人工智能团队倾力打造，它不仅拥有强大的数据处理能力，还能够自主学习和适应不同的工作环境。

“AI数字员工”可以帮助会员商家，建成一个具备专业运营经验的数字员工团队，团队主要成员有AI店长、AI素材运营、AI营销推广和AI客户管理。据阿里官方商家负责人透露，通过1688提供的免费AI代运营能力，以前商家需要一个专业运营完成的工作，现在只需0.2个人力就可完成。

同时，“AI数字员工将进一步简化商家与买家的互动流程，减少不必要的交流，使得静默下单的比例进一步提升。展望将来，几乎99%的C类订单都将实现静默下单，因此商家完全不必担心无法妥善服务这类买家的问题。”

值得关注的是，据1688官方透露，截至2024年12月底，1688PLUS会员数已突破1000万。这意味着，如果这1000万商家全部都使用免费“AI数字员工”的话，商家运营的人力成本将比之前至少减少80%以上。（快科技）

5、字节跳动发布面向海外的AI中文开发环境IDE

1月19日，字节跳动正式发布了一款面向专业的开发者提供服务的全新AI Coding产品,Trae(trae.ai），实现了从Copilot向Autopilot的演进。

据了解，Trae由字节跳动旗下新加坡公司SPRING(SG)PTE.LTD.提供服务,支持AI问答、代码自动补全、基于Agent的AI编程等功能,可以帮助程序员自动化完成开发任任务，并在一些项目中可以实现端到端开发（通过用户的提问直接生产一个完整的代码项目），产品目前仅支持Mac版本，但据相关人员介绍，Windows 版本也即将上线。

据悉，该工具可选择简体中文或英文,并内置了GPT-4o、Claude-3.5-Sonnet模型供免费使用。

6、豆包 App 更新实时语音通话功能

1 月 20 日，豆包 App 更新实时语音通话功能，并面向所有用户开放。

官方介绍，该功能基于最新豆包实时语音大模型（Doubao Realtime Voice Model）。更新后，豆包中文场景的对话能力在语音真实感和「喜怒哀乐」的情绪表现上近乎达到「人机难辨」的 AI 交互效果，可以模仿不同声线，并且在「逻辑思考」和「情绪感知」上有明显提升。

据外部真实反馈，用户对豆包此次上线的全新语音通话功能整体满意度为 4.36/5，对 GPT-4o 语音对话满意度则为 3.18/5，尤其语音语气自然度和情绪饱满度方面，豆包有明显优势。

目前，豆包 App 全新实时语音通话功能已经全量上线，用户下载并升级豆包 App 至 7.2.0 新春版即可体验。

7、阶跃星辰推出 Step-2 mini/文学大师版

1 月 20 日，阶跃星辰宣布正式为用户带来两款 Step-2 系列新模型，Step-2 mini 和 Step-2 文学大师版。

Step-2 mini 和万亿参数大模型 Step-2 相比，以 3% 左右的参数量保有了其 80%以上的模型性能；同时，Step-2 mini 拥有更快的生成速度和极高的性价比，在输入 4000 tokens 的情况下，Step-2 mini 的平均首字时延仅 0.17 秒。

Step-2 mini 还拥有极高性价比，官方表示，Step-2 mini 输入 1 元/百万 token，而输出 2 元/百万 token。目前，用户已经可以在阶跃星辰开放平台调用 Step-2 mini 的 API 接口。

同步推出的 Step-2 文学大师版沿袭了 Step-2 广袤的知识储备、对文字强大的细节把控能力，与此同时它还拥有更加强大的内容创作能力。

Step-2 文学大师版目前已经上线跃问 App，网页端也将于本周全量上线。

8、MiniMax 海螺语音全球同步上线

1 月 20 日，MiniMax 宣布带来全新升级的 T2A-01 系列语音模型，并全球同步上线海螺语音产品。

据介绍，与传统语音生成技术相比，全新升级的 T2A-01 系列语音模型不仅具有音质稳定清晰、韵律自然、情绪精准表达、高准确度等特点；提供更快、更稳的语音生成能力；还能支持包括中文、粤语、英语、日语、韩语、阿拉伯语、西班牙语在内的 17 种语言及上百种预置音色可选。

据测试（使用和 Seed-TTS 论文相同的评测集和评测工具）结果显示，海螺语音在中文的字错率和相似度最好，英文的字错率、相似度和真实录音「Human」接近。

而在用户真实场景的多语种评测集中，海螺语音相似度整体占优，综合能力媲美 ElevenLabs；在中文、粤语、英语、日语、韩语和阿拉伯语等多个语种上，海螺语音的相似度、正确率方面大幅领先。

目前，海螺语音对全球用户开放，同时 T2A-01 系列语音模型已上架海螺语音、海外版 Hailuo Audio，以及国内、海外的 API 服务。

9、Kimi 全新 SOTA 模型 k1.5 发布

1 月 20 日，月之暗面正式发布 Kimi 全新 SOTA 模型：k1.5 多模态思考模型；同时 Kimi 首次公开模型训练技术报告。

据官方介绍，从基准测试成绩看，k1.5 多模态思考模型实现了 SOTA（state-of-the-art）级别的多模态推理和通用推理能力。在 short-CoT 模式下，Kimi k1.5 的数学、代码、视觉多模态和通用能力，大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平，领先达到 550%。

而在 long-CoT 模式下，Kimi k1.5 的数学、代码、多模态推理能力，也达到长思考 SOTA 模型 OpenAI o1 正式版的水平。这应该是全球范围内，OpenAI 之外的公司首次实现 o1 正式版的多模态推理性能。Kimi 团队也表示，2025 年，Kimi 会继续沿着路线图，加速升级 k 系列强化学习模型，带来更多模态、更多领域的能力和更强的通用能力。

伴随着 k1.5 多模态思考模型的发布，Kimi 技术团队也第一次准备了详细的技术报告，记录和分享新技术范式下的模型训练技术探索之路：《Kimi k1.5：借助大语言模型实现强化学习的 Scaling》。

目前，k1.5 多模态思考模型的预览版将陆续灰度上线 Kimi 官方网站和最新版本的 Kimi 智能助手 app；《Kimi k1.5：借助大语言模型实现强化学习的 Scaling》已上架月之暗面的 github。

10、Meta 宣布将推出移动端视频剪辑软件

1 月 20 日，Instagram CEO Adam Mosseri 在 Instagram 平台上宣布，将推出一款名为「Edits」的移动端视频编辑软件。

据 Adam Mosseri 介绍，「Edits」不仅是一款视频编辑软件，它还将会是一款完整的创作工具。据悉，「Edits」内置了一个灵感板块，其用于帮助前期阶段的创作。并且据 Adam Mosseri 透露，「Edits」还将提供高质量的拍摄功能，而 Adam Mosseri 本次发布的视频正是使用「Edits」所拍摄。

值得关注的是，就在当地时间同一天，字节跳动旗下「CapCut」（剪映海外版）因受禁令影响，于当日在美停止运营。而 Adam Mosseri 在介绍「Edits」时表示，目前有很多事情正在进行中，无论最后会发生什么，「Edits」的工作是为创作者提供尽可能好用的工具。

据了解，目前「Edits」已经上架美区 App Store，预计于 3 月 13 日推出，同时 Adam Mosseri 表示其安卓版本也将很快上线。同时，遭禁令影响的 TikTok 也正在恢复对美用户的服务。

11、低空经济爆发，外卖上天了

据中国民航局预测，到2025年，我国低空经济的市场规模将飙升到1.5万亿元，到2035年有望达到3.5万亿元。面对如此庞大的万亿级市场，当下许多围绕低空经济展开的服务都已经加速“起飞”，其中，无人机外卖无疑是离人们日常生活最近的一个。

无人机外卖不会替代骑手，而是作为骑手配送的有力补充，它能打破地形和时间限制，将外卖送达到骑手难以抵达之处。饿了么早2018 年就启动了无人机送餐服务，去年9月，安徽首个无人机外卖在合肥落地，用户下单后，短短十分钟内就能收货。

低空经济的发展将带来更多创新服务，未来，无人机外卖、空中出租车等或许都将成为我们日常生活的一部分。

12、LibreOffice Writer 扩展为字处理软件加入可选的本地生成式 AI 功能

开源办公软件 LibreOffice 没有集成生成式 AI 功能，社区开发者 John Balis 正在为 LibreOffice 开发一个可选的生成式 AI 扩展 Localwriter。Localwriter 目前只支持 LibreOffice 的字处理组件 Writer，对电子表格组件 Calc 的支持正在开发之中。Localwriter 使用运行在本地的大模型去执行推理任务，配合 Ollama 或 text-generation-webui，可以使用它们支持的任何大模型。Localwriter 可以使用大模型预测所选文本后的内容，或者为所选文本提供替代文本。

13、奥特曼给粉丝泼冷水：把期望降低100倍，OpenAI下月不会部署AGI

据新浪财经，1月20日晚间消息，针对“OpenAI已实现通用人工智能（AGI）”的说法，该公司CEO萨姆·奥特曼（Sam Altman）今日给予了否认，称OpenAI下个月并不会部署AGI。

周一，奥特曼在社交平台X上称：“关于我们已经实现AGI的炒作再次失控。其实，我们下个月不会部署AGI，也没有开发出来。”奥特曼承认，该公司确实将推出一些“很酷的东西”，但提醒粉丝们将他们的期望降低“100倍”。

所谓的AGI，是指能够理解、学习和执行人类可以完成的任何智力任务的AI。在此之前，在一些AI粉丝将OpenAI员工发布的一些“预热内容”解读为已实现AGI，且越传越盛。

14、AI 眼镜市场热度持续升温 A 股公司积极布局

拍摄、听歌、翻译、会议记录、AI（人工智能）助手…… 曾经需要多种设备才能实现的一系列功能，如今已被集成在一副小小的眼镜上。作为 AI 落地的创新终端，AI 眼镜的热度正不断升温。（证券日报）

15、o3 被曝成绩造假数学泰斗集体被耍！OpenAI 暗中操控，考卷提前看光

FrontierMath 的 o3 惊人表现，竟是因 OpenAI 资助了 Epoch AI 而提前获得大部分试题访问权。 OpenAI 模型的性能究竟几分是真，几分炒作，愈来愈变得扑朔迷离。（新智元）

16、美团、字节联手投资 3D 生成大模型

3D 生成大模型公司影眸科技完成了新一轮数千万美元 A 轮融资，本轮融资由美团龙珠、字节跳动领投，老股东红杉中国种子基金及奇绩创坛跟投，光源资本担任独家财务顾问。（创投日报）

17、比尔盖茨：人类还将迎来一些新的 AI 突破

近期，比尔盖茨与阿布扎比 CNN 学院的学生进行交流，并接受了深度专访，其表示人类还将迎来一些新的 AI 突破。

比尔盖茨在采访中提到，OpenAI 旗下的 ChatGPT-4 突破了电脑并不能真正「阅读」这一问题；比尔盖茨还以此表示，人类还正在迎来一些新的 AI 突破，比如所谓的「元认知（metacognition）」。

当学生提及「应该采取什么措施来确保资源匮乏地区也能够受益」，比尔盖茨认为，真正的难点在于，让这些智能服务所需的云计算资源能在哪些国家使用。同时比尔盖茨建议，只有通过有意识的努力，比如准备好合适的数据，支持当地语言，帮助这些国家建立符合他们需求的监管体系，并且为他们提供一定比例的云计算资源捐赠，就能覆盖很多基本需求。

DeepSeek 开源新模型；字节跳动发布面向海外的AI中文开发环境IDE；OpenAI 博士级「超级智能体」即将登场

正文

请到「今天看啥」查看全文

15、o3 被曝成绩造假数学泰斗集体被耍！OpenAI 暗中操控，考卷提前看光

FrontierMath 的 o3 惊人表现，竟是因 OpenAI 资助了 Epoch AI 而提前获得大部分试题访问权。 OpenAI 模型的性能究竟几分是真，几分炒作，愈来愈变得扑朔迷离。（新智元）

16、美团、字节联手投资 3D 生成大模型

3D 生成大模型公司影眸科技完成了新一轮数千万美元 A 轮融资，本轮融资由美团龙珠、字节跳动领投，老股东红杉中国种子基金及奇绩创坛跟投，光源资本担任独家财务顾问。（ 创投日报）

17、比尔盖茨：人类还将迎来一些新的 AI 突破

近期，比尔盖茨与阿布扎比 CNN 学院的学生进行交流，并接受了深度专访，其表示人类还将迎来一些新的 AI 突破。

比尔盖茨在采访中提到，OpenAI 旗下的 ChatGPT-4 突破了电脑并不能真正「阅读」这一问题； 比尔盖茨还以此表示，人类还正在迎来一些新的 AI 突破，比如所谓的「元认知（metacognition）」。

18、英伟达高管：完全自动驾驶汽车2030年前难上路

请到「今天看啥」查看全文

3D 生成大模型公司影眸科技完成了新一轮数千万美元 A 轮融资，本轮融资由美团龙珠、字节跳动领投，老股东红杉中国种子基金及奇绩创坛跟投，光源资本担任独家财务顾问。（创投日报）

比尔盖茨在采访中提到，OpenAI 旗下的 ChatGPT-4 突破了电脑并不能真正「阅读」这一问题；比尔盖茨还以此表示，人类还正在迎来一些新的 AI 突破，比如所谓的「元认知（metacognition）」。