0、DeepSeek 推出移动版 APP
DeepSeek 推出了官方移动版 APP,提供深度思考和联网搜索功能,可以生成内部思维链,逐步分析问题并得出结论。此外,该 APP 还提供图片、文件等多模态输入模式。
据介绍,该 APP 由 DeepSeek-R1-Lite 模型和 DeepSeek V3 模型提供支持。
1、机构:GPT-o1 在深度思考模型测试中成绩领先
1 月 13 日,THU 基础模型公众号发布推文,公开了对各家旗舰基础模型进行测试的结果。
官方表示,为了全面评估这些模型在数学推理方面的能力,他们结合2025年考研数学(一、二、三)的试题,对各家深度推理模型进行了严格的评测。
此外,为了确保评测的全面性,他们对各家的旗舰基础模型进行了也同样的测试。此次测试,他们从六家厂商中,选择了 13 个模型。
测试结果显示,GPT-o1 仍然处于领先的地位,是唯一一个达到 140 分以上的模型,相较于排名末位的 GPT-4,分数优势高达 70 分。位于第二梯队(130 分以上)的模型有 GLM-zero-preview和 QwQ,分别斩获 138.7 分和 137.0 分;DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3 则处于第三梯队(120 分以上)。
另外,官方表示,在缺乏深度思考能力辅助的情况下,仅凭逻辑推理能力,DeepSeek-v3 作为基础模型,已经能够跻身第三梯队,这说明基础模型和深度思考模型之间的能力并非界限分明。
2、LLM 带来了「编程末日」?哥本哈根大学 CS 教授:别做梦了
所以,自然语言在软件开发中的真正使用,在于软件开发人员和软件的最终用户之间发生的探索性对话。LLM 可能会促进这种对话,但取代编程还遥遥无期。
3、研究人员开源 Sky-T1 推理 AI 模型,训练成本不到 450 美元
加州大学伯克利分校 Sky Computing 实验室的 NovaSky 团队发布了开源推理模型 Sky-T1-32B-Preview,其性能与 OpenAI 的 o1 模型相当,但训练成本大幅降低至不到 450 美元。该模型使用合成数据训练,具备自我事实核查能力,尤其在物理、科学和数学等领域表现出高可靠性。Sky-T1 的训练数据由阿里巴巴的 QwQ-32B-Preview 生成,经过筛选和重构,使用 8 台 Nvidia H100 GPU 在 19 小时内完成训练。尽管在 GPQA-Diamond 测试中略逊于 o1 预览版,但 NovaSky 团队表示 Sky-T1 只是起点,未来将开发更高效的推理模型。
1月13日,有媒体报道称,零一万物在和阿里云成立产业大模型联合实验室的同时,还在苏州开启了大批招聘岗位,而且招聘岗位大多是研发等核心岗,和大模型应用落地密切相关。据悉,大本营一直在北京的零一万物悄悄在招聘平台上上线了数十个岗位,地点定在了苏州。职位共计是41个,其中,技术人员职位16个。根据零一万物官网最新招聘信息,和此前相比,确实上线了数十个技术产品岗位,Base 苏州的岗位足足有24个。这些岗位涵盖了研发、运营、设计等多个领域,研发岗位占据了大多数。算法、AI 基础设施、数据标注、内容风控、前端研发、后端研发等等,基本上是大模型研发及应用落地的核心。数据显示,苏州的AI相关企业数量已位居全国前列,而人工智能在制造业中的应用场景开发也不断加速。科大讯飞、树根互联、云从科技、新华三等行业头部企业都已入驻苏州人工智能产业园;智能语音企业思必驰科技、AI药物研发企业镁伽科技和自动驾驶企业天瞳威视等优秀人工智能企业也位于苏州。另一方面,AI行业的淘汰赛已经打响,零一万物的每一步棋都备受关注。先前与阿里云成立产业大模型联合实验室,此次又在大力扩充苏州办公室,如此来看,零一万物正在试图用“新一线城市+大厂+小虎”的打法,为自身争取产业大模型的更多落地可能。(未来图灵)5、长城汽车宣布已自主开发汽车标准大模型
1 月 13 日,长城汽车董事长魏建军宣布,长城汽车已自主开发汽车标准大模型。
魏建军表示,长城的汽车标准大模型几乎集成了全球的汽车标准,也将会给汽车专业的开发人员带来更多便利。
同时魏建军还透露,有机会将为大家介绍长城 AI 在未来的发展。从视频中显示,魏建军通过「汽车加速性测试道路的标准是什么?」和「转向管柱的静扭强度标准是什么?」来进行提问演示,搭在此大模型的聊天机器人均能流畅回答问题。
此前,长城汽车亮相 CES 2025,并宣布全面拥抱「AI 文明」时代,正在成为一家全球化的 AI 科技公司。为实现这一目标,长城汽车每年投入超百亿研发经费,预计到 2025 年累积投入过千亿元。并提出空间语言智能体大模型 ASL(Agent of Space & Language)。
据悉,在 ASL 阶段,车辆可实现全方位、立体化的信息处理和智能决策,能真正独立根据目的地特点、乘客的需求和偏好,以及沿途的交通和环境信息,量身定制独一无二的体验,让智能汽车成为一辆真正的 AI 智能体。
6、微软组建新的AI团队,瞄准端到端应用开发与部署
地时间周一,美国科技巨头微软宣布,正在组建一个新的部门,专注于开发人工智能(AI)应用程序,并为第三方客户提供工具。据悉,新部门将由网络安全初创公司Lacework前首席执行官、Meta前全球工程主管Jay Parikh领导。Parikh的背景是技术与工程管理,他的经验涵盖了网络安全和大规模技术基础设施。微软首席执行官萨蒂亚·纳德拉在发给员工的一份备忘录中表示,该部门将被命名为“核心AI平台和工具”,目标是构建一个完整的“端到端”AI应用开发生态,涵盖从应用开发到部署和运行的整个过程。(快科技)7、慧与科技获马斯克10亿美元AI服务器大单,击败戴尔、超微电脑1月13日消息,据报道,慧与科技(HPE,惠普企业集团)赢得了一项价值超过10亿美元的合同,将为马斯克的X提供专为AI任务优化的服务器。报道称,HPE与X在2024年底敲定了协议,此前,戴尔和超微电脑也曾竞标,希望向X销售服务器,但最终HPE脱颖而出。HPE的AI服务器业务目前相对于戴尔和超微电脑仍处于落后状态,马斯克决定下单,等于是对HPE产品的信任投票,分析师认为,HPE的液冷技术可能在其中扮演了重要角色。2024年9月,马斯克曾透露,集成了100000颗英伟达H100的“Colossus”训练集群已正式上线,是全球最强大的AI训练系统之一,规模将在未来几个月内倍增至200000颗,其中包括50000颗H200。xAI计划在未来部署一款由超过100万颗GPU支持的超级计算机,这个版本的Colossus将用于训练涵盖数万亿参数的LLM,届时将远比Grok 3或GPT-4更准确,还可能具备更先进的推理能力,进一步向通用人工智能(AGI)靠拢。(快科技)