1.1. AI行业动态:
IBM推出新一代企业AI模型Granite 3.0 开启「小模型高性能」时代
IBM 在美国时间10月21日举行的TechXchange 年度技术大会上,发表了自家旗舰级模型系列第三代 Granite 3.0; 它经由宽松的Apache 2.0许可发布,在众多学术与行业评比测试中,均超越或与类似规模的竞者模型并驾齐驱,展现了优异的性能、建模弹性、透明度与安全性。
IBM Granite 3.0系列模型包括:
通用/语言模型:Granite 3.0 8B Instruct, Granite 3.0 2B Instruct, Granite 3.0 8B Base, Granite 3.0 2B Base
护栏与安全模型:Granite Guardian 3.0 8B, Granite Guardian 3.0 2B
专家混合模型:Granite 3.0 3B-A800M Instruct, Granite 3.0 1B-A400M Instruct, Granite 3.0 3B-A800M Base, Granite 3.0 1B-A400M Base
IBM Granite 3.0系列模型的主要特点:
适合性:
许多大语言模型(LLM)是基于可用的公开数据训练而成; 绝大多数的企业内部数据未被使用。Granite 3.0 8B与2B被设计为企业级AI的主力模型,可为检索增强生成(RAG)、分类、摘要、实体提取、工具使用等企业任务,提供强大的性能。这些小巧、多功能模型可以根据企业数据进行微调,与业务场景或工作流程无缝整合。
性能:
在Hugging Face的OpenLLM排行榜评比测试中,Granite 3.0 8B Instruct模型的整体性能,平均领先Meta与Mistral类似大小的开源模型的最佳性能。在IBM的AttaQ安全评比测试中,上述模型在所有受测的安全维度里,表现均优于Meta与Mistral的模型。
在这次发布里,还有专家混合架构(Mixture of Experts, MOE)Granite 3.0 1B-A400M与Granite 3.0 3B-A800M,这些较小型、轻量级的模型可建置在传统CPU服务器,用于低延迟应用程序,兼顾性能与推理成本的完美平衡。
IBM还发布了预训练 Granite 时间序列模型的更新版本。这些新模型基于多三倍的数据量训练,具备更高的建模弹性、支持外部变量与滚动预测。在三个主要时间序列模型评比中,Granite 的性能超越了Google、阿里等规模大十倍的模型。
DeepSeek-V3首个版本上线并同步开源!编程能力超越Claude 3.5紧追o1!(微信公众号:AIGitHub)
DeepSeek 近日发布全新系列模型 DeepSeek-V3,并同步开源。该模型采用自研 MoE 架构,拥有 671B 参数,在 14.8T token 上完成预训练。DeepSeek V3是知名私募巨头幻方量化旗下人工智能公司深度求索(DeepSeek)开源的最新版Al模型,为自研 MoE 模型,在多语言编程能力上的进步显著。在aider多语言编程测评中的表现超越了Claude 3.5 Sonnet V2等竞争对手。
DeepSeek V3采用了高达6850亿参数的混合专家(MoE)架构,包含256个专家,使用sigmoid路由方式,每次选取前8个专家参与计算,模型能更高效地处理复杂任务。
V3模型提升了响应速度和处理效率DeepSeek-V3 的生成吐字速度从 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型实现了3倍的提升,在处理多模态数据和长文本时表现突出。DeepSeek V3已经开源,可以在Hugging Face上查看。
通过算法和工程上的创新,DeepSeek-V3 的生成吐字速度从 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型实现了 3 倍的提升,为用户带来更加迅速流畅的使用体验。
DeepSeek V3的主要功能:
自然语言查询处理:
DeepSeek V3能理解和处理用户的自然语言查询,提供快速准确的回答。
代码生成能力:
产品具备代码生成功能,可以帮助开发者快速生成代码片段,提高开发效率。
训练效率:
支持 FP8 混合精度训练,提高训练速度,减少 GPU 内存使用。设计 DualPipe 算法,实现高效的流水线并行处理。优化跨节点 AIIl-to-AI 通信,充分利用 InfiniBand 和 NVLink 带宽。
性能评估:
在多个标准和开放式基准测试中,DeepSeek-V3 的基础模型表现出色,尤其在代码和数学领域。聊天版本的 DeepSeek-V3 也超越了其他开源模型,并与领先的闭源模型性能相当。
成本效益:
训练成本仅为 2.788M H800 GPU 小时,总成本为 5.576M 美元。
API和Web服务:
DeepSeek提供API和Web服务,方便用户在不同场景下集成和使用
多语言处理能力:
DeepSeek V3在多语言编程能力上取得了重大突破,在aider多语言编程测评中的表现超越了Claude3.5 Sonnet V2等竞争对手。
小米正搭建GPU万卡集群,将大力投入AI大模型(C114通信网)
报道称小米大模型团队在成立时已有 6500 张 GPU 资源,其对 AI 大模型的重视程度提升此前已有信号。12 月 20 日,即有消息称 DeepSeek 开源大模型 DeepSeek-V2 的关键开发者之一罗福莉将加入小米,或供职于小米 AI 实验室,领导小米大模型团队。
2023 年 4 月,小米 AI 实验室大模型团队正式组建,任命栾剑担任大模型团队负责人,向小米技术委员会副主席、AI 实验室主任王斌汇报。
栾剑此前为 AI 实验室语音生成团队的负责人,曾任东芝(中国)研究院研究员、微软(中国)工程院高级语音科学家、微软小冰首席语音科学家及语音团队负责人等职位。
同一时间,雷军发文谈论对大模型和 AIGC 的看法时表示,小米在 AI 领域已经耕耘多年,有 AI 实验室、小爱同学、自动驾驶等团队。“对于大模型,我们当然会全力以赴,坚决拥抱。我们正在研发一些有趣的技术和产品,等我们打磨好了,再给大家展示。”
自 2016 年组建 AI 团队以来,小米人工智能团队经过 7 年 6 次扩展,相关领域人员规模已达 3000 多人,其 AI 技术能力已覆盖视觉、声学、语音、NLP、知识图谱、机器学习、大模型、多模态方向,并逐步接入手机、汽车、AIoT、机器人等业务板块。
1.2. 卫星互联网动态:
卫星互联网新星鸿擎科技完成A1轮融资 估值已达16.4亿元(C114通信网)
通宇通讯发布公告称,正式参与北京蓝箭鸿擎科技有限公司(以下简称“鸿擎科技”)的A1轮融资,以自有资金出资人民币3000万元,认缴鸿擎科技新增注册资本51.5597万元,剩余部分计入资本公积,以取得本次增资完成后鸿擎科技的1.8293%股权。
以此估算,鸿擎科技当前估值已达16.4亿元。
据介绍,鸿擎科技是国内唯一拥有星箭协同能力的公司,在低轨宽带互联网通信卫星业务方面具有核心竞争力。公司不仅具备卫星整星、卫星平台和卫星核心单机/分系统的研发、设计、生产制造能力,还建立了高水平的整星设计、集成制造及交付能力。该公司坚持重要核心单机和分系统自研,以确保关键技术的自主可控,并不断推进技术迭代,实现卫星平台的整体集成化和迭代升级。此外,鸿擎科技是中国核心星座运营商选定的十余家卫星地面集成验证供应厂商之一。
今年上半年,国际电信联盟公布的资料显示,鸿擎科技提交了名为“鸿鹄三号”卫星星座的备案,将在160个轨道平面上总共发射10000颗卫星。
1.3. 海上风电行业动态
9.85亿元海上风电大单!中标候选人公示(微信公众号:龙船风电网)
12月24日,华能集团电子商务平台发布《华能山东分公司半岛北L场址海上风电项目海缆及附属设备预招标中标候选人公示》的公告。
标段一66kV海缆:
公告显示,第一中标候选人:宁波东方电缆股份有限公司,投标报价:127900014元。第二中标候选人:宝胜(扬州)海洋工程电缆有限公司,投标报价:121010570元。第三中标候选人:上海起帆电缆股份有限公司,投标报价:119358345.96元。
标段二220kV海缆:
公告显示,第一中标候选人:宁波东方电缆股份有限公司,投标报价:856900020元。第二中标候选人:宝胜(扬州)海洋工程电缆有限公司,投标报价:820010880元。第三中标候选人:中天科技海缆股份有限公司,投标报价:894004090元。
华能山东分公司半岛北L场址海上风电项目位于山东省山东半岛北部海域,离岸70千米,水深50米以上,总装机容量为504MW,拟建设42台单机容量12MW的风电机组,配套建设一座220千伏海上升压站、一座陆上集控中心和配套海底电缆。
该项目是目前国内水深最深、山东省单机容量最大的海上风电项目。项目总投资约70亿元,预计2025年底建成投产,年发电量约为17亿千瓦时,每年可节约标煤50万吨、减排二氧化碳135万吨,具有显著的经济、社会和生态环保效益。
单机最大20MW!广东一海上风电项目招标(微信公众号:龙船风电网)
12月25日,华润集团电子招标采购平台发布《华润阳江三山岛四海上风电场项目风力发电机组(含塔筒)货物及服务招标公告》。
公告显示,华润阳江三山岛四海上风电场项目位于广东省阳江市海陵岛南部海域,项目规模500MW。
招标内容和范围:采购总容量不低于500MW的海上风力发电机组、塔筒及附属设备和配套服务:
(1)项目总容量为500MW(若超过按照500MW计算),不超过32台(含塔筒)风电机组,16MW≤单机容量≤20MW。
(2)投标机型方案全场平均单位千瓦扫风面积单位不小于3.35㎡/kW(叶轮直径以认证证书为准)。
(3)如为混排方案,混排机型不超过2种。
(4)投标机型必须满足项目场址处标准空气密度(1.225kg/m³)下50年一遇10min平均最大和3s极大风速下的整机载荷安全(若投标机型认证证书上的空气密度为非标准空气密度,必须提供标准空气密度下对应的50年一遇10min平均最大和3s极大风速的换算值)。不同轮毂高度下的机型50年一遇10min平均最大和3s极大风速须不小于(详见技术规范书-附件十一)对应高度处的风速值。详见招标文件第五卷。
交货期/工期:
(1)暂定风力发电机组(含塔筒)及附属设备交货期为2025年9月1日~2026年5月30日,其中9月份供货数量不少于2套,其余施工期每月供货数量不少于6套,2026年5月30日前完成总容量500MW全部供货(具体供货期以招标人书面通知为准)。
(2)暂定风力发电机组基础顶法兰交货期为2025年4月1日~2025年7月30日,其中4月份供货数量不少于3套,其余每月供货数量不少于9套,2025年7月30日前完成全部供货(具体供货期及数量以招标人书面通知为准,如供货时间发生变化,招标人提前三个月通知)。