从2023年开始,阿里云就坚定大模型开源路线,其千问(Qwen)衍生模型数量已超过10万个,是全球最大的AI模型家族之一。随着万相的开源,阿里云实现了全模态、全尺寸的开源。
技术创新
消费级显卡也能跑
2023年7月,通义万相图像生成大模型首次亮相。在2024年9月举办的2024云栖大会上,阿里云CTO周靖人宣布通义万相全面升级,并发布全新视频生成模型,可生成影视级高清视频,应用于影视创作、动画设计、广告设计等领域。万相视频生成模型发布后,通义大模型已覆盖文本生成、图像理解、视频理解、音频理解、图像生成、视频生成等全模态场景。
2025年1月,万相宣布推出2.1版本模型升级,其在视频生成、图像生成两大能力均有显著提升。据悉,在视频生成方面,万相2.1通过自研的高效VAE和DiT架构增强了时空上下文建模能力,支持无限长1080P视频的高效编解码,首次实现了中文文字视频生成功能。
记者了解到,14B专业版万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出。在权威评测集VBench中,万相2.1以总分86.22%大幅超越Sora、Luma、Pika等国内外模型,稳居榜首位置。
1.3B极速版测试结果不仅超过了更大尺寸的开源模型,甚至还和一些闭源的模型结果接近,同时能在消费级显卡运行,仅需8.2GB显存就可以生成480P视频,适用于二次模型开发和学术研究。
万相2.1通过一系列技术创新实现了生成能力的重大进步。包括自研高效的因果3D VAE、可扩展的预训练策略、大规模数据链路构建以及自动化评估指标,这些创新共同提升了模型的最终性能表现。
万相团队的实验结果显示,在运动质量、视觉质量、风格和多目标等14个主要维度和26个子维度测试中,万相均达到了业界领先表现,并且实现了5项第一。尤其在复杂运动和物理规律遵循上的表现上大幅提升,万相能够稳定展现各种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等;能够精准还原碰撞、反弹、切割等复杂真实物理场景。
无限可能
2月24日,阿里巴巴集团CEO吴泳铭宣布,未来三年,阿里将投入超过3800亿元,用于建设云和AI硬件基础设施,创下中国民营企业在云和AI硬件基础设施建设领域有史以来的最大规模投资纪录。
国泰君安认为,阿里巴巴大幅增加AI基础设施投资,国内CSP(云服务提供商)厂商将积极跟进,有望复现“互联网+”周期中出现的IDC(互联网数据中心)投资热潮。其他CSP厂商也将同步增加对AIDC(人工智能数据中心)的投资,推动国产AI算力产业链的需求改善。
在业界看来,阿里数千亿投资,既是对于坚定不移走高质量发展之路的承诺,更是坚守主业、做强实业,投资未来、投资创新的坚定表态。正如吴泳铭所说:“AI爆发远超预期,国内科技产业方兴未艾,潜力巨大。阿里巴巴将不遗余力加速云和AI硬件基础设施建设,助推全行业生态发展。”
上海证券报记者梳理发现,近期,阿里在AI方面布局不断,涉及技术研发、组织架构调整、人员招聘等多方面,为内部AI战略的全面贯彻打通了“任督二脉”,而数千亿规模的基础设施投资可谓“谋定而后动”。
今年1月,阿里全新开源新一代多模态模型Qwen2.5-VL,并推出基于MoE架构的旗舰模型Qwen2.5-Max。截至2025年1月31日,基于Qwen模型家族在Hugging Face上开发的衍生模型数量已超过9万个,成为全球最大的AI模型家族之一。