专栏名称: 阿里研究院
阿里研究院依托阿里巴巴集团海量数据、深耕小企业前沿案例、集结全球商业智慧,以开放、合作、共建、共享的方式打造具影响力的新商业知识平台。 阿里研究,洞察数据,共创新知! 官方网站http://www.aliresearch.com/
目录
相关文章推荐
蛋先生工作室  ·  最新淘汰鸡行情 ·  5 天前  
葡萄酒商业观察  ·  价格低廉的“国内灌装葡萄酒”转移阵地了? ·  6 天前  
蛋先生工作室  ·  2025年1月11日最新蛋价(上午) ·  6 天前  
蛋先生工作室  ·  最新豆粕、玉米、生猪行情 ·  6 天前  
蛋先生工作室  ·  最新淘汰鸡行情 ·  1 周前  
51好读  ›  专栏  ›  阿里研究院

通义万相上新,登顶!

阿里研究院  · 公众号  · 电商  · 2025-01-09 16:09

正文

本文转载自阿里云


刚刚,阿里云通义万相迎来重磅升级,推出万相2.1视频生成模型,在大幅度复杂运动、物理规律遵循、艺术表现等方面全面提升,并在权威评测榜单VBench中登上榜首



VBench是视频生成领域的权威评测集,它一共有16个评分维度,从整体一致性、动作流畅度、画面稳定性等方面对模型进行全方位评估。VBench榜单显示,通义万相在运动幅度、多对象生成、空间关系等关键能力上拿下最高分,并以总分84.7%的成绩斩获第一


精准理解和模拟物理世界是当下视频生成模型的核心难题,现有模型生成的视频在大幅运动、物理复杂场景表现较差,容易生成肢体扭曲、违背物理定律的视频。针对这一难题,通义万相团队采用自研高效的VAE和DiT架构,有效增强时空上下文关系建模能力


在全新架构下,通义万相在大幅度的肢体运动和肢体旋转场景的视频生成上表现更稳定即便是花样滑冰、游泳、跳水等运动视频也能保持肢体协调并符合正常运动轨迹。通义万相在文字视频生成上实现了突破,成为首个支持中文文字生成能力、且同时支持中英文文字特效生成的视频生成模型可满足广告设计、短视频等领域的创作需求。


用户输入:“以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现“福”字,墨色从深到浅过渡,呈现出独特的东方韵味。背景高级简洁,杂志摄影感。”


用户输入:“平拍一位女性花样滑冰运动员在冰场上进行表演的全景。她穿着紫色的滑冰服,脚踩白色的滑冰鞋,正在进行一个旋转动作。她的手臂张开,身体向后倾斜,展现了她的技巧和优雅”


在DiT的设计中,全新通义万相使用时空全注意机制,这一机制让模型能够更准确地模拟现实世界的复杂动态;团队还引入了参数共享机制,不仅提升了模型的性能,还有效降低了训练成本;此外,针对文本的嵌入进行优化,实现更优的文本可控性的同时也减少了计算需求。


用户输入:“远景拍摄,塞纳河畔,绚烂的烟花在空中绽放,烟花形成了粉色数字“2025”时镜头拉近特写,然后逐渐消散”


在视频VAE方面,通义万相设计了一种创新的视频编解码方案。通过将视频拆分成若干块(Chunk)并缓存中间特征的方式,代替直接对长视频端到端的编解码过程,实现显存的使用与原始视频长度无关,从而能够支持无限长1080P视频的高效编解码,这一关键技术为任意时长视频的训练提供了新的路径。


用户输入:“一只绵羊正低头在河边饮水。平拍近景下,这只羊有着蓬松的白色羊毛,耳朵垂下,嘴巴轻轻触碰水面。镜头缓缓推进,展示它喝水时的宁静姿态,背景是缓缓流动的河水和远处的绿色草地。”


用户输入:“在餐厅里,一个人正在切一块热气腾腾的牛排。在特写俯拍下,这个人右手拿着一把锋利的刀,将刀放在牛排上,然后沿着牛排中心切开。背景是虚化的,有一个白色的盘子,里面放着黄色的食物,还有一张棕色的桌子。”


目前该模型已全面开放,用户可在通义万相官网直接免费使用,个人开发者和企业用户还可在阿里云百炼调用通义万相API进一步创造更丰富的AI工具和应用。


/ END /



 版块介绍 — 产业之声

 

紧跟产业发展脉搏,我们汇集行业领袖与企业的真实声音,在算力基础设施的规划与布局、能耗优化、大模型能力发展、大模型评测体系、产业应用案例深入研究、新技术与应用趋势前瞻探索等方面,剖析成功案例背后的逻辑与挑战,并提供基于产业深度洞察的策略建议。同时,我们依托于阿里巴巴集团在人工智能领域的全面布局,分享阿里的AI产业生态和应用的实践落地,探讨技术如何重塑产业格局并推动社会经济的转型升级。


推荐阅读

Reading

1、被“套壳”割韭菜,是谁在制造AI焦虑?

2、观察|“兼济天下”与“产业繁荣”:从中法联合声明看中国的“AI力”

3、智能背后的电能保障:GPU算力集群能源挑战的全球视角与中国应对

4、产业之声 | 阿里调研:生成式AI在电商场景的应用、前景与挑战

5、产业之声 | 生成式AI驱动的数据要素价值创造新模式

6、阿里云内部全面推行AI写代码,未来20%代码由通义灵码编写

7、安筱鹏:中国没有“百模大战”,也没有“十模大战”

8、达摩院AI助力农业育种,遗传学分析加速1000倍

9、安全治理与能力发展兼顾并重,Claude 3对中国大模型发展有哪些启示

10、【“人工智能+”深度案例】从智能工厂到ChatBI,雅戈尔的“智能+”实践

11、夸克:大模型时代,创造革新性搜索产品的探索之路

12、数字技术助力国产猕猴桃产业破解“即食”难题

13、AI驱动电商,淘天集团用科技定义商业

14、《自然·医学》刊登中国科学家关键突破:癌症筛查的黄金时代准备就绪

15、安筱鹏:制造业是AI大模型应用的主战场

16、【观点】阿里妈妈万相实验室首发上线 电商进入AI上新新时代

17、数字时代组织管理工具“钉钉HCM”重磅发布

18、产业之声 | 生成式AI驱动的数据要素价值创造新模式

19、产业之声 | 生成式AI在电商场景的应用、前景与挑战

20、产业之声 | 为AI供电-超万卡GPU算力集群的算电协同与零碳发展

21、产业之声 | “软硬兼施,以软带硬” - 缓解“算力焦虑”的模型与芯片协同优化策略

22、产业之声 | 安筱鹏:智算集群的“三个不等式”

23、“形”“型”合璧,恰逢其会-人形机器人是大模型技术的高级呈现形态

24、具身智能系列 | 人形机器人会替代机械臂吗?- 人形机器人在制造业中的定位与价值分析

25、产业之声|大模型问月:首个月球科学多模态专业大模型发布

26、OpenAI o1大模型的技术、安全与应用简析 | 积跬步,虽未至千里,仍指引前行

27、产业之声 | 安筱鹏:超越AI大模型的“加拉帕戈斯”效应

28、具身智能系列 | “百人大战”来临,人形机器人产业发展需要“软硬并重”

29、具身智能系列 | 摆脱“地心引力束缚”-人形机器人进厂实习背后的产业发展逻辑

30、【年度回顾】大模型产业应用(一) | 润物无声:大模型已快速渗透千行百业

31、【年度回顾】大模型产业应用(二) | 全速前进:大模型驱动科研技术领域范式变革

32、【年度回顾】大模型产业应用(三) | 智启新章:2025年智能体或将迎来爆发元年



推荐文章
蛋先生工作室  ·  最新淘汰鸡行情
5 天前
葡萄酒商业观察  ·  价格低廉的“国内灌装葡萄酒”转移阵地了?
6 天前
蛋先生工作室  ·  2025年1月11日最新蛋价(上午)
6 天前
蛋先生工作室  ·  最新豆粕、玉米、生猪行情
6 天前
蛋先生工作室  ·  最新淘汰鸡行情
1 周前
思想汇聚人生  ·  拍完这张照片后,摄影师就自杀了…
7 年前
食品伙伴网订阅号  ·  肉制品加工技术实用案例集
7 年前