作者丨郑佳美
编辑丨陈彩娴
3 个月前,MiniMax 发布了首款 AI 高清视频生成模型 Abab-video-1。只用了 5 周时间,海螺 AI 的网页版访问量便增速超 800%,还登上了 AI 产品榜当月全球增速榜、国内增速榜双榜单 TOP 1。
一时间,不少国内网友直呼其为“
国产之光
”。
12 月初,MiniMax 又上新了图生视频模型 I2V-01-Live,新的模型专门对二次元效果进行了优化,能够更好的将静态的二次元图片转化为流畅且自然的动态视频,至此,海螺 AI 开始进军“动漫界”。
与此同时,OpenAI 的“双十二”活动也在如火如荼的进行着,万众期待的 Sora Turbo 顺势开放。当“国产之光”碰上“话题之王”,会擦出怎样的火花?AI 科技评论第一时间对二者最新、最完整的模型进行了一手体验,在给定的一系列固定提示词的条件下,海螺 AI 的生成效果属实令人眼前一亮。
在这场视频生成的狂欢中,不少网友脑洞大开,提供了各种虚实结合的有趣 idea:
在网友对比海螺 AI 和 Sora 生成的“喝茶的龙”的视频下,评论区普遍认为 Sora 生成的龙与背景存在一定的违和感,尽管能够创造出看似真实的图像,但在细节融合和场景一致性上可能还存在一些挑战。
提示词:ancient dragon drinking tea。古老的龙在喝茶。
也有网友直接让两个模型生成《了不起的盖茨比》小说中所描述的画面,对比其生成效果的还原度,并锐利点评:海螺 AI 的效果确实有 20 世纪的味道,但 Sora 的效果却显得过于现代,不符合提示词的要求。
提示词:A realistic, high-definition 16:9 horizontal video depicting a lavish party at Jay Gatsby’s mansion from F. Scott Fitzgerald’s novel ‘The Great Gatsby’. The scene captures the extravagant 1920s.
一个真实、高清的16:9横向视频,描绘了F. Scott Fitzgerald的小说《了不起的盖茨比》中Jay Gatsby的豪宅里举办的奢华派对场景。这场戏捕捉了20世纪20年代的奢华氛围。
还有网友将同一提示词下 sora 和海螺 AI 生成的视频做了横向对比并评论:现在不需要Sora,海螺 AI 也能满足我的一切需求。
提示词:An astronaut in a white suit with a reflective visor stands amidst a glowing meadow of bioluminescent flowers under a surreal, starry night sky. The astronaut reaches out toward ethereal, glowing jellyfish floating gracefully in the air. The camera performs a slow dolly zoom。
一位穿着白色宇航服、戴着反光面罩的宇航员站在一片发光的生物荧光花丛中,头顶是超现实的繁星点点的夜空。宇航员伸手向空中优雅漂浮的幽灵般发光的水母。摄像机进行缓慢的推拉变焦拍摄。
除了以上这些对比二者生成效果真实性的网友外,也有大批网友在体验了 MiniMax 最新的 I2V-01-Live 图生视频模型后纷纷加入了对 海螺AI 的赞誉行列。
有从事艺术行业的网友晒图并表示:这是我尝试过的最难动画化的图片之一,几乎所有平台都试过了,只有海螺 AI 成功让这张图片动了起来!
更有网友专门整理了视频海螺 AI 的视频合集,并配文:I2V-01-Live 就是为了让 2D 动画动起来而设计的,它不会让你失望!
甚至有网友用 I2V-01-Live “复活”了塔罗牌:这些人物动作流畅,仿佛被注入了生命一样!
也有网友在尝试过之后,认为这个模型的生成效果和儿童故事的插图完美匹配,效果十分完美。
看过了网友们对海螺 AI 和 Sora 的真实测评后,AI科技评论也进行了一手体验,为了更加直观的进行对比,生成时统一使用了 Sora 官方 demo 的视频提示词。
在尝试制作“猕猴眼部特写镜头”视频时,海螺 AI 的生成效果相较于 Sora 更为直观。视频中,镜头缓缓移动,揭示出主角是一只猕猴,毛发与脸部轮廓处理真实细腻。然而,Sora 的效果如果不结合提示词来理解,很难让人将其与“猕猴”联系起来。尽管如此,Sora 却成功捕捉到了猴子眼中的“星河宇宙”,而这一细节在海螺AI的效果中并不那么明显。
提示词:a closeup of the eye of a macaque monkey. it is very still. the eye does not move, and the gaze of the eye does not move. the monkey stares back at us in the camera. we see the universe in the eye of the monkey.
一只猕猴的眼睛的特写镜头。它非常静止。眼睛不动,目光也不移动。猴子在镜头中凝视着我们。我们在猴子的眼睛里看到了宇宙。
在处理“头发凌乱不堪”这一指令时,两个模型都选择了通过“风吹”的效果来展现。然而,海螺 AI 所呈现的画面更具动感,画面感更为强烈。画面中,一位老人缓缓转身,微风轻拂,自然地掀起他的头发,显得既真实又细腻。相比之下,Sora 的处理则显得有些粗犷,仿佛是在“乱吹”。
提示词:a close up of an old man having a really bad hair day.一个老人头发凌乱不堪的特写镜头。
主角行走时动作僵硬、缺乏流畅性是许多视频生成大型模型普遍面临的问题,即使是被誉为“话题之王”的 Sora 也未能免俗。在 Sora 生成的视频中,人物行走时步伐略显僵硬,同时伴随着镜头的轻微拉近,本意是为了营造一种从远及近的视觉效果,但结果却不尽人意,反而让画面显得有些不协调。
而海螺 AI 在这方面的处理则显得更为自然且流畅,巧妙地避免了这些问题,让人物的动作和镜头的过渡都更加和谐,视觉舒适感拉满。
测评之外,真实的榜单数据也在彰显着 MiniMax 的技术实力。
时至今日,MiniMax 视频模型依然凭借其卓越的画面质感、内容的真实性以及流畅性等优势,在 VBench榜单独立测评评分上
稳居首位
。
据 MiniMax 介绍,他们的大模型每天要与全球用户进行超30亿次交互,平均处理超过3万亿文本token,生成2000万张图片以及7万小时语音。在全球拥有多元化用户分布的同时,位居国内 AI 公司大模型日处理交互量榜首。
和Sora在年初的初次亮相相比, MiniMax 在视频生成赛道上的“姗姗来迟”,公司创始人闫俊杰则表示这其实是一种“蓄力”,他希望 MiniMax 能够在技术上形成绝对优势后再进入赛道,以弥补入局晚的劣势。在他看来,要大投入去做的技术研发,不应该只追求 5% 或是 10% 的提升,而应该追求几倍的提升。
也正因如此,MiniMax 在视频生成赛道中的“迟到行为”,便更像是刻意而为之,给人一种待万事俱备之时,再乘东风之势,一鸣惊人的从容与淡定。
事实证明,他们做到了。
2024 年 8 月,MiniMax 的 Abab-video-1 模型一经上线便火遍全球,迅速包揽各大榜单的 TOP 1。但在人们一声声“国产之光”的欢呼中,闫俊杰最先冷静下来,他知道对于 MiniMax 而言,技术的重要性还在不断的提升,技术好了,才能留住用户。他曾说:“当技术做不好的时候,所有东西都是问题,当技术做好了,所有问题都会被掩盖。”
继10月上线图生视频功能后,MiniMax此次发布最新图生视频模型 I2V-01-Live,再次证明了 MiniMax 在视频生成大模型领域的技术能力。快速的产品更新周期将人们对海螺 AI 未来的文+图生成视频以及编辑可控性的期待值直接拉满。
在竞争日益激烈的视频生成大模型领域,MiniMax 作为新兴力量,凭借专注深耕的技术路线与精准前瞻的战略布局脱颖而出,拉着视频生成行业往前走了一大步。
然而,作为“后来者”,MiniMax究竟是如何推动行业发展的?其中缘由并不难理解。
Sora 热潮掀起了国内对视频生成大模型的广泛关注,各大公司“先后”入局,MiniMax 凭初创公司的身份,在一众“宇宙大厂”面前表现不输。
从默默无闻的初创公司,仅用了三年时间便到“国产之光”,
MiniMax 或许真的不一般。
自公司成立,MiniMax坚持在多模态发力,其视频生成模型生成内容从细节性、准确性以及丰富度上都得到了不错的效果。