专栏名称: APPSO

让智能手机更好用的秘密。

Midjourney重磅更新！又一个「言出法随」的AI生图神器｜附10+场景演示& 缺陷整理

APPSO · 公众号 · app · 2025-04-04 15:58

正文

请到「今天看啥」查看全文

曾经被视为必备技能的 PS，如今似乎陷入了「可学可不学」的微妙处境。

最新版本的 Gemini「言出法随」，仅需一句话就能改图，成为现象级的存在，GPT-4o 多模态生图功能上线以来，生成的吉卜力风格图片也几乎在一夜之间席卷网络。

面对新势力的崛起，老牌 AI 图像生成巨头 Midjourney 也不甘示弱，刚刚正式发布最新版本 V7 。

我们梳理了新版本的一些要点：

整体图像质量提高，对文字与图像提示的理解更准确，身体、手部及各种物体在细节上的一致性大幅增强。

人物肤色和面部细节更加自然清晰，材质纹理(如羽毛、衣物)质感表现精细，光影效果逼真。

能更好理解并呈现提示词描述的完整场景，元素间空间关系合理，背景与主体融合度高。

能准确表现特定视角，低角度和特写等拍摄风格表现专业。

氛围感和情感表达略弱，缺少一些戏剧性和神秘感，某些艺术风格的独特性和创意性稍显不足。

需要注意的是，V7 是首个默认启用模型个性化的版本。用户需解锁个性化设置才能使用此功能，整个过程约需 5 分钟，且可随时开关。

V7 的另一大亮点是「草稿模式」（Draft Mode）。该模式成本仅为标准模式的一半，图像渲染速度却提升至 10 倍。

在网页端使用时，提示栏将自动切换为「对话模式」，用户可直接通过指令调整内容，例如将猫替换为猫头鹰或将场景改为夜晚，系统会自动调整提示并生成新图像。

点击「草稿模式」并启用麦克风按钮后，用户还能进入「语音模式」，通过语音指令进行实时创作。若需明确运行草稿任务，用户可在提示后添加「--draft」参数，适用于排列组合或重复生成等场景。

Midjourney 官方表示，「草稿模式」是迄今为止迭代创意的最佳方式。

用户若对草稿图像满意，可点击「增强」或「改变」按钮，以完整质量重新渲染。需要注意的是，草稿模式下的图像质量低于标准模式，但其行为和美学表现高度一致，适合快速验证想法。

图片来自：@U79916881747113

V7 目前支持两种运行模式：Turbo 和 Relax。Turbo 模式速度更快，但成本为普通 V6 作业的 2 倍；草稿模式则成本减半。标准速度模式仍在优化中，预计不久后推出。

目前，放大、编辑和重新纹理功能将回退至 V6 模型，未来将逐步升级至 V7。情绪板和 SREF 功能已可用，后续更新将进一步提升性能。

Midjourney 团队透露，在未来 60 天内，每隔一至两周将推出新功能，其中最受期待的则是全新的 V7 角色和对象引用系统。

话不多说，先来看图。

知名博主 @nickfloats 分享了 Midjourney V6/V7版本基于同一提示词生成的的图片对比，一起来看看。

Prompt： A young Indian woman with dark hair in an open ponytail and a black jacket stands on a university campus, looking directly at the camera. The image has a 1990s-style movie still aesthetic, with a close-up portrait on a sunny day.

（一位年轻的印度女性，黑色头发扎成松散的马尾，穿着黑色夹克，站在大学校园里，直视镜头。照片呈现出 90 年代电影剧照风格，背景是阳光明媚的一天，特写的肖像。）

左：V6 右：V7

新版本的光线更加自然，尤其是在人物脸部，肤色更加清晰，细节更加丰富，画面焦点更加清晰，尤其是人物的发型部分，但也因此牺牲了一些氛围和情感的表达。

Prompt：A majestic barn owl perched on an ancient, moss-covered tree branch, surrounded by the misty forest. The scene is bathed in soft light filtering through the dense foliage, creating a magical and ethereal atmosphere. Photorealistic style with attention to detail of the feathers and textures.

（一只威严的 barn owl（仓鸮）栖息在一根古老、覆盖着苔藓的树枝上，周围是迷雾缭绕的森林。柔和的光线透过浓密的树叶洒下，营造出一种神秘而飘渺的氛围。画面风格为逼真的写实风格，细致入微地展现了羽毛和树皮的质感。）

左：V6 右：V7

新版本的猫头鹰羽毛纹理更加细腻，羽毛的层次感和光影效果更强，显得更加真实。猫头鹰的姿态方面，新版本更自然，身体略微倾斜，显得更有动态感，眼睛的细节也更生动，传递出一种警惕的神态。

简言之，鱼和熊掌，不可兼得，V7 在追求真实感的目标上更胜一筹；V6 则可能在追求画面冲击力和神秘感上更具优势。

Prompt：A person's hand points towards the window of an airplane, which is seen from inside with its wing visible in profile. The sky outside shows a clear horizon at dawn or dusk. In front of them lies a vast expanse of ocean.

（一个人的手指向飞机窗外，窗外的飞机机翼从侧面可见。外面的天空清晰，天际线显示出黎明或黄昏的景象。眼前是广阔的海洋。）

左：V6 右：V7

同样都是从飞机舷窗向外看的情景，一只手指向窗外，V7 的进步肉眼可见，通过加入飞机机翼的元素，增加了画面的层次感和真实感，更能感受到身处飞机的视角。

Prompt：A close-up of broccoli being sautéed in oil, with the vegetable's green florets contrasting against a dark brown sauce. A large spoon is partially visible inside a stainless steel pot filled with caramelized and shiny black glaze on top, against a white...

（一块近距离拍摄的西兰花在油中翻炒，绿意盎然的花椰菜与深棕色的酱汁形成鲜明对比。一只大汤勺部分可见，放在一个不锈钢锅中，锅里覆盖着一层焦糖色的光泽黑色酱汁，背景是白色的...）

左：V6 右：V7

V6 虽然通过特写镜头突出了酱汁和勺子，焦点非常明确，注意力很容易被吸引到酱汁的质感和细节上，但如果从提示词的要求出发，新版本展示整个锅内的西兰花和酱汁的搭配，呈现了一个更完整的烹饪场景，逻辑上更符合实际烹饪过程。

Prompt：Close-up of an anime woman's face with a shocked expression, dark hair, in the anime style. Colorful animation stills, close-up intensity, soft lighting, low-angle camera view, and high detail.

（一位动漫女性的面部特写，表情震惊，黑色头发，呈现动漫风格。色彩丰富的动画画面，特写镜头强烈，柔和的光线，低角度拍摄，细节非常精致。）

左：V6 右：V7

光影和色彩的处理上，V7 也符合提示词中的「soft lighting」要求，脸部的高光和阴影过渡更加柔和自然，尤其是眼部和脸颊的光影分布，营造出更立体的效果。

Prompt：A dynamic film still of an epic space battle with sleek starfighters zooming past a massive space station, lasers firing, and a distant planet visible in the backdrop.

（一幅动态的电影画面，展示了一场史诗般的太空战斗，流线型的星际战斗机飞驰而过，巨大的太空站在一旁，激光四射，远处的行星清晰可见，构成了一幅震撼的画面。）

左：V6 右：V7

人像方面，v7 在细节的精细度和真实感（服装、皮肤、光影等）上有所提升，人物的立体感和与背景的融合度更高，但在情感传递、表情的戏剧性、动态感上有所倒退。

以下为三个具体的对比案例：

Prompt：1980s mystery film, low-angle shot of an evil-eyed French Butler sporting a black suit and grasping a candle in the hallway of a creepy Victorian mansion with musty decor. The warm candle glow evokes a spooky sense of mystery

（一张 1980 年代神秘电影风格的低角度镜头，拍摄了一位邪恶眼神的法国管家，身穿黑色西装，手中握着一支蜡烛，站在一座装饰陈旧、充满霉味的维多利亚式大厦走廊里。温暖的烛光营造出一种阴森神秘的氛围。）

左：V6 右：V7

Prompt：1990s medium-full street style fashion photo shot on Kodak 500T capturing a rugged 50-year-old man with curly gray hair, 5-o'clock shadow, and a stern look walking down the sidewalk on a bright spring morning in Paris. He's wearing ...

（一张 1990 年代中等全身街头风格的照片，使用 Kodak 500T 胶片拍摄，捕捉到一位五十多岁的男子，他有着卷曲的灰白色头发、胡茬和严肃的表情，正走在巴黎春日明媚的早晨人行道上。他穿着...）

左：V6 右：V7

Prompt：Cinematic, off-center, two-shot, 35mm film still of a 30-year-old french man, curly brown hair and a stained beige polo sweater, reading a book to his adorable 5-year-old daughter, wearing fuzzy pink pajamas, sitting in a cozy corner nook...

（一张电影感的 35 毫米胶片画面，构图偏离中心，拍摄了一位 30 岁的法国男子，卷曲的棕色头发，穿着一件弄脏的米色 polo 衫，正在给他可爱的 5 岁女儿读书。女儿穿着柔软的粉色睡衣，坐在一个温馨的角落里。）

左：V6 右：V7

海螺 AI+Midjourney 会是让图片动起来的王炸组合吗？网友 @ainextastro 也试了试。

下面由 @tanvitabs 用 v7 生成的这张照片则将 AI 图像生成的坑都踩了个遍，包括凭空多出来的第三只手，T 恤和西装着装上的混淆，以及不匹配的面部生成等。

最后留个课堂作业，以下是基于同一提示词生成的四张照片，你更喜欢哪个版本？请投票。

Prompt：Elegant female model standing by a large window in a sunlit room, soft morningliaht casting natural highlights and shadows on her face, wearing a flowing beigedress, relaxed pose, minimal makeup, 85mm lens depth of field, lifestyle fashioneditorial, cinematic tones, airy atmosphere

（一位优雅的女性模特站在阳光洒进的房间大窗旁，柔和的晨光在她的脸上投下自然的高光与阴影，身穿一袭飘逸的米色长裙，姿势放松，妆容简约。使用 85mm 镜头拍摄，背景有着浅景深，营造出生活方式时尚编辑感，画面呈现电影般的色调，空气感十足。）

过去几年，AI 图像生成的主旋律是追求真实、无油腻感。

去年，Flux 因生成超真实人像而一举破圈，声名大噪， 现在，Midjourney V7 接过接力棒，以更丰富的细节、更有层次感的光影、更自然的肤质纹理，再次将「真实」推向新的高度。

但追求真实，是一切的终点吗？

最近，随着 GPT-4o 多模态生图功能的发布，吉卜力风格的图片几乎在一夜之间点燃了网络，也像一阵春风吹进了 AI 图像生成的世界。

技术选择的可能性多了，创作的玩法也跟着变了。用更通俗的话来说，现在就好比站在厨房里，你是想做顿踏实的饭，还是想整点黑暗料理的，全然在你。

我们正在招募伙伴

📮 简历投递邮箱
[email protected]

✉️ 邮件标题
「姓名 + 岗位名称」（请随简历附上项目 / 作品或相关链接）

更多岗位信息请点击这里🔗