专栏名称: 果壳
果壳网(Guokr.com)是开放、多元的泛科技兴趣社区。
目录
相关文章推荐
科普中国  ·  最强优越性!我国超导量子计算机再获突破 ·  2 天前  
科普中国  ·  兵马俑发掘,有大发现! ·  3 天前  
原理  ·  两种原子核描述的统一 ·  4 天前  
果壳  ·  中国减盐战争,会败于外卖吗? ·  4 天前  
51好读  ›  专栏  ›  果壳

图生图新魔法来了!Google新工具Whisk实测

果壳  · 公众号  · 科学  · 2024-12-20 16:00

主要观点总结

谷歌推出了一款名为Whisk的AI图像生成工具,能够实现图生图功能。用户只需提供几张图片,Whisk就能够根据图片内容生成不同风格的新图,并且可以选择多张图进行组合。Whisk提供了多个样式选项,用户可以自定义上传图片或输入文字,通过吸取不同图片的内容、背景和风格来生成新的图像。此外,该工具还能识别出主题、场景和风格等信息。实际应用展示表明,生成的图像能够以假乱真,并在某些场景下作为淘宝商品界面使用。不过也存在一定局限性,无法完全复制复杂细节。该工具在设计创意初期可提供视觉风格探索和灵感,同时仍有改进提升的空间。

关键观点总结

关键观点1: 谷歌推出AI图像生成工具Whisk。

实现图生图功能。

关键观点2: Whisk提供了多种样式选项,包括毛绒玩具、珐琅别针等。

用户通过上传图片或输入文字来生成新图像。

关键观点3: Whisk可以识别主题、场景和风格等信息。

生成的图像能够以假乱真。

关键观点4: Whisk生成的图像在某些场景下可以作为淘宝商品界面使用。

但在细节处理方面仍有局限。

关键观点5: Whisk在设计创意初期可提供视觉风格探索和灵感。

有助于用户快速试验不同的视觉风格与构图。


正文

周一,谷歌推出了一款名为Whisk的AI图像生成工具,听着俗,用着香。


之前的AI一般是文生图,但Whisk是图生图——只要放进去几张图,它就能从图中“意会”到不同的风格,把握精髓,生成不同风格的新图,此外还可以选择多张图,让图片“合体”。


跟最近大热的文生视频相比,图生图可能听起来没那么刺激,但是看到实际效果还是非常惊艳的。



怎么玩?


Whisk提供了三个模板样式选项:毛绒玩具、珐琅别针和贴纸,只要提供一张主题图像,Whisk就能生成相应材质的图片。


吸取了第一张图的内容和第二张图的质感,生成了完美的珐琅材质甜甜圈|Whisk


这三个样式不够玩的话,可以点击进入高级版,解锁Whisk的全部功能。


高级版里会看到主题、场景、样式,三个选项,每个选项里都可以上传图片或输入文字,Whisk会自己学习图片和文字的内容,从主题栏里吸取图片的内容,从场景栏里吸取图片的背景,从样式栏里决定图片的风格。


在主题的选项中,你还可以选取多张图片,从而达到“合体”的效果。


比如输入一只小狗、一只小猫、一只小鸟,生成的结果中就会有这三个小动物在一起。如果你手头没有合适的图像,可以点击骰子图标,让Whisk自动抓取提示图像。


如果对生成结果满意,可以收藏或下载图像,如果还想微调图像,可以通过在文本框中输入更多文字或点击图像并编辑文本提示来进行优化。


听着俗,用着香


说了半天,还是得看实测效果。


我用自己的头像当主题,选择了毛绒玩具样式,做出来的效果图几乎可以发给厂家下订单了。



再用初音未来试一试。路人能猜出来下面的两张图片里哪一个是官方的公仔,哪一个是用Whisk生成的吗?



答案是,第一张是官方的,第二张是Whisk。


如果单独把这张图片当作淘宝商品界面,恐怕买家都看不出这是AI生成的图片。公仔的材质和造型就和正常的商品一模一样,就算放大了仔细看也很难找出AI的痕迹。


试试珐琅别针的样式,让我们选择一张像素低且不完整的表情包,看看会生成什么样的结果。



猫猫感动地落泪,基本上抓住了原图的要素,生成出的别针虽然细节有点过多,也勉强能以假乱真了。以后设计师可以偷懒了。


现在我有了一个大胆的想法,Whisk能不能帮我生成手办和指定画风的漫画呢?让我拿动画《恶搞之家》试一试。



似乎有点困难,我用了Peter的全家福作为主题,样式分别选择了五条悟的手办图和《JOJO的奇妙冒险》第七部的漫画封面,但并没有达到我想要的效果,只生成出了普通的3D效果和儿童向卡通。Brian甚至变了品种,一家五口人变成了七口。



于是我在提示文字里写上了“把他们变成可动模型”,生成的结果才勉强符合我的预期,但和原图的差距似乎更大了?Peter好像变成了某位化学老师。



又加上了《JOJO的奇妙冒险》的提示文字,Peter的脸稍微有了一些Jo味。



再来试试最近的meme,让这只chill guy狗狗在太空中chill一下。



虽然chill guy的衣服没变,但画风身材已经完全走样了。这是《瑞克和莫蒂》还是《马男波杰克》里的花生酱先生?


Whisk怎么工作的?


那么为什么Whisk生成的东西并不能完全保留原图的造型和风格呢?其实原因很简单,让我们先打开Whisk的文件库,看看我们刚生成的这张图片。



这张图片的详情页面上,还有一长串的文字描述,细致地的描述了图片的内容:


一只卡通拟人化的犬类站在画面的前景中,拥有浅棕色的毛发、深棕色的鼻子,穿着灰色毛衣、浅青色裤子,以及红色带白色鞋底的鞋子。这只犬双手插在口袋里,脸上带着得意的表情。它的背后是一幅地球从太空中俯瞰的详细图景,地球上显示了非洲大陆、南美洲南端和大西洋,以各种蓝色和棕色的色调呈现。大片的云层以白色和浅灰色的漩涡状显现。背景是黑色,与明亮的地球形成鲜明对比。整体风格融合了卡通和地球的写实描绘。


但这段文字,其实并不是在描述这张图像,相反,我们的图片其实是根据这段文字描述生成的。



让我们把这段提示文字重新喂给Whisk看看结果,Whisk生成的新图片几乎和刚刚的那张一模一样。


其实Whisk的原理并不复杂,它会根据你提供的图片生成对应的文字描述,再将这段描述作为提示文字返回给AI,从而生成相应的新图片。这也是为什么Whisk生成的图片并不能完美保留原图中的细节,因为原本的图片都被转换成了描述文字,图片的细节并没有办法被真正地的表现出来。


在技术层面上,Whisk的后端使用Gemini模型自动为输入的图片生成详细描述,之后将这些描述输入到Google最新的图像生成模型Imagen 3中,这一过程并非对原图的简单复制,而是通过捕捉图像的特点,在风格与内容上进行重塑,从而帮助用户实现主题、场景和风格的自由混合与创新。



Google在官网中表示,Whisk的设计初衷是“快速进行视觉探索,而非像素级的精准编辑”。这种定位使Whisk更适用于创意发散的初期阶段,帮助用户快速试验不同的视觉风格与构图。同时,Google也承认Whisk有时可能“未能完全达到预期”,因此提供了编辑提示输入的功能,确保用户能够轻松地修正优化生成结果。


根据目前的使用体验来看,Whisk有潜力成为设计师的高效工具,为使用者高效快速地提供更广泛更发散的创意和灵感。


随着Google不断优化其AI模型,Whisk有望进一步提升图像生成的质量与多样性,为各领域的创意工作者带来更多便利。这款操作简便的AI工具不仅展示了AI在视觉创意领域的巨大潜力,也为用户提供了一个充满乐趣且高效的创作平台。


现在Whisk的测试版正在对美国用户免费开放,你也可以试试把自己的照片做成毛绒玩偶和别针。


作者:莎士billy

编辑:翻翻

封面图来源:Whisk


本文来自果壳,未经授权不得转载.

如有需要请联系[email protected]