Google 的新玩具 Whisk,可以简单的用图片组合生成新的图片,用户可以输入三类图片:
- 主题图片(subject)
- 场景图片(scene)
- 风格图片(style)
就可以基于输入生成新的风格突破
背后的技术技术原理:
- 后端使用Gemini模型自动为输入的图片生成详细描述
- 然后将这些描述输入到Google最新的图像生成模型Imagen 3中
- 系统会提取图片的关键特征,而不是完全复制
主要用途:
- 快速视觉创意探索
- 可以创作数字玩偶、珐琅徽章或贴纸等
- 适合进行快速创意迭代,而不是精确的图像编辑
目前该服务仅在美国地区开放使用,可以通过 labs.google/whisk 网页链接 访问。 宝玉xp的微博视频
- 主题图片(subject)
- 场景图片(scene)
- 风格图片(style)
就可以基于输入生成新的风格突破
背后的技术技术原理:
- 后端使用Gemini模型自动为输入的图片生成详细描述
- 然后将这些描述输入到Google最新的图像生成模型Imagen 3中
- 系统会提取图片的关键特征,而不是完全复制
主要用途:
- 快速视觉创意探索
- 可以创作数字玩偶、珐琅徽章或贴纸等
- 适合进行快速创意迭代,而不是精确的图像编辑
目前该服务仅在美国地区开放使用,可以通过 labs.google/whisk 网页链接 访问。 宝玉xp的微博视频