出品 | 白鲸出海编辑部
作者
|
张凯然
编辑
|
殷观晓
Krea 官宣推出 Krea Chat|视频来源:YouTube
在 R1 推理模型大火之后,全民接力集成 DeepSeek,有硅基流动这样的大模型云服务平台、有腾讯元宝这样的 Chatbot,甚至微信这样的顶流。但是,AI 图片类产品却鲜少有接入 DeepSeek R1 的新闻,而从 DeepSeek-R1 发布到 Krea 宣布上线新功能仅仅 10 天,这个反应应该是图像产品中最快的。
用 DeepSeek 降低门槛,
Krea 率先“吃螃蟹”
在 Krea 之前,集成了 Chatbot 的生图和改图功能已经存在,最典型如 ChatGPT,但用过的读者应该有一些感受,虽然叠加了 Chatbot 理解用户意图的步骤,但不论是生图还是改图,效果都不尽如人意。(可见下文案例对比)
而 DeepSeek-R1 的引入,让这类功能的使用体验有了一些变化,2 个点,深度推理且低成本。
前者解决了可控,后者决定了,新技术可应用到商业产品中。
用户用自然语言表达意图时,不会像精心编写的 Prompt 那样清晰,DeepSeek-R1 则重在理解用户意图,
而且 Krea 还给为了接近可用状态所需要的后续操作,加了 buff。
如上面的视频,加了 R1 就是为了降低门槛,让用户可以用自然语言生图、改图,所以后续的一些操作,例如改变风格、图片生成动画,Krea 都设置了便捷交互按钮,但在交互上,其实是产品将按钮功能“翻译”成一句方便 R1 理解的话,从而让生成结果接近用户预期。
笔者也对 OpenAI 新推出的 o3-mini 推理模型和加入 R1 的 Krea,进行了生图和改图的对比测试。
生图指令:Help me generate a picture of a sunset, beach, blue sea, coconut trees;
修改图片指令:remove all coconut tree,注:Krea 生图模型默认选择Flux,ChatGPT 选择的是 GPT-4o 普通模型和 o3-mini 推理模型,生图模型为 DALL-E3
首先,笔者用相同的自然语言指令,让 Krea Chat 和 ChatGPT(两种模型)各生成一张图片(如左图),然后再向两者同时下达改图指令,要求将海滩旁的椰子树去掉(结果如右图)。
我们看到,Krea 和 o3-mini 模型都将椰树去掉了,完成了任务,GPT-4o 生成的画面中却仍有椰树。而两个推理模型相比,o3-mini 改出来的图像虽然去掉了椰子树,但画面几乎等同于“重新生成”,Krea 令人比较惊喜的一点是,在几种树中只去掉了椰子树,而且保留了原图像的大部分元素,起码能算是改图。
效果差异的背后有 R1 和 o3 推理模型的区别,其实也会有生图模型 Flux 和 DALL·E 3 的区别,由于没有办法进行交叉验证,究竟是哪些因素影响了不同产品的改图表现尚未可知。
这次,Krea 将 R1 集成到产品中,还有另一个前提条件——成本。
在考验自然语言推理的 Zebra Logic 测试中,DeepSeek-R1 评分虽不如 OpenAI-o1,但评分却比其他非推理模型高很多
注:上面测试中使用的 o3-mimi 上线时间晚于
DeepSeek-R1,API 价格也高于 DeepSeek
虽然 OpenAI o1 是最早上线的推理模型,但由于其昂贵的使用价格,用于改善生图效果并不现实,DeepSeek-R1 则完完全全将价格打了下来。
而 Krea 引入 R1,除了让生图和改图更接近用户预期之外,另一个层面的显著收益是,
让使用门槛降了下来
,不论是不用再去精心编写 prompt,还是点一下就能进行后续步骤,都对普通用户更加友好。
白鲸出海的老读者,应该知道我们在过去半年一直在更新 AI 图片出海洞察系列,Krea 是我们觉得在一众图片编辑产品中,有自身独特定位和特色的一个产品。
12 月图片编辑(上)/生成(下)产品的人均访问次数和人均访问时长数据,注:Krea 功能覆盖图片生成、修改、与增强,很难单纯的将其分类到生图/修图类别,所以这里我们分别与修图和生图产品进行对比|白鲸出海制图
从人均访问次数和时长的角度看,Krea 的数据还是不错的,表明获得了一些用户的认可。但从流量的角度,一款口碑还可以、使用数据也不错的产品,却一直横盘状态,甚至在 2024 年下半年一直下滑。
直到 1 月份,Krea 频繁更新,上线了实时 3D 生成和快速定制化训练 Avatar,2 个比较破圈的功能,其流量在 1 月转好。
这其中的原因,与 Krea 相对独特的使用体验所吸引到的大多是偏专业的用户有关(下文会详细解释),在流量下滑的情况下,Krea 尝试破圈寻找增量用户。Krea 的创始人 Victor Perez 也在一个播客中表示:“目前 Krea 的用户中专业人士占比很高,但就团队的计划而言,则更希望去做真正面向普通人的 AI 工具。”
秉持着这个理念,
Krea 的产品设计与迭代方向,一直致力于简化操作、优化用户的交互体验,以吸引更多元的用户,引入 DeepSeek 驱动的 Krea Chat,其实也是这一思路的延续。
Krea 成立于 2022 年,创始人 Victor Perez 从创业孵化器 HF0,获得了数百万美元的初期投资,并创立了 Krea。
(注:HF0 是位于旧金山的一个创业孵化器,他们会为创业者提供一个为期 12 周的封闭工作空间,并视创始人在这期间的表现,为创业项目提供投资,额度超100万美元以,上不封顶,占有初创公司 5%的股权。)
Krea 自己本身并没有自研模型,
走的是“开源模型+优化工程&UI”的路径,结合笔者的体验和创始人分享,Krea 的核心差异点是“精准控制”,而为了实现精准控制,Krea 着重在交互优化上下了功夫
,而目前主打的实时生图功能,就很能体现这一思路。
Krea 于 2023 年初开始封闭测试,实时生图功能也诞生于封测时期。根据创始人 Victor 的分享,实时生图的灵感来源于“投屏”,他想到,在用户生成图片时,
可以将结果实时显示出来,然后再让用户照着结果,进一步与 AI 进行交互,形成独特的用户体验”。
随后,他用了一夜时间写好了 Demo,并将测试视频发在了 Twitter 上,很多用户表示非常感兴趣,并希望试用这个程序。用户的反馈让 Victor 信心倍增,经过几个月的开发,当 2023 年 11 月 Krea 正式上线时,实时生成功能成了主打功能。一位 Krea 的投资人表示,他就是看中了 Krea 低延迟的实时生图,才投资了 Krea。
在推出实时生图功能 1 个月后,2023 年 12 月,Krea 的网站流量就增长了 191%,达到了 365 万,下一个月(2024.1)访问量又提升了 22%,接近 450 万。
注 1:我在这里选择的一张参考背景,但很多创作者会选择直接在黑色背景上进行创作,注 2:如果上传参考图片或者风格,Krea 中会出现了权重控制,是一个 0-1 的浮点数值,数值越接近 1,最终输出会与参考图像/风格越接近。
实时生图界面中,画布被分成了两部分,
左边是创作区,右边是成品
区
,用户在下方输入 Prompt,初版的图像就显示在右侧了。除了 Prompt 外,用户可以上传参考图片,选择预设风格(官方和社区训练好的 Lora)来控制生图效果,并调节各个风格/图像的“权重”,以更精准地控制输出。(Krea 的文生图功能也有类似的设计)
通过图形和涂鸦,可以控制画面中重要物体的形状、位置、颜色,注:AI Strength 越高,AI 创作的权重越大,越低,则更忠实于用户绘制的内容
随后,用户可以在左侧的创作区“手绘”涂鸦或插入图形(矩形、三角形和圆形),来控制画面中人物或物体的位置和形状,并通过调整 AI Strength 参数来平衡自己的“创作”和 AI 的“发挥” ,所有改动都会实时显示在右侧。
根据 Krea 创始人给出的数据,实时显示的延迟大概在 40 毫秒左右
,当用户拖动图形时,Krea 也会以每秒 4-5 帧(相当于 250 毫秒左右处理一张图像)的速度连续处理图像。创始人解释道,实时生图本来对算力的要求就很高,如果算上高并发,需要的算力储备就更大了,
40 毫秒的延迟,用户既不会感到特别卡顿,还能尽量节省算力。
在工程方面,Krea 坚持自己部署模型,以减少使用第三方托管平台带来的延迟,团队也花了大量时间围绕算力、模型等基础设施进行了开发与优化,让 Krea 在更大用户量的情况下,也能维持低延迟。
而在用户完成一版设计之后,还可以把右侧的“成品图”拖动到左边,并以这版图像作为基础,进一步进行修改和优化,实现多次迭代。
与 Krea Chat 相似,实时生图也算是文生图功能的变种和延伸,用户通过图形、涂鸦来精准地按自己意愿修改图像,并可以多次迭代,以减少生图模型不可控性的影响,相比无限抽卡,这种模式看上去更有效率。
但相比 Krea Chat,让用户通过图形和涂鸦去控制生图效果的门槛其实不低
,无论是笔者本人,还是试用过 Krea 的编辑部同事都有相同的感觉,“知道这个实时生图功能很好,但就是不知道它对自己来说能做什么用。”
从数据来看,到 2024 年 2 月(实时生图上线 3 个月后),Krea 的访问量已经突破了 600 万,相当于过去一年时间,Krea 的访问量都没有突破这个“天花板”。
除了上面介绍的实时生图和 Krea Chat 功能外,Krea 提供文生图、改图、图像增强等图像功能。此外,还给到了一个生成视频的功能,这个功能于 2024 年 5 月推出,现已接入了混元、Runway、Kling、Hailuo 等市面上主流的视频生成模型。
文生图(上)、改图(中),
从生图、改图到图像增强,Krea 基本形成了一个较为完整的工作流。
整体体验下来,这几项功能的效果是很在线的。而延续整体思路,基于优秀交互的精准控制,Krea 在交互也下了功夫,这些功能的操作都是比较简便的。
社媒上的用户对 Krea 优化“精准控制”的思路,绝大多数都是报以好评的,这与我们之前的认知一致,作为 Krea 初期吸引到的专业用户,“可控性”是刚需,而 Krea 也回应了这个需求。从在 X 中与 Krea 官号和创始人 Victor 互动的用户来观察,
Krea 目前的用户画像大概是艺术家、设计师、需要经常做图的营销人员等相对专业一些的人士。
但是对出于娱乐目的或低频使用 AI 图像产品的普通用户来说,由于他们对最终的图像并没有具像化的认知,所以实时生图提供的“可控性”可能吸引力不大,这大概就是 Krea 近半年来很难“破圈”的原因。
但反观 Krea Chat,不论是引入 DeepSeek-R1,以更好地理解用户意图,还是通过标签,让用户能够一键下达准确的“改图”指令,
其实都是在回应普通用户,对简便操作、灵感指引和改图智能程度的需求。
而推出 Krea Chat 之后,这款产品能否破圈,找到新的用户增长点,还需要观察他们后续的流量表现。