文章介绍了近期AI领域的大事件,包括FLUX生态的快速发展和多个新模型、Figure 02人形机器人的发布、Deep Live Cam实现的实时直播换脸技术,以及其他公司的动态如阿里发布的新模型、谷歌的Gemini降价等。文章还提到了多位创始人的动态和一些产品的更新情况。
包括Controlnet模型、Lora模型的训练脚本的发布,以及新组织的InstantX训练的Canny模型。社区开始利用这些训练脚本训练Lora,全面的FLUX的Comfyui工作流也支持FLUX Lora、ControlNet的加载。
Figure 02被认为是世界上最先进的Al硬件,具有语音对话、AI驱动的视觉系统、高级手部功能、内置大语言模型等特性。
包括阿里发布的新模型Qwen2-Audio和Qwen2-Math系列,谷歌的Gemini 1.5 Flash降价,Mistral发布的La Plateforme和Agents平台等。
8.05~8.11,又是刺激的一周。
1.FLUX的周边生态发展迅速
链接:https://x.com/javilop/status/1821814987737735344
前段时间由于SD3的问题,开源的图片生态发展一度停滞,值得关注的
新项目和模型几乎没有。
FLUX上周发布后这个态势被快速改变了,由于其优秀的图片质量,高昂的训练成本并没有阻止开源社区。
而且由于在其偏向真实的美学调教风格,也使生成的发布会写实图片在
推上的热度爆发使得FLUX模型快速出圈。再加上Runway把那张AI生成的照片变成视频让更多人对现在图像和视频模型的发展进度有了更多的了解。
目前Xlabs已经发布了基于FLUX的Controlnet模型和Lora模型的训练脚本。
https://github.com/XLabs-AI/x-flux
他们还顺便发布了一个FLUX的Canny Controlnet模型,另外这里还有
Instant ID作者的新组织InstantX训练的一个Canny模型也可以试试。
https://huggingface.co/InstantX/FLUX.1-dev-Controlnet-Canny-alpha
Xlabs 也跟Lora训练脚本一起发布了他们的多个Lora,其中这个火遍推
特的图片就是用那个写实Lora做的。
https://huggingface.co/XLabs-AI/flux-RealismLora
具体的Lora包括mjv6_lora、动漫Lora、写实Lora、迪士尼Lora、风景
_lora、艺术 Lora。
Xlabs Lora 下载:https://huggingface.co/XLabs-Al/flux-RealismLora
另外社区也开始利用这些训练脚本训练 Lora了,比如这个动漫 Lora。
https://civitai.com/models/633553?modelVersionId=710421
SD模型训练工具simpletuner支持了FLUX Lora的训练,如果你想要训
练FLUX Lora 模型的话可以用这个。
https://github.com/bghira/SimpleTuner/blob/main/documentation/DEEPSPEED.md
一个全面的FLUX的Comfyui工作流,支持FLUX Lora、ControlNet的加
载,支持文生图、图生图。
https://github.com/Ling-APE/ComfyUI-All-in-One-FluxDev-Workflow
2.Figure发布 Figure 02人形机器人
链接:https://x.com/Figure_robot/status/1820791819023909031
Figure上周发布了Figure 02人形机器人,他们说这是世界上最先进的Al
硬件。2023年2月他们就完成了Figure 02的概念设计,用了18个月才将这个机器人变成实体。
-
语音到语音:
能够通过内置麦克风和扬声器连接自定义AI模型与人类对话。
-
摄像头:
AI驱动的视觉系统由6个内置RGB摄像头组成。
-
手部:
第四代手具有16个自由度并具有人类等同的力量。
-
内置大语言模型(VLM):
使机器人摄像头能够快速进行常识性视觉推理。
-
电池:
机器人躯干内的2.25千瓦时定制电池组提供超过50%的能量。
-
CPU/GPU:
提供比上一代多3倍的计算和AI推理能力。
3.Deep Live Cam:单图实现实时直播换脸
链接:https://github.com/hacksider/Deep-Live-Cam
前几天引起人们对AI写实能力警惕的另一个项目,只需要一张图片就可
以实现实时的直播换脸。
从演示来看角度大的话还是会穿帮,另外换脸的清晰度和原来视频的清
晰度差别比较大,不过这玩意确实很危险,简单的可以用来顶替面试,严重点用来诈骗。
这里有演示视频:
https://x.com/MatthewBerman/status/1821949143918489794
使用方式的话先选择一个脸部,然后点击直播,等待十几秒钟,直播会
跟真实的视频有十几秒到30秒的延迟,取决于硬件水平。
其他动态 ✦
1.阿里发布通义发布支持语音输入的模型Qwen2-Audio,该模型能够
分析音频信息,包括语音、声音、音乐等,并配有文本说明。
https://qwenlm.github.io/blog/qwen2-audio/
2.阿里推出Qwen2-Math系列的LLM,专注于提高解决数学问题的能
力。模型包括Qwen2-Math-Instruct-1.5B/7B/72B,其中72B在数学测试中超过了GPT-4o和Claude 3.5。
https://qwenlm.github.io/blog/qwen2-math/
3.谷歌的Gemini 1.5 Flash也降价了。输入成本下降了78%,输出成本
下降了71%。1.5Flash现在所有人都可以微调。
https://developers.googleblog.com/en/gemini-15-flash-updates-google-ai-studio-gemini-api/
4.Mistral发布了La Plateforme。支持用自己的数据对已有的Mistral模
型进行微调。另外还有Agents平台,支持对模型进行详细调整构建Agents。
https://mistral.ai/news/build-tweak-repeat/
5.
Comfyui上周主要更新内容有提供Hunyuan DiT和FLUX的支持,第四个稳定版本发布,新的TypeScript前端将推出,引入更强大的核心执行引擎,允许实现for循环等高级功能。
https://blog.comfy.org/august-2024-flux-support-new-frontend-for-loops-and-more/
6.GPT-40 0806模型推出,输入Token便宜50%,输出Token便宜