专栏名称: 数字生命卡兹克

反复横跳于不同的AI领域，努力分享一些很酷的AI干货

智谱开源AI绘图CogView4，曾经的开源之光回来了。

数字生命卡兹克 · 公众号 · · 2025-03-04 14:06

主要观点总结

文章介绍了智谱团队推出新的AI绘图模型CogView4的开源情况，包括其特点、应用以及与其它模型的比较。同时，文章还回顾了智谱公司在开源领域的发展历程，并展望了其未来的发展方向。

关键观点总结

关键观点1: 智谱推出CogView4模型并开源

智谱团队在昨天官宣拿杭州融资后，今天直接开源了他们的AI绘图模型CogView4。该模型支持中英文直接生成，是首个支持此功能的开源AI绘图模型。

关键观点2: CogView4模型的特点

CogView4有两个主要特点：一是支持中英文生成，其中文生成功能虽然存在错误率，但提供了一个独特的底座模型供微调；二是语义理解能力强，能够准确描绘复杂的场景和概念。

关键观点3: 智谱公司在开源领域的发展历程

智谱公司在开源领域有着丰富的历史，曾推出过多个大模型和工具。虽然近年来面临竞争和挑战，但他们始终在技术和开源路上持续进步。

关键观点4: 开源协议和其他应用

智谱公司开源的CogView4模型遵循Apache2.0协议。此外，普通用户可用的版本将在3月13日上线智谱清言上，届时可能会推出更多功能和应用。

正文

请到「今天看啥」查看全文

昨天连更两篇，今天想休息一下，结果。。。

真的快肝吐了，感觉自从DeepSeek开源统治地球之后。

开源的世界，迎来了究极繁荣。

上周DeepSeek连续5天开源硬核技术，阿里开源万相2.1，Qwen的推理模型推出预览版，但是肯定马上也要开源。

而今天，智谱这个曾经的开源之光，在昨天官宣拿了杭州10亿融资之后，在官宣文章里如此写道：

我知道智谱今年会大力开源，但是没想到，开源年的第一棒，来的如此之快，就在第二天。。。

我。。。不是，让我歇会吧。。。

今天智谱和清华团队直接开源了他们的AI绘图模型，CogView4。

这下，真的快补上2025年开源届的拼图了。

模型链接在此： https://github.com/THUDM/CogView4

模型尺寸6B，在 BF16和batchsize=4d的情况下，GPU需求如图。

最低估计一张12G的显卡就能跑起来。

我们也在第一时间，把模型下载下来，反手在AutoDL上开了一台A800-80G的显存，部署测试了一下。

我自己测试下来，一张1024*1024的图大概70s左右，AutoDL的云机器会慢一些，本地应该会快不少。

当然如果你们想直接体验，也可以用智谱官方自己搭好的在线服务：

https://modelscope.cn/studios/ZhipuAI/CogView4

在跑了一小时后，我觉得CogView4，有两个比较有意思的点。

一个一个说。

第一个点就是， CogView4支持中英文字直接生成 ，跟我之前写过的即梦2.1还挺像的，但是智谱的CogView4，是开源的。

这也是开源的AI绘图模型里，第一个支持同时生成中英文字的。

我跑了些case，大家可以直接看看。

比如这些Promtp：

1. 一只布偶猫举着牌子，牌子上写着中文字体的“起来嗨’。

2. 一幅极简主义风格的冬季插画，以"小雪"节气为主题。画面采用清新的浅蓝色调，上方用简约的白色中文字体写着"小雪"二字。构图主要分为三个层次：天空、雪山和铁路。背景是连绵起伏的雪山剪影，呈现出柔和的曲线；中间是一列橙红色的火车，在茫茫雪原上形成鲜明的视觉对比；整个画面点缀着飘落的雪花。

3. 电影宣传海报，画面中间是韦小宝，四周是宫女，标题文字“重生之我是韦小宝”。

4. 画面顶部英文标题：“I NEED YOU”，复古美漫动漫，画面中央是一个小孩在电视机前玩游戏的背影。

非常坦率的讲，整体效果和审美，是没有市面一些主流模型好的，中文字的错误率很高比英文大不少，审美和色彩，也有一点差距。

我测下来，感觉他们是没有把文字拎出来单独做处理，而是非常实诚的直接塞给模型直接处理了，所以中文错别字比例会高一些。

但是优点也很突出。

那就是，这玩意开源啊！唯一一个能生文字的开源。

就智谱的Cogview4的效果来看，我觉得，他们技术肯定是没问题，最大的问题，还是数据集这块，审美确实差不少，但是如果你就把它当个底座，来重搞数据集，微调一个很牛逼的电影海报设计模型，那真的不是不可能。

第二个特点，就是它的语义理解，还是真的有点东西的。

比如这些Prompt：

1. 8K超宽幅画卷，分四区域：左侧：唐代城门，朱红城墙，商队骆驼穿行，匾额题“朱雀门”；中左：西市胡商集市，丝绸瓷器摊位，人群熙攘；中右：曲江池畔，仕女泛舟，柳树垂岸；右侧：大明宫殿群，飞檐斗栱，晨雾缭绕。整体风格为工笔重彩，绢布质感。

2. 一幅横向长卷，从左到右依次是远古狩猎营地、古埃及金字塔群、中世纪市场、工业革命工厂、当代摩天楼、未来垂直花园城。

3. 一笼刚出笼的上海小笼包，皮薄馅嫩，汤汁丰富，摆放在精致的竹制蒸笼中。旁边是一碟香醋和一双竹筷，背景是木质的餐桌和一壶绿茶，体现出江南的细腻和雅致风格。江南风味，精致，雅致

4. 野径云俱黑，江船火独明。

5. 一张照片级真实感的奇幻毛茸茸汽车，车身完全覆盖着厚实柔软的白色绒毛，明亮灵动的车灯宛如一双友善的大眼睛，轮胎隐藏在浓密蓬松的毛发之中，夜晚散发出温暖柔和的光晕，呈现出魔法生物般的风格，细节精致，质感极度逼真，充满梦幻气息与温馨感，电影级灯光效果

可以看到，美不美的另说，但是画的，是真的准确。

这块还是得益于，他们把T5换成了GLM4，这个还是爽多了。

目前他们在出图的分辨率上，也没限制特定比例，2048以下几乎都可以无极调节，这一点还是比较爽的。

后续，他们也会支持ComfyUI和ControlNET套件，还有微调的脚本。这个还是比较重要的，用CogView4来当基座模型微调的话，应该能玩出不少的花活。

目前开源的这个模型支持Apache2.0协议，而给普通用户用的版本，也会在3月13日上线在智谱清言上，到时候可以蹲一下。

最后，我想聊聊智谱这个公司。

国内我之前有一个非常主观不客观的评价，我把五家公司放在一起，并称为开源五虎。

其实在DeepSeek还没成立的时候，智谱就已经在kuku开源模型了。

如果是2023年就开始玩大模型玩AI的，应该见过这个风靡一时的基座模型，ChatGLM-6B。

4w的星标，在Github上意味着啥相信大家懂得都懂。

那个时候，我还在公司里面做项目，微调了好几个不同的GLM6B，串成工作流来执行任务。

后续，他们又开源了非常非常非常多的模型，比如GLM-4、GLM-4-Voice、 CogVideoX v1.5、 CogAgent 等等等等。

时光匆匆，一晃眼，两年了。

这两年，感觉到了智谱的纠结、智谱的挣扎，还有他们的摇摆。

虽然在2024年的后半程，他们靠着AutoGLM和智能体，在整个AI圈杀出了一条自己的血路，但是在开源世界的声量，好像也被通义和DeepSeek压了过去。

老骥伏枥，志在千里。

在今天CogView4的仓库里面有这么一张官方生成的Demo图。

他们把2025年，定义为智谱AI自己的开源年。

不破不立，破而后立。

期待智谱拿下更多超级融资的同时，也能在开源路上越走越远。

毕竟，对我们所有人而言，每一家厂商的进步，都是让中国AI越发闪耀的灯火。

祝愿这片风云激荡的江湖，燃得更盛吧。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

>/ 作者：卡兹克

>/ 投稿或爆料，请联系邮箱：[email protected]