专栏名称: IPO早知道
图哇图哇网络
目录
相关文章推荐
老千和他的朋友们  ·  Science | 石墨烯将向何处去? ·  昨天  
老千和他的朋友们  ·  Science | 石墨烯将向何处去? ·  昨天  
西部财经融媒  ·  比亚迪435亿港元H股闪电配售!10年来汽车 ... ·  2 天前  
西部财经融媒  ·  比亚迪435亿港元H股闪电配售!10年来汽车 ... ·  2 天前  
上海科创汇  ·  申报|普陀区2025年(第一批)创新型、专精 ... ·  2 天前  
51好读  ›  专栏  ›  IPO早知道

智谱发布首个支持生成汉字的开源文生图模型CogView4,性能达到SOTA

IPO早知道  · 公众号  · 科技创业  · 2025-03-04 23:02

正文

「智谱2025开源年」的第一个模型。

本文为IPO早知道原创
作者|Stone Jin
微信公众号|ipozaozhidao
据IPO早知道消息,智谱于3月4日发布了「智谱2025开源年」的第一个模型:首个支持生成汉字的开源文生图模型——CogView4,其在 DPG-Bench基准测试中的综合评分排名第一,在开源文生图模型中达到SOTA。该模型也是首个遵循 Apache 2.0协议的图像生成模型。


具体来讲: CogView4具备较强的复杂语义对齐和指令跟随能力,支持任意长度的中英双语输入,能够生成在给定范围内的任意分辨率图像,同时具备较强的文字生成能力。



值得一提的是, CogView4在 DPG-Bench基准测试中的综合评分排名第一,在开源文生图模型中达到SOTA。 DPG-Bench(Dense Prompt Graph Benchmark)是一个用于评估文本到图像生成模型的基准测试,主要关注模型在复杂语义对齐和指令跟随能力方面的表现。



从技术层面来看,CogView4具有两大技术领先性:


首先, CogView4支持中英双语提示词输入,擅长理解和遵循中文提示词,是首个能够在画面中生成汉字的开源文生图模型,能更好地满足广告、短视频等领域的创意需求


在技术实现上,CogView4将文本编码器从纯英文的T5 encoder 换为具备双语能力的GLM-4 encoder,并通过中英双语图文对进行训练,使CogView4模型具备双语提示词输入能力。


其次, CogView4支持输入任意长度提示词,能够生成范围内任意分辨率图像,不仅使用户创作更加自由,也提升了训练效率


CogView4模型实现了任意长度的文本描述(caption)和任意分辨率图像的混合训练范式。


目前,CogView4模型支持Apache2.0协议,后续会陆续增加ControlNet、ComfyUI等生态支持,全套的微调工具包也即将推出。最新的CogView4-6B-0304版本将于3月13日上线智谱清言(chatglm.cn)。


作为国内最早的开源大模型公司,智谱始终致力于推动AI普惠,接下来还将陆续开源基础模型、推理模型、多模态模型、Agent模型等。

本文由公众号IPO早知道(ID:ipozaozhidao)原创撰写,如需转载请联系C叔↓↓↓





小马智行






请到「今天看啥」查看全文