专栏名称: IPO早知道

图哇图哇网络

目录

相关文章推荐

将门创投 · Talk预告｜卡内基梅隆大学岳翔&清华大学童 ... · 昨天

将门创投 · Talk预告｜新加坡国立大学铁宸睿：基于对称 ... · 2 天前

老千和他的朋友们 · Science | 石墨烯将向何处去？ · 昨天

老千和他的朋友们 · Science | 石墨烯将向何处去？ · 昨天

西部财经融媒 · 比亚迪435亿港元H股闪电配售！10年来汽车 ... · 2 天前

西部财经融媒 · 比亚迪435亿港元H股闪电配售！10年来汽车 ... · 2 天前

上海科创汇 · 申报|普陀区2025年（第一批）创新型、专精 ... · 2 天前

51好读 › 专栏 › IPO早知道

智谱发布首个支持生成汉字的开源文生图模型CogView4，性能达到SOTA

IPO早知道 · 公众号 · 科技创业 · 2025-03-04 23:02

正文

「智谱2025开源年」的第一个模型。

本文为IPO早知道原创

作者｜Stone Jin

微信公众号｜ipozaozhidao

据IPO早知道消息，智谱于3月4日发布了「智谱2025开源年」的第一个模型：首个支持生成汉字的开源文生图模型——CogView4，其在 DPG-Bench基准测试中的综合评分排名第一，在开源文生图模型中达到SOTA。该模型也是首个遵循 Apache 2.0协议的图像生成模型。

具体来讲： CogView4具备较强的复杂语义对齐和指令跟随能力，支持任意长度的中英双语输入，能够生成在给定范围内的任意分辨率图像，同时具备较强的文字生成能力。

值得一提的是， CogView4在 DPG-Bench基准测试中的综合评分排名第一，在开源文生图模型中达到SOTA。 DPG-Bench（Dense Prompt Graph Benchmark）是一个用于评估文本到图像生成模型的基准测试，主要关注模型在复杂语义对齐和指令跟随能力方面的表现。

从技术层面来看，CogView4具有两大技术领先性：

首先， CogView4支持中英双语提示词输入，擅长理解和遵循中文提示词，是首个能够在画面中生成汉字的开源文生图模型，能更好地满足广告、短视频等领域的创意需求。

在技术实现上，CogView4将文本编码器从纯英文的T5 encoder 换为具备双语能力的GLM-4 encoder，并通过中英双语图文对进行训练，使CogView4模型具备双语提示词输入能力。

其次， CogView4支持输入任意长度提示词，能够生成范围内任意分辨率图像，不仅使用户创作更加自由，也提升了训练效率 。

CogView4模型实现了任意长度的文本描述（caption）和任意分辨率图像的混合训练范式。

目前，CogView4模型支持Apache2.0协议，后续会陆续增加ControlNet、ComfyUI等生态支持，全套的微调工具包也即将推出。最新的CogView4-6B-0304版本将于3月13日上线智谱清言（chatglm.cn）。

作为国内最早的开源大模型公司，智谱始终致力于推动AI普惠，接下来还将陆续开源基础模型、推理模型、多模态模型、Agent模型等。

本文由公众号IPO早知道（ID：ipozaozhidao）原创撰写，如需转载请联系C叔↓↓↓

小马智行

请到「今天看啥」查看全文

推荐文章

将门创投 · Talk预告｜卡内基梅隆大学岳翔&清华大学童雨轩：解密大模型长链推理

昨天

将门创投 · Talk预告｜新加坡国立大学铁宸睿：基于对称性优化机器人操作技能学习

2 天前

老千和他的朋友们 · Science | 石墨烯将向何处去？

昨天

老千和他的朋友们 · Science | 石墨烯将向何处去？

昨天

西部财经融媒 · 比亚迪435亿港元H股闪电配售！10年来汽车行业规模最大股权再融资

2 天前

西部财经融媒 · 比亚迪435亿港元H股闪电配售！10年来汽车行业规模最大股权再融资

2 天前

上海科创汇 · 申报|普陀区2025年（第一批）创新型、专精特新中小企业申报推荐

2 天前

VIKAN薇 · 每日一笑，头戴花环难道就这么高兴？难道是傻狗？

8 年前

科学解码 · 【晚间一乐】你再骚扰我试一个，灭了你！

8 年前

杂学杂问 · 杂学杂问 3月25日早读分享

7 年前

西子湖畔 · 探店 ▌开业不久就爆场！人均50包揽下午茶+晚餐，惠州这间餐厅赢了

7 年前

新闻哥 · 大神用方言唱英文歌，这画风太清奇我不敢看！笑到崩溃

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!