专栏名称: 学术头条
致力于科学传播和学术分享,关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度,围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。
目录
相关文章推荐
l 看齐 l  ·  刚刚!王曼昱夺冠! ·  8 小时前  
l 看齐 l  ·  刚刚!王曼昱夺冠! ·  8 小时前  
中国基金报  ·  证监会出手,重罚! ·  2 天前  
中国基金报  ·  今夜,大跳水! ·  3 天前  
中国基金报  ·  华为,重磅!“黑科技”来了 ·  3 天前  
51好读  ›  专栏  ›  学术头条

刚刚,智谱AI推出新一代基座大模型GLM-4-Plus,性能全面提升,还有one more thing

学术头条  · 公众号  ·  · 2024-08-29 21:16

正文


昨日,KDD 2024 正式公布了创新奖、新星奖、时间检验奖和最佳论文奖等多个重磅奖项。 (点击查看详情 )

今天,这场全球顶级学术会议,精彩继续上演。


就在刚刚,智谱AI 在 KDD 2024 现场,重磅推出了新一代全自研基座大模型 GLM-4-Plus 、图像/视频理解模型 GLM-4V-Plus 和文生图模型 CogView-3-Plus ,继续瞄准通用人工智能(AGI)。

模型主要亮点如下:

  • 语言基座模型 GLM-4-Plus:在语言理解、指令遵循、长文本处理等方面性能得到全面提升,保持了国际领先水平。
  • 文生图模型 CogView-3-Plus:具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能。
  • 图像/视频理解模型 GLM-4V-Plus:具备卓越的图像理解能力,并具备基于时间感知的视频理解能力。该模型将上线智谱大模型开放平台(bigmodel.cn),成为国内首个通用视频理解模型 API。

据介绍,GLM-4-Plus 使用了大量模型辅助构造高质量合成数据以提升模型性能;利用 PPO 有效有效提升模型推理(数学、代码算法题等)表现,更好地反映人类偏好。

在语言文本能力方面,GLM-4-Plus 和 GPT-4o 及 Llama 3.1 405B 相当。

LCB: LiveCodeBench
NCB: NaturalCodeBench
*represents reproduced results

长文本能力比肩国际先进水平。通过更精准的长短文本数据混合策略,取得了更强的长文本的推理效果。


GLM-4V-Plus 在图像和视频理解能力方面位居前列。GLM-4V-Plus 还可以理解网页内容,并将其转换为 html 代码。


GLM-4V-Plus 能够理解并分析复杂的视频内容,同时具备时间感知能力。上线开放平台后,将提供国内首个通用视频理解模型 API 。


视频理解示例:


用户:这个穿绿色衣服的球员在整个视频都做了什么?
GLM-4V-Plus:在整个视频中,穿绿色衣服的球员在场上运球,然后跳起将球投入篮筐。
用户:这个视频的精彩时刻是什么?发生在第几秒?
GLM-4V-Plus:这个视频的精彩时刻发生在第4秒,当时穿绿色衣服的球员跳起并将球投入篮筐。

此次,文生图模型迎来最新版本 CogView-3-Plus,其效果接近目前最佳的 MJ-V6 及 FLUX 等模型,并支持图片编辑功能。效果如下:


GLM-4-Plus 现已在智谱大模型开放平台部署,企业和开发者即日起可以通过智谱开放平台 bigmodel.cn 上的 API 调用智谱最新的基座大模型。

另外,智谱AI 技术团队在现场表示,清言 app 也迎来重要更新,新增全新的“视频通话”功能,这是国内首个面向 C 端开放的视频通话功能。

据介绍,清言视频通话跨越了文本模态、音频模态和视频模态,并具备实时推理的能力。现在,用户拨打清言的视频通话窗口,即可与它进行流畅通话,即便频繁打断它也能迅速反应。只要打开摄像头,我们看到的画面,清言也可以看到,同时可以听懂指令并准确执行。这样的体验就如同和真人视频通话一样。

以下为几大功能场景的 demo:


该功能将于 8 月 30 日 上线,首批面向清言部分用户开放,同时开放外部申请。扫描二维码或点击阅读原文提交申请。







请到「今天看啥」查看全文


推荐文章
l 看齐 l  ·  刚刚!王曼昱夺冠!
8 小时前
l 看齐 l  ·  刚刚!王曼昱夺冠!
8 小时前
中国基金报  ·  证监会出手,重罚!
2 天前
中国基金报  ·  今夜,大跳水!
3 天前
中国基金报  ·  华为,重磅!“黑科技”来了
3 天前