大模型专题：快手可图大模型的技术演进与应用探索

人工智能学派 · 公众号 · · 2024-11-04 18:48

正文

如何下载资料？

微信扫下方二维码加入星球平台

【老会员续费特惠】

今天分享的是：大模型专题：快手可图大模型的技术演进与应用探索

报告共计：36页

《快手可图大模型的技术演进与应用探索》介绍了可图大模型相关内容。可图是快手大模型团队研发的图像生成大模型，基于LLM大语言模型和数十亿中文语料训练，是最懂中文的文生图模型，综合指标超SDXL/SD3等开源模型和Midjourney等闭源模型，实现中文场景下的SOTA。其有强大的语义理解能力、摄影级画面质感和多条件控制生成能力。在内外人工评测中，可图都处于全球领先水平。2024年7月6日，可图在WAIC上宣布开源，支持中英文双语，生成效果比肩Midjourney - v6，支持长文本输入，具备中英文写字能力，已在Hugging Face和GitHub上线，包括模型权重和完整代码供个人开发者免费使用。可图大模型插件生态逐步完善，相关训推代码均已发布。文档还讨论了可图大模型的技术要点，包括怎样选择合适的文本表征，涉及CLIP、Encoder - Decoder、Decoder - only LLM、General Language Model等多种文本表征方式及其优劣；什么是RLHF的关键因素，对比了Quality Tuning和Reinforcement Learning from Human Feedback，强调奖励模型的关键作用；怎样让大模型写好中国字，涉及不同训练数据和场景下的技术要点；怎样做好虚拟试穿，介绍了行业要求、难点和一种普适技术框架。最后对视觉生成方向进行了未来展望，包括可控性、模型尺寸、数据生态等多个方面。

以下为报告节选内容