转自 InfoQ
这个除夕,所有的聚光灯理应给到DeepSeek。
刚刚,人工智能社区Hugging Face显示,DeepSeek刚刚发布了开源多模态人工智能(AI)模型Janus-Pro,这是一款基于 DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base 构建的模型。在这系列模型中,Janus-Pro-7B在GenEval和DPG-Bench基准测试中击败了OpenAI的DALL-E 3和Stable Diffusion。
GitHub项目地址:
https://github.com/deepseek-ai/Janus?tab=readme-ov-file
HuggingFace项目地址:
https://huggingface.co/deepseek-ai/Janus-Pro-1B
据悉,Janus-Pro 是一种创新的自回归框架,旨在统一多模态理解与生成任务。它通过将视觉编码解耦为独立的路径,同时仍采用单一的统一 Transformer 架构进行处理,从而解决了以往方法的局限性。这种解耦不仅缓解了视觉编码器在理解与生成任务中的角色冲突,还增强了框架的灵活性。值得一提的是,Janus-Pro 超越了以往的统一模型,还在性能上媲美甚至超越了针对特定任务设计的模型。