正文
这个除夕,所有的聚光灯理应给到DeepSeek。刚刚,人工智能社区Hugging Face显示,DeepSeek刚刚发布了开源多模态人工智能(AI)模型Janus-Pro,这是一款基于 DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base 构建的模型。在这系列模型中,Janus-Pro-7B在GenEval和DPG-Bench基准测试中击败了OpenAI的DALL-E 3和Stable Diffusion。GitHub项目地址:https://github.com/deepseek-ai/Janus?tab=readme-ov-fileHuggingFace项目地址:https://huggingface.co/deepseek-ai/Janus-Pro-1B据悉,Janus-Pro 是一种创新的自回归框架,旨在统一多模态理解与生成任务。它通过将视觉编码解耦为独立的路径,同时仍采用单一的统一 Transformer 架构进行处理,从而解决了以往方法的局限性。这种解耦不仅缓解了视觉编码器在理解与生成任务中的角色冲突,还增强了框架的灵活性。值得一提的是,Janus-Pro 超越了以往的统一模型,还在性能上媲美甚至超越了针对特定任务设计的模型。在多模态理解方面,它使用SigLIP-L作为视觉编码器,支持384x384的图像输入。在图像生成方面,Janus-Pro使用了来源于此的分词器(tokenizer),其下采样率为16。Janus-Pro的发布在网上引发了渲染大波,但也有网友认为,Janus-Pro虽然在基准测试中赢了DALL-E 3,但基准测试毕竟不等于实际应用,DPG-Bench看重生成质量和理解能力,实际用起来效果还得看落地表现。但值得一提的是,由于太过火爆,DeepSeek现在已经限制国外新用户注册了,海外用户需要购买虚拟账号注册方能使用。DeepSeek在其官方公告中表示:近期DeepSeek线上服务受到大规模恶意攻击,为持续提供服务,暂时限制了+86手机号以外的注册方式已注册用户可以正常登录,感谢理解和支持。最后,祝大家除夕快乐!