6月14日,第六届「北京智源大会」在中关村展示中心开幕。智源研究院院长王仲远做2024智源研究院进展报告,汇报智源研究院(以下简称「智源」)在多模态、具身、生物计算大模型方面的研究进展。
北京智源人工智能研究院于2018年正式成立,由北京大学、清华大学、中国科学院、百度、小米、字节跳动、美团点评、旷视科技等北京人工智能领域优势单位共建,主要做人工智能的数理基础/认知神经基础、智能信息检索、智能架构和芯片等前沿方向的探索。
原生多模态世界模型Emu3:Emu3采用智源自研的多模态自回归技术路径,在图像、视频、文字上联合训练,使模型具备原生多模态能力,实现了图像、视频、文字的统一输入和输出。Emu3在持续训练中,经过安全评估之后将逐步开源。
轻量级图文多模态模型系列Bunny-3B/4B/8B:该系列适用于智能端侧的应用,采用灵活架构,可支持多种视觉编码器和语言基座模型。目前,Bunny模型参数、训练代码、训练数据已开源。
端到端的多模态具身导航大模型NaVid:该模型可直接将机器人视角视频和用户语言指令作为输入、输出机器人的移动控制信号。与传统导航不同,NaVid不需要建立地图、不依赖深度相机等额外传感器,只使用普通RGB相机拍摄的视频作为输入。具体来说,NaVid是通过使用模拟数据训练,再迁移到真实场景(Sim2Real技术)实现在真实室内外环境导航的。
智能心脏超声机器人:智源与领视智远研发了一款智能心脏超声机器人,能够在人体上自主进行心脏超声扫描。该机器人基于超声影像和机械臂受力信息,可在动态环境下快速计算、提取心脏特征。据智源称,临床验证显示,该机器人的准确性可与资深医生相当,稳定性更高,操作力度控制在4牛顿以内更加舒适,效率与人类医生相当。
全原子生物分子模型OpenComplex 2:据智源称,该模型能有效预测蛋白质、RNA、DNA等大分子复合物的结构。它不仅可预测结构,还初步具备预测分子多构象和折叠过程的能力,有助于探索蛋白质的生物学功能。
实时孪生心脏计算模型:据智源介绍,这是全球首个生物时间/仿真时间比小于1的实时孪生心脏计算模型,也就是说,模型的计算速度快于现实生理过程的速度。该模型将采用物理-数据双驱动方法,从亚细胞到躯干级仿真出「透明心脏」,并根据患者临床数据构建孪生心脏模型,用于药物筛选、治疗、术前规划等临床应用。
参考链接
https://mp.weixin.qq.com/s/VrWL-v4B7BS59ZbWRtt9yg