逻辑推理:
OpenAI发布新一代推理模型o3系列,o3在理解复杂任务、逻辑推理、多模态支持、可控性等方面的性能存在显著提升,刷新AI在数学、科学推理及编程等领域的测试基准记录。谷歌发布Gemini 2.0 Flash Thinking模型,将更多计算能力投入推理时计算,能实现处理多模态信息,并清晰展示思考过程,在数学、编程等任务中推理速度和正确率超过o1-mini。阿里云通义团队推出并同步开源推理模型QwQ-32B-Preview,在数学和编程方面表现突出,整体推理水平比肩o1。苹果开源Recurrent Drafter(ReDrafter)推测解码方法,通过RNN草稿模型、动态树注意力算法、知识蒸馏训练三个关键技术,显著提升大模型的推理速度,目前ReDrafter已整合到英伟达的可扩展推理方案TensorRT-LLM中。
视频生成:
谷歌面向企业开放视频模型Veo 2,在生成视频的真实感、物理模拟、文本语义还原方面表现优秀,提供多种视觉、电影风格和相机控制选项,可直接生成8秒4K视频。OpenAI Sora正式上线,加入故事板编辑工具、场景混合和循环视频制作等高级编辑功能,支持最高分辨率1080p和最长20秒的视频输出。Adobe与MIT联手推出自回归实时视频生成技术CausVid,实现边生成边播放,首帧延迟仅1.3秒,生成速度提高至9.4帧/秒,支持实时视频风格转换、交互式剧情生成等应用,无需额外训练即可适应多种场景。
3D/4D生成:
李飞飞的World Labs推出首个“空间智能”模型,实现从一张图生成3D世界。谷歌DeepMind发布大型基础世界模型Genie 2,可根据文本图像实时生成交互式3D场景。卡耐基梅隆大学联合其他20多所研究实验室开源发布生成式物理引擎Genesis,提供超高速并行4D动态模拟,模拟速度是现有引擎的10至80倍,且具备照片级真实感渲染。英伟达推出AI生3D模型Meshtron,基于Hourglass架构,并结合滑动窗口注意力机制,实现AI一键生成高达64K面数的高保真3D网格。
视觉理解:
OpenAI在ChatGPT高级语音模式中增加屏幕共享和视觉识别能力,能够根据用户手机摄像头捕捉的画面或屏幕上显示的信息提供相应的辅助。谷歌DeepMind发布PaliGemma 2模型,以更高性能的Gemma 2为基座,增加视觉能力,可为图像生成详细的、上下文相关的描述,在化学式识别、乐谱识别、空间推理和胸部X光报告生成方面的性能更强。Kimi发布视觉思考模型k1,基于强化学习技术打造,原生支持端到端图像理解和思维链技术。