专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
爱可可-爱生活  ·  通俗版解读 查看图片-20250207090641 ·  昨天  
爱可可-爱生活  ·  晚安~ #晚安# -20250205221737 ·  2 天前  
爱可可-爱生活  ·  【The End of Search, ... ·  2 天前  
爱可可-爱生活  ·  【GRPO with Verifiable ... ·  3 天前  
爱可可-爱生活  ·  关键或许不在于对抗AI的“幻觉”,而是要重塑 ... ·  3 天前  
51好读  ›  专栏  ›  新智元

GPT-4o多模态核心大佬离职OpenAI!联创Schulman跳槽前CTO初创

新智元  · 公众号  · AI  · 2025-02-07 09:31

正文



新智元报道

编辑:编辑部
【新智元导读】 同一天,OpenAI遭双重打击。GPT-4o多模态核心负责人官宣离职,另一边,联创John Schulman正式加盟前CTO创办的初创公司。

刚刚, OpenAI多模态团队负责人Alexander Kirillov官宣离职。
更劲爆的是, 昨天刚被曝出离职Anthropic的OpenAI联创John Schulman ,反身就加入了前CTO Mira Murati创业公司。
一位GPT-4o多模态核心leader离职,一位加入前CTO阵营,对OpenAI来说简直是双重打击。

GPT-4o多模态关键大佬

在OpenAI,Alexander Kirillov带领团队致力于多模态模型的研发工作,推动模型不仅能够处理文本,还能同时理解和生成图像、音频等多种数据。
他参与并主导了备受瞩目的「Segment Anything」项目,该项目不仅推出了一个交互式演示系统,还发布了包含11亿个mask的大规模数据集及相关代码。
在OpenAI,他领导了GPT-4o的训练后多模态工作,负责将GPT-4o的文本、图像、音频和视频处理能力整合到一个统一的模型中,并优化其性能。

论文地址:https://arxiv.org/pdf/2410.21276
GPT-4o是一种自回归全能模型,可以接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合作为输出。
它在英语文本和代码方面的性能与GPT-4 Turbo相当,但在非英语语言文本方面有显著改进,同时在API中速度更快,成本降低了50%。
Kirillov的工作对于GPT-4o实现多模态理解和生成至关重要,使得GPT-4o能够更好地理解和处理多种类型的信息,并以更自然、更直观的方式与用户交互。

SAM一作, 多次与何恺明、谢赛宁联手

在Meta任职期间,Alexander Kirillov曾与何恺明、谢赛宁等大佬一起合作了多篇论文。
在爆火论文「分割一切」(Segment Anything)中,他是项目负责人。
Segment Anything构建了一个用于图像分割的基础模型,它包含三个相互关联的组件:可提示的分割任务、分割模型 (SAM) 和数据引擎。
此外,团队还使用数据引擎构建了当时最大的分割数据集SA-1B,其中包含1100万张图像和超过10亿个掩码。

论文地址:https://arxiv.org/pdf/2304.02643

上下滑动查看
Alexander Kirillov于2023年8月加入OpenAI。
在此之前,他曾担任Facebook AI研究院(FAIR)的研究科学家,专注于计算机视觉研究。
2018年,他在德国海德堡大学获得计算机科学博士学位,导师是Carsten Rother。
他的研究兴趣集中在视觉推理和结构化计算机视觉问题。研究成果多次发表于CVPR、ICCV、NIPS和ICRA等国际顶级学术会议。
2017年,他作为主要成员,赢得了COCO Stuff分割挑战赛。2018年,他在ECCV组织了COCO全景分割挑战赛。

上下滑动查看

截至目前,Alexander总被引数高达4万。

OpenAI联创火速入职前CTO初创


昨天,OpenAI联合创始人John Schulman才刚刚官宣离职 Anthropic;今天又被曝出加入了 由前OpenAI首席技术官Mira Murati创立的Thinking Machines Lab 。
作为一位资深AI研究员,Schulman曾带领OpenAI团队开发了多项创新技术,为ChatGPT的成功做出了重要贡献。






请到「今天看啥」查看全文