架构师大咖
架构师大咖,打造有价值的架构师交流平台。分享架构师干货、教程、课程、资讯。架构师大咖,每日推送。
简简单单一句文本:“一个由水制成的行走人物游览了一个美术馆,里面有许多不同风格的美丽艺术品”,就得到了:
说一声:「寄居蟹使用白炽灯泡作为外壳行走在沙滩上」,可以快速生成一个创意视频:
Sora 的发布,再一次让科技圈沸腾:“OpenAI 这拨人难道真的没有研发瓶颈吗?”
更让人敬佩的是,当打开 Sora 的技术报告
(https://openai.com/research/video-generation-models-as-world-simulators)
时,我们惊讶地发现,和 GPT-4 数百名贡献者、以及
Google Gemini
论文中洋洋洒洒占据十几页篇幅的近千位作者相比,彻底革了视频命的文生视频大模型 Sora 背后,团队只有 13 人,
其中由应届博士生带队,不乏有本科生的参与,也包含多位华人,最小年龄仅有 21 岁。
这样一支非常年轻的技术队伍,也为 Sora 未来增添了更多的期待。
应届博士领衔、两大研发负责人坐阵
根据公开资料显示,Sora 项目的两大研发负责人
Tim Brooks
和
Bill Peebles
师出同门,皆是于 2023 年从伯克利人工智能研究中心毕业的博士生,导师是 Alyosha Efros。
Tim Brooks
Tim Brooks,图源 https://www.timothybrooks.com/about/
作为 OpenAI 的研究科学家,Tim Brooks 也是 DALL·E 3 的作者,此次共同领导了视频生成模型 Sora。
2017 年,Tim Brooks 毕业于美国卡内基梅隆大学。2023 年在博士期间,Tim Brooks 发明了图像生成工具 InstructPix2Pix 技术(https://www.timothybrooks.com/instruct-pix2pix),具有高度的自由度、逼真度和简便的操作等特点。
彼时此项目一经发布便受到不少 AI 技术人的关注,截至目前,该项目已在 GitHub 上获得了 5.7k 个 Star。
毕业之后,Tim Brooks 先后在 Facebook、Google、英伟达工作过,曾在 Google 主要负责研究 Pixel 手机摄像头中的 AI 技术,以及在英伟达领导视频生成研究项目。
对于其本人而言,
Tim Brooks 一直在致力于研究
模拟物理世界的大规模生成模型。
当然,除了日常重心放在前沿 AI 技术研究之外,Tim Brooks 的兴趣也非常广泛,覆盖摄影、表演、唱歌等多维度,正所谓「台前能歌善舞,幕后研发好手」。
他摄影作品曾获得《国家地理杂志》、《大自然最佳摄影》和美国国家野生动物协会颁发的奖项。
部分摄影作品
同时,他曾在纽约百老汇灯塔剧院(Beacon Theatre)表演过,并获得过无伴奏 beatboxing 国际大奖。
Bill Peebles(https://
www.wpeebles.com/)
师出同门的 William (Bill) Peebles 要比 Tim Brooks 迟两个月到 OpenAI。
在
此之前,他在麻省理工学院读本科,导师是 Antonio Torralba。博士期间,
Tim Brooks 的专业是 AI,而 Bill Peebles 还是聚焦在计算机科学方面,也在研究用于密集视觉对齐 (GANgealing) 和解缠结图像处理 (Hessian Penalty) 的 GAN。
学生生涯中,Bill Peebles 曾在 FAIR、Adobe Research 和 NVIDIA 实习,他发表的《GAN-Supervised Dense Visual Alignment》论文还曾入围CVPR 2022 最佳论文候选。
2023 年,他和毕业于上海交通大学的天才少年、硕博士均毕业于加州大学圣迭戈分校、现任纽约大学的助理教授的谢赛宁合作研究了现如今 Sora 项目技术基础之一的 DiT(扩散 Transformer),还发表了《Scalable diffusion models with transformers》论文。
值得一提的是,近日,Meta AI 科学家 Yann LeCun 在 X 平台上透露,「这篇论文曾在 2023 年的计算机视觉会议(CVR2023)上因‘缺少创新性’而遭到拒绝,但在 2023 年国际计算机视觉会议(ICCV2023)上被接受与发表,并且构成了现在 Sora 的基础。」
这么一说,导致后来有人直接误解谢赛宁是 Sora 的作者之一,引得一向非常低调的谢赛宁在社交平台紧急辟谣。
他表示,「Sora 是 bill 他们在 openai 的呕心之作,我虽然不知道细节,但是bill 告诉我他们每天基本不睡觉高强度工作了一年。跟我的关系是什么呢,只能说是一点关系都没有。」
同时谢赛宁也对这款复杂的系统进行了简单的评价,其表示,「
人才第一,数据第二,算力第三,
其他都没有什么是不可替代的。
」
而针对业界很多人讨论 Sora 为何未在中国出现的问题,谢赛宁认为,“可能也得问问假设真的出现了(可能很快),我们有没有准备好?”。
他表示:
如何能保证知识和创意的通畅准确传播,让每个人拥有讲述和传播自己故事的「超能力」,做到某种意义上的信息平权。但是又不被恶意利用,变成某些人某些组织的谋利和操纵工具。oai有一整套的redteaming、safety guardrail的研究部署,欧美有逐渐成熟的监管体系,我们准备好了吗?
这件事跟技术成熟前,生成点小打小闹的漂亮图片不是一个量级,真相捕捉和黑镜里讲的故事,很有可能很快变成现实。
系统负责人—— Connor Holmes
本科期间主攻电气电子工程的 Connor Holmes,后来学业生涯中主要研究高性能计算,同时也
在微软做研究实习生。
后来,毕业了就直接加入微软担任研究员。并在 2023 年 12 月,跳槽到 OpenAI 便投身到 Sora 的研发中,此次担任的角色为系统负责人。此前,也参与过 DALL·E 3 的推理优化工作。
在其个人履历上,他写道,「作为一名研究人员,我期待着解决在扩展深度学习推理和训练工作负载时系统效率低下的问题。我在 LLM、BERT 式编码器、RNN 和 UNets 方面拥有丰富的工作经验,并期待着在新兴硬件上启用和开发未来的架构。」
重要贡献者
Will DePue
在 Sora 团队中,年龄最小的可能要属 2003 年出生的 Will DePue。
他在 2021 年从美国密歇根大学本科毕业,也是 OpenAI Sora 项目团队成员中为数不多的本科学历者之一。
在个人网站上,Will DePue 第一句便写道——只是想对世界产生积极的影响。所以
虽然他年轻,但是职业经历非常丰富。
在高中时候,Will DePue 就创办了一家公司,开发了一个专为高中生定制的聊天平台,方便老师和学生之间的快速沟通和远程辅导。遗憾的是,在筹集了朋友和家人的资金之后,这个平台于 2021 年 6 月关闭。
初次尝试以失败告终,不过 Will DePue 也没有闲着,又从头开始建立了一家公司,还从全国各地招募一支远程团队,他作为联合创始人兼首席执行官,基于聊天社区研发了一款名为 DeepALTR 的可视化、分析和工具,保存并分析了超过 100,000,000 个社区数据点,
后来这个平台被社区管理公司 Commsor, Inc. 收购,此后 Will DePue 也进入了 Commsor 担任软件工程师。
2023 年 7 月,Will DePue 作为驻场技术人员加入 OpenAI,参与应用研究项目。后来在今年 1 月,正式加入 Sora 项目团队。
Li Jing
2014 年从北京大学本科毕业的 Li Jing,2019 年在美国麻省理工学院获得了物理学博士学位。他先后作为联合创始人创办过公司,也在麻省理工担任过研究助理,后
在 Meta 公司
与 Yann LeCun 合作进行了博士后研究。
2022 年,Li Jing 加入 OpenAI,担任研究员,主攻帮助 AI 理解现实世界并创造新的智能的研究,除了这一次参与到 Sora 项目中,他也是 DALL·E 3 的作者之一。
David Schnurr
相比前几位,David Schnurr 在 OpenAI 的工龄最长,他在 2020 年就加入了 OpenAI。先后参与了 DALL·E、ChatGPT 的研发。
在加入 OpenAI 之前,他和团队创建了 Graphiq 的可视化平台,后来被亚马逊收购,直至现在该平台还在为 Amazon Alexa 设备提供支持。同时,David Schnurr 也曾是 Uber 的高级软件工程师。
Joe Taylor
Joe Taylor 的履历,同样让人惊讶。
严格来说,Joe Taylor 并非是计算机或者 AI 专业的科班出
身,他于 2010 年毕业于旧金山艺术大学,主修新媒体、计算机艺术专业,拿的是美术学士(BFA)学位。
不过,Joe Taylor 从毕业以来就一直从事开发相关的工作,早期是网页设计师,后来转为前端开发,一路成为高级、资深软件工程师。
如今在 Sora 团队,他致力于早期研究,帮助加速研究、建立产品直觉和方向、构建 0 -> 1 工程系统。在加入 Sora 团队之前,Joe Taylor 也曾在 ChatGPT 团队工作过。
Ricky Wang
这位华人工程师 Ricky Wang,毕业于 U
C 伯克利,曾经在 Meta 工作多年。
直至今年 1 月份,以技术员身份正式加入 OpenAI,负责 Sora 项目的研发。
同样是华人工程师的 Yufei Guo,网络上关于他的公开资料少之又少,不过在 OpenAI 的 GPT-4、DALL-E 3 项目中,都能看到他的身影。
Aditya Ramesh
Aditya Ramesh 也是 OpenAI 的一名元老,主导了 DALL·E、DALL·E 2 和 DALL·E 3 项目,还都是论文的一作。
除了以上几位大将,本次 Sora 项目的主力还有 Troy Luhman、Eric Luhman、Clarence Wing Yin Ng 几位,只不过这几位相对而言都非常低调,并无太多的公开资料。
OpenAI 在线招聘,Sora 急缺大规模视频基础设施经验的人
在这么多技术专家加持下,OpenAI 借助这一项目的热度,也没有浪费这次机会,线上摇人,开启招聘模式。
Sora 项目团队成员之一 David Schnurr 发推表示,“我们正在招聘具有大规模视频基础设施(服务、处理、摄取等)经验的人员。如果你认为自己是合适人选,请与我们联系!”