专栏名称: CSDN
CSDN精彩内容每日推荐。我们关注IT产品研发背后的那些人、技术和故事。
目录
相关文章推荐
国际金融报  ·  券商AH股表现分化,后市怎么走? ·  22 小时前  
贝壳财经  ·  A股节后首日:DeepSeek概念大涨,券商 ... ·  昨天  
贝壳财经  ·  A股节后首日:DeepSeek概念大涨,券商 ... ·  昨天  
Wind万得  ·  刚刚,港股大涨! ·  2 天前  
小众软件  ·  另外两件事[250201] ·  4 天前  
人工智能产业链union  ·  “人工智能产业链联盟投融圈”仅限靠谱投资人& ... ·  5 天前  
51好读  ›  专栏  ›  CSDN

OpenAI研究员的一天:向优化之神祈祷、展开头脑风暴后放弃改进模型算法,最后默念压缩一切!

CSDN  · 公众号  ·  · 2024-02-21 17:16

正文

整理 | 苏宓
出品 | CSDN(ID:CSDNnews)

从文本生成模型 GPT-3、GPT-4,到文生图模型 DALL·E、音频转文本模型 Whisper,再到最新发布的文生视频模型 Sora,OpenAI 在大模型这条路上一骑绝尘,引得无数人惊羡不已。

然而,就在今天 OpenAI 研究员 Jason Wei 在 X 平台上最新分享的自己作为 OpenAI 技术人员的普通一天作息时间表时,我们似乎能懂得,当“内卷”演变为一家集聚顶尖 AI 技术人的「内在自我驱动力」,一切都能成为可能。

“作为 OpenAI 技术人员的典型一天”

Jason Wei,是一名住在旧金山的 AI 研究员。此前在 Google Brain 担任资深研究科学家,而后于 2023 年 2 月正式加入 OpenAI。

对于其自身而言,他在入职 OpenAI 时就给自己立了一些规矩,包括其在 X 社交平台置顶的帖子中写道——「我在 OpenAI 开始做的一件事是,我为自己制定了一项政策,凡事都要对我的经理保持 100% 的透明。」

正因为遵循“透明”性原则,他日常工作的一天也引起了不少人的共鸣。

上午:

  • 早上 9:00:起床

  • 上午 9:30:通过 Waymo(自动驾驶汽车)通勤到 Mission SF(加利福尼亚旧金山的街区)。在 Tartine 吃一个牛油果吐司

  • 上午 9:45:背诵 OpenAI 章程。向优化之神祈祷。吸取惨痛教训

  • 上午 10:00:开会(用 Google Meet)。讨论如何在更多数据上训练更大的模型

  • 上午 11:00:和同事 @hwchung27 配对编程,开始写代码,在更多数据上训练更大的模型。

  • 中午 12:00:去食堂吃午饭(素食,无麸质)

稍作休息之后,下午就开始了:

  • 下午 1:00:基于真实的环境中,在更多数据上训练大型模型

  • 下午 2:00:调试基础架构问题(懊恼:我为什么要从 master 直接调用?)

  • 下午 3:00:监控模型训练,和 Sora 一起玩。

  • 下午 4:00:提示工程师使用更多数据训练上述大型模型

  • 下午 4:30:坐在鳄梨椅上短暂休息。想知道 Gemini Ultra 到底有多厉害

OpenAI 把这个椅子造出来了

  • 下午 5:00:头脑风暴,探讨改进模型算法的可能性

  • 下午 5:05:得出结论:改变算法风险太大。扩展计算和数据规模更安全

  • 下午 6:00:晚餐。与 Roon 一起吃蛤蜊汤

在傍晚来临之际,Jason Wei 眼中的「996 工作制」似乎已形同虚设,他开启了第三次工作 Party:

  • 晚上 7:00:通勤回家

  • 晚上 8:00:喝杯小酒,继续编码。迎接「鲍尔默峰值(Ballmer’s peak)」的到来。

注:根据维基百科,Ballmer’s peak,指的是程序员在适当的醉酒状态下可以达到很高的工作效率。这一概念以微软前首席执行官史蒂夫-鲍尔默(Steve Ballmer)的名字命名,很可能是对以科学家约翰-鲍尔默(Johann Balmer)命名的氢谱线鲍尔默系列(Balmer series of hydrogen spectral lines)的戏谑。鲍尔默峰值没有科学依据,尽管研究人员已经研究了相邻的主题,如醉酒对解决问题的影响,但这一概念还是没有科学依据。

  • 晚上 9:00:分析实验运行。 我对 wandb(可以用来追踪,分析深度学习实验)是又爱又恨

  • 晚上 10:00:启动实验,通宵运行,明早前得到结果

  • 凌晨 1:00:实验真正启动

  • 凌晨 1:15:去睡觉。在 Satya (微软 CEO 萨提亚)和 Jensen (英伟达 CEO 黄仁勋)的守护中进入梦乡,心想:压缩就是你所需要的一切(Compression is all you need)。晚安

对此,不少人调侃,万万没想到,没想到这就是 OpenAI 发明 AGI 的方式。甚至就连 Jason Wei 的编程配对搭档 @hwchung27 也转发戏称道:

“[上午 9:45] 背诵 OpenAI 章程。求优化大神。吸取惨痛的教训” 

这就是一切。想想 AGI,放下“科学家的自我”,寻求神圣的仁慈。

这是人工智能研究的核心。

还有用户 Alvin-GenAI 表示,“这是 OpenAI 技术人员典型而紧凑的一天的缩影。现在,我强烈地感受到了他们是如何马不停蹄、坚持不懈地践行扩展法则的。更多的计算和数据,持续不断。此外,还有一群超级勤奋的顶尖人才。这就是与众不同之处。顺便说一句,作为工作福利,他还能和 Sora 一起玩耍。”

其实也不难想象,一项先进的技术诞生,背后离不开工程师付出大量的努力。正如几天前,毕业于上海交通大学的天才少年、硕博士均毕业于加州大学圣迭戈分校、现任纽约大学的助理教授的谢赛宁(DiT 作者之一)透露,「对于 Sora 这样复杂的系统,人才第一,数据第二,算力第三,其他都没有什么是不可替代的。

同时,他还表示,「Sora 背后的主创们他们每天基本不睡觉高强度工作了一年」。

阿里巴巴 Qwen 团队 NLP 研究员的一天

当然不止 OpenAI,过去一年间,在大模型百花齐放百家争鸣的时代,也是各家企业的科技人才在“真刀真枪”地拼技术。

继 Jason Wei 之后,来自阿里的 NLP 研究员 Binyuan Hui 也随即分享了自己作为通义千问团队技术人员的典型一天(仅就自己而言):

  • 早上 9:00:起床,可能会在床上多躺 15 分钟。

  • 上午 9:30:打车上班,浏览 X,了解世界上发生的事情,查看 Jason Wei 的最新帖子。

  • 上午 10:00:开始工作,检查电子邮件,浏览 arxiv,打开 wandb(可以用来追踪,分析深度学习实验)查看昨天的实验结果。大部分时间都在叹气,但有时也会有惊喜。

  • 上午 11:00:开会讨论项目进展。

  • 中午 12:00:在公司吃午饭。

  • 下午 1:00:回到工作岗位,可能是编码,也可能是阅读论文。

  • 下午 2:00:监控模型训练。

  • 下午 3:00:开会讨论项目进度。

  • 下午 4:00:喝咖啡休息。与出色的研究人员讨论他们最近的工作,寻找灵感。

  • 下午 5:00:编码。

  • 下午 6:00:公司聚餐。

  • 晚上 7:00:监控模型训练。

  • 晚上 8:00:编码。

  • 晚上 9:00:阅读论文,与实习生讨论想法。

  • 晚上 10:00:乘坐地铁或出租车回家。

  • 晚上 11:00:准备睡觉,玩手机。

  • 晚上 12:00:最后检查,确保实验按预期进行。很好,晚安。

  • 凌晨 12:30:被一条来自 @JustinLin610(阿里巴巴通义实验室高级算法专家、通义千问开源负责人林俊旸)的消息吵醒,他分享了他刚刚想到的一个好主意。

  • 凌晨 1:00:继续睡觉。

  • 凌晨 1:30:给 @JustinLin610 发消息,与他分享我刚刚想到的一个好主意......

随即作为回应,阿里巴巴通义实验室高级算法专家、通义千问开源负责人林俊旸也分享了自己的一天。

[早上9:00]起床,做好准备,浏览一段时间的 X 消息

[上午 9:30] 乘地铁上班,阅读新闻和 paper

[上午 10:30] 一杯加浓咖啡的拿铁,同时看 X 和 arXiv。

[上午 11:00]开会(训练前、训练后、代码模型、多重性,每天都不一样)

[上午12:30] 午餐。如果不去餐厅的话,通常没什么好吃的。

[下午 1:15]为自己冲一杯滴滤咖啡,处理大量信息。

[下午 2:30]编写代码或文档

[下午 3:00]开会(产品会议、商务会议、客户会议,还有一些无聊的事情)

[下午 5:00] 有时间写代码、看论文、喝茶。

[下午 6:00] 晚餐

[下午 7:00] 集中精力,通常是写代码、文档、启动实验,还有 X!

[下午 9:00] 回家听音乐





请到「今天看啥」查看全文