专栏名称: 深度学习自然语言处理
一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
阳泉日报  ·  2024年山西经济“成绩单”公布 ·  昨天  
山西广播电视台  ·  2024年山西体育十大新闻出炉 ·  昨天  
山西广播电视台  ·  2024年山西体育十大新闻出炉 ·  昨天  
山西省邮政管理局  ·  冻哭了!大风强劲气温骤降 全天“冰冻”模式…… ·  昨天  
HZ老乡俱乐部  ·  霍州:各村缴费通知! ·  昨天  
山西发布  ·  春节假日山西文旅市场迎来“开门红” ·  3 天前  
山西发布  ·  春节假日山西文旅市场迎来“开门红” ·  3 天前  
51好读  ›  专栏  ›  深度学习自然语言处理

一位大佬的自述 | 从读博到 Google DeepMind : 旅程中的心得与感恩

深度学习自然语言处理  · 公众号  ·  · 2024-12-15 11:44

正文

作者:薛复昭
新加坡国立大学,将于近期加入Google DeepMind

编辑:青稞AI

LLM所有 细分方向 群+ ACL25/ICML25/NAACL25 投稿群-> LLM所有细分领域群、投稿群从这里进入!

在经历了三年精彩的博士生涯之后,我将作为高级研究科学家加入 Google DeepMind, 致力于 Gemini预训练 多模态研究

我非常幸运能再次向 Mostafa Dehghani 汇报工作,他是我之前实习期间的杰出导师之一,同时也很荣幸能成为 Jack Rae卓越研究团队 的一员。我将从新加坡开始这段激动人心的旅程,并在几个月后转移到湾区。

我对这个新篇章 超级、超级兴奋

为了纪念这个里程碑,我写下了在攻读博士期间学到的重要经验——这不仅是为了自我反思和记录,也希望能分享并帮助到其他人

博士期间的七点心得

  1. 1. 工程能力 是研究的基础。
  2. 2. 与优秀人才共事对提升 研究品味 极其有帮助。
  3. 3. 博士期间要致力于做出 简洁而有见地的45分钟演讲 ,而不是追求长长的发表清单。
  4. 4. 专注于少量重要论文 并深入理解,而不是浅尝辄止地阅读很多文章。
  5. 5. 在接触新课题时,要 按时间顺序阅读论文 以研究研究趋势的演变。
  6. 6. 换位思考 是提升写作和演讲的有效方法。
  7. 7. 博士学位有帮助但不是 从事大语言模型研究的必要条件。

我将在接下来的章节中详细阐述这些观点。请注意,所有的心得都是我从优秀同仁那里学到并总结的个人观点,以及自己的经验。我仍然很年轻,还有很多东西要学习。在这里记录下来,仅供参考。

中长期规划

(1) 工程能力是研究的基础 。虽然工程能力普遍很重要,但在学术界似乎特别被低估。例如,在我几年前的经历中,人工智能博士招生很少进行编程面试。这很令人惊讶,因为实现是将人工智能想法付诸实践的关键步骤。许多人可能会广泛讨论研究概念,但无法将其转化为实际应用。

强大的工程能力不仅能让我们为大规模项目做出贡献(这是在大语言模型社区产生重要影响的常见方式),还能激发创新的研究思路。最近的进展,如Scaling Law, MoE, GQA, Flash Attention,往往源于对底层技术和社区面临挑战的深入理解。

(2) 与优秀人才共事对提升研究品味极其有帮助 。什么是'研究品味'?在我看来,就是比他人更早识别出有前景的研究方向的能力。那么...该如何做?去问他们!就像我们在大语言模型中在强化学习之前进行监督训练一样,我们需要指导和引导来培养自己的'研究品味'。在我博士早期,我有幸在谷歌与Yi Tay和Mostafa Dehghani合作,这段经历显著塑造了我的职业轨迹。我经历的文化冲击令人深省。受此启发,我主动寻求机会与其他杰出研究者合作,如Jim Fan (范麟熙)、朱玉可、Scott Reed、符尧等

要真正理解他们的研究品味,我们需要在两个关键方面达成一致:

• 为什么这个问题在技术上很重要?

• 这个人是如何培养出这样的技能和思维方式的?

有趣的是,具有良好研究品味的人并不总能清楚回答这些问题,尤其是第二个问题。这就是为什么我认为与这些人密切合作能让我们深入了解他们的日常习惯、决策过程和解决问题的方法,尽管你也可以通过电子邮件等方式询问他们。

(3) 在整个博士期间,要致力于做出简洁而有见地的45分钟演讲,而不是追求长长的论文清单 。人们攻读博士通常有两个主要原因,即享受科研乐趣和找到好工作。对于工作面试,有一个'还可以'的发表记录通常足以让你通过初选。然而,在面试过程中真正重要的远不止论文清单和简历。通常会有研究演讲和几次一对一的研究面试(除了基础知识和代码)。虽然听众规模不同,但核心目标始终相同:做出引人入胜且连贯的演讲。要在这些场合表现出色,要专注于创建一个扎实的整体演讲,并定期(如每5分钟)加入富有见地的观察,以保持听众的兴趣。

研究中的学习

(4) 专注于少量重要论文并深入理解,而不是浅尝辄止地阅读很多文章 。我通常会果断筛选掉arXiv上99%的论文,只关注有影响力的工作、知名作者和声誉良好的机构。

(我理解这种方法有其偏见——一些有价值的工作可能因各种原因被低估。但事实是,这种方法通常很高效。我认为最好的工作最终都会通过引用、讨论或他人推荐出现在我们面前。)

虽然你可能偶尔会错过一些被埋没的好论文,但更重要的是不要被杂乱的论文淹没。花太多时间在这些工作上可能会将你的研究品味拉向局部最小值,特别是当你刚进入这个领域缺乏甄别能力时,这可能需要相当长的时间和努力来纠正。

(5) 在接触新课题时,要按时间顺序阅读论文以研究研究趋势的演变 。例如,你可以按照 这个顺序 [1] 来阅读和学习MoE-LLMs。这样,你可以更容易地识别和总结趋势,创建连接不同工作的'思维链',比如Expert-Choice MoE解决了baseline MoEs中的什么问题。这个过程不仅加深了你的理解和推理能力,还能让你超越领域的当前状态进行推广。有了这个更广阔的视角,你可能会发现有价值的未来研究方向。此外,人们自然倾向于更好地记住最近的信息。作为研究者,跟上最新发展至关重要,所以这种方法与我们处理和保留信息的方式很相符。

(6) 换位思考是提升写作和演讲的有效方法 。我的写作仍有很大提升空间。不过,我发现换位思考在以下两种情况下特别有帮助:

• 写作时设身处地为读者着想。读者来自不同背景,而且时间有限。考虑到这些因素来撰写文稿很重要。关键是要让你的写作易于目标受众理解。保持简洁,既不要太长,也不要太浅或太深,专注于你想传达的最重要观点。考虑在读者的限制条件下,什么内容最有影响力。

• 阅读时想象作者写作时的所思所想。学术论文和演讲信息密度很高。作者通常花费大量时间精炼它们,但背后的原始数据或想法往往杂乱无章。在阅读他人的作品时,不要被动接收,要思考你会如何处理原始材料。如果你能接触到初始数据,你会讲述什么样的故事?你会画什么图来阐明观点?与你自己平时的写作方法相比,作者的思路的哪些部分更值得借鉴?这个练习让你有频繁的机会练习写作和演讲,而不是等花几个月完成整个项目后才有机会来练习。

研究领域的职业发展观点

(7) 博士学位很有帮助,但不是从事大语言模型研究的必要条件 。攻读博士可以提供宝贵的学习经验。除了科研技能,学术界擅长的一个领域是教学模块——这在工业实验室中很少遇到。作为助教,你有机会设计讲座、作业、辅导和考试。这种经验与进行研究或指导初级研究人员不同,如果你的目标是成为教授,这是必不可少的。

然而,如果你的主要目标是直接为最先进的大语言模型做出贡献,直接加入研究实验室可能更有效。在工业实验室,你可能会有:

• 获取更强大的计算资源。

• 与实践经验丰富、技能出众且自我驱动的同事合作。

• 参与具有重大影响力的大型项目的机会。

在我的博士期间,我在工业实验室实习,但读者也完全可以作为研究工程师或AI驻地研究员加入这样的实验室。在我看来,这些职位可以成为成为大语言模型研究者的快速通道,让你有机会在实践性强、影响力大的环境中学习所需的大部分技能。

值得注意的是,像Google DeepMind,OpenAI这样的地方有许多杰出的研究人员并没有博士学位。这突显出虽然博士学位有益,但它并不是在大语言模型研究领域取得成功的唯一途径。

致谢

新加坡国立大学 我要感谢我的博士导师尤洋教授在我求学期间给予的巨大支持,提供研究资源、经费,以及探索各种令人兴奋的研究方向的自由。导师的支持让许多事情成为可能!我也很幸运能够与新加坡国立大学内外的众多优秀博士生和研究人员合作,包括郑奘巍、倪瑾杰、符尧、岳翔、李升桂等等。一路上有太多令人印象深刻的时刻让我有机会跟你们学习。比如,当奘巍帮我整理一个新项目的代码库时,他的代码整洁度和文档质量让我惊叹不已——在那之后相当一段时间,我一直在研究他的代码来学习。符尧一直都非常敏锐,能够发现我可能忽略的细节。最难忘的经历之一是我们一起阅读一篇关于长文本的论文时——你发现了表格中的数字里很多我完全忽略的隐藏信息,我猜可能作者可能都没有意识到这么多内容,这教会了我如何更深入地阅读论文。我也被瑾杰和岳翔为追求更大影响力而展现的决心和执行力所激励,被升桂在管理大型项目时展现的卓越效率所启发,还有无数与优秀伙伴共处的美好时刻,都无法在这篇博客中一一列举。能够遇见并与你们共事,是我莫大的荣幸和幸运!







请到「今天看啥」查看全文