专栏名称: 北京大学研究生教育
北京大学研究生教育
目录
相关文章推荐
51好读  ›  专栏  ›  北京大学研究生教育

青春的榜样 | 吴秉阳:“走不一样的路,收获别样的风景”

北京大学研究生教育  · 公众号  ·  · 2025-03-17 15:26

正文

请到「今天看啥」查看全文


编者按

为全面推进北京大学“双一流”建设,研究生院以建设世界一流水平的研究生教育体系为目标,以“北京大学博士研究生教育综合改革”为抓手,在研究生培养管理、资助体系、学科交叉、国际化等方面采取了一系列举措,旨在推动研究生培养质量的全面提高,实现北大研究生教育的内涵式发展。

博士研究生校长奖学金是北京大学设立的荣誉性最高、资助额度最大、影响范围最广的研究生奖学金,在研究生的招生、培养和奖助等方面发挥着十分重要的作用。希望全校研究生以这些优秀的博士生为榜样,刻苦学习、不懈努力,成为“有理想、有本领、有担当”的拔尖创新人才。

吴秉阳 ,北京大学信息科学技术学院图灵班2018级本科生,计算机学院2022级博士研究生,计算机软件与理论专业,导师为金鑫副教授,主要研究方向为云计算、机器学习系统和计算机网络。在SOSP、OSDI、NSDI、SIGCOMM、ISCA、TPDS、计算机研究与发展等会议和期刊上发表CCF-A类论文7篇,其中第一作者论文4篇。曾获得北京大学博士研究生校长奖学金、北京大学三好学生、中国电科十四所国睿奖学金、朗讯奖学金等荣誉,并入选EuroSys Shadow PC。


追寻内心热爱 初受科研锤炼

本科期间,信息科学技术学院曾组织科研轮转。通过参与不同方向实验室的轮转实习,我最终选择了当时尚不热门,但是自己热爱的方向,即分布式系统,尤其是机器学习系统,并跟随金鑫老师参与科研。


初入机器学习系统领域时,我常震撼于顶会论文里那些巧妙的思路和行云流水的风格。然而,当自己第一次主导开展项目时,却发现很难流畅展开。我们的项目常常被没有想到的技术细节所卡住,经常出现性能不如预期的情况,有时候甚至会让原有方案看起来完全不可行。好在金老师十分有经验,帮助我理清脉络,并让我了解到更多相关论文和开源代码。这时我注意到,不仅相关论文的想法、算法和总体框架需要理解,论文中淡淡地提到的一些细节可能也相当重要。通过仔细阅读论文中的实践细节和开源仓库中的代码,我得以学会一些十分重要的工程诀窍,从而快速绕过一些常见的问题并继续进行优化。得益于此,我在磕磕绊绊中也还算快速地完成了第一版论文。


然而投稿结果则让我更加理解科研过程的曲折。面对密密麻麻的意见,我更加对项目的前途感到忧虑,感觉问题层出不穷,却不知从何入手来解决问题。所幸那段时间,我的导师时常开导我,并告诉我如何真正理解评审评语,学会识别哪些是对论文的真正质疑,哪些只是论文的小瑕疵。这时我再重读审稿意见,也更加能理解评审的意图,对未来的修改方向也有了更加清晰的优先级顺序。经过一遍遍改进,项目最终中稿。那时才开始明白,行云流水的论文都是从反复打磨中而来。做项目需要接受一开始的不完美,只有不断碰撞,才能逐渐趋近最优落点。



尝试产研结合 体会科研落地

为了尝试产业界科研这种不一样的研究模式,我作为研究实习生进入阿里巴巴达摩院,参与另一种分布式系统——音视频会议应用的传输性能优化工作之中。虽然这是一个相对不一样的领域,但是在业界导师的帮助下,进展一开始也十分迅速,我很快就做出了有一定性能提升的网络传输优化方案。然而,当优化方案逐渐从仿真环境转向团队内部真实场景下测试时,却遇到了意想不到的麻烦。


由于真实生产环境的复杂多变,传输优化方案的性能增益并不稳定,这让研发进度滞后于原有预期。这一度让我有些受挫,但也让我感受到了产业科研需要真正身处实际环境理解和解决问题的特点。这也倒逼我避免去做一些打地鼠式的简单优化,在多次查看相关错误日志后,我真正开始更全面地思考,如何能够实现保证线上高质量要求的系统性解决方案。


在与团队反复讨论和合作之下,我一方面开发了更快速的传输错误恢复机制,并增加了一些理论分析论证其可靠性,另一方面也搭建了更加细粒度的观测监控机制和快速回滚机制,尽可能减小潜在问题出现的可能性和出现后的影响面。


最终,在反复实验和优化迭代之后,我实现的网络传输优化机制最终得以落地部署。与刚开始时的快速进展不同,当一系列优化迭代全部完成后,实习已经过去了一年多。这也让我充分感受到了,真正能落地的科研,不仅需要有深度的单点创新,更需要站在真实环境里,考虑到现有系统的兼容性、可靠性等方方面面的细节,做出完整解决方案。有时甚至需要做一些看似不那么创新的工程活,才能让创新技术经受住时间和现实的考验。



响应时代趋势 探索科研“蓝海”

在我沉浸于产业界实习时,学术界人工智能技术也在快速发展,大模型技术短时间内迎来了一波技术突破,在广泛的任务场景下展现出了强大能力。于是,我也开始思考如何能参与进来。最终,我又回到原来的机器学习系统领域。


为了了解最新的技术进展,我开始阅读最新的人工智能领域的论文和技术报告。在阅读中,我察觉到,这个领域与原来相比有了很多变化,已经逐渐从多类小模型逐渐收敛到相对通用的大模型框架下,成为一个相对大规模的单体分布式应用了。随之而来的,又出现了很多新场景和老场景中的新需求。


这时,曾经的产业实习经历又启发了我,大模型应用的形态演进,似乎也遵循着许多其他分布式应用的发展和落地路径,也可能会遇到其他经典应用规模化增长之后经历的类似问题。凭借这个想法,我很快结合大模型应用自身新涌现的特点和分布式系统的经典思想,从调度、并行等多个角度对大模型应用的推理服务分布式部署进行了优化尝试,其中一些取得了不错的性能增益。


可以说,过去的经历都不是闲笔,它们最终以一种意想不到的方式连点成线。不一样的经历,反而让我有了不一样的视角。了解过不同子方向,我对技术的不同阶段发展有了更清晰的认知。



回顾这些经历,总让我想起“走不一样的路,收获别样的风景”这句话。有时候做一些不一样的尝试会显得与目标无关,会让人产生迷茫,但也可能收获更独特的科研思考和对自我内心更深的理解。在这些经历中,我想最难忘的还是永远鼓励和引导我的老师们,优秀且乐于助人的同学们,和经验丰富的实习同事们,他们让这段风景更美好。我也希望通过这次分享,能够带给初入科研的探路者一些启发。


代表性学术成果


1. Bingyang Wu , Shengyu Liu, Yinmin Zhong, Peng Sun, Xuanzhe Liu, Xin Jin. LoongServe: Efficiently Serving Long-Context Large Language Models with Elastic Sequence Parallelism. ACM SOSP 2024

2. Bingyang Wu , Ruidong Zhu, Zili Zhang, Peng Sun, Xuanzhe Liu, Xin Jin. dLoRA: Dynamically Orchestrating Requests and Adapters for LoRA LLM Serving. USENIX OSDI 2024

3. Bingyang Wu , Kun Qian, Bo Li, Yunfei Ma, Qi Zhang, Zhigang Jiang, Jiayu Zhao, Dennis Cai, Ennan Zhai, Xuanzhe Liu, Xin Jin. XRON: A Hybrid Elastic Cloud Overlay Network for Video Conferencing at Planetary Scale. ACM SIGCOMM 2023

4. Bingyang Wu , Zili Zhang, Zhihao Bai, Xuanzhe Liu, Xin Jin. Transparent GPU Sharing in Container Clouds for Deep Learning Workloads. USENIX NSDI 2023


供稿:吴秉阳

编辑:张语薇








请到「今天看啥」查看全文