正文
北京大学计算机专业最早可以追溯到上世纪50年代数学力学系计算数学专业和物理系的无线电物理、电子物理和半导体物理专业。1978年正式成立计算机科学技术系,包括计算机软件和微电子两个专业。2002年成立信息科学技术学院之后,在原计算机科学技术系的基础上建立了计算机科学技术系和微纳电子学系。2021年成立计算机学院。
北京大学计算机学院涵盖了国内计算机专业最全面的研究方向。在计算机理论、系统软件与软件工程、知识工程、程序设计语言、信息安全、计算机图形学、人机交互与虚拟现实、数据库与信息系统、计算机网络、计算语言学、计算机体系结构、数字音视频编解码与多媒体通信、人工智能等多方面开展了广泛研究,在多个研究方向上处于全球领先地位。计算机学院同国内外多所大学、研究机构建立密切的学术联系和学生交换项目,如美国麻省理工学院(MIT)、卡耐基梅隆大学(CMU)、康奈尔大学(Cornell)、加州大学洛杉矶分校(UCLA),英国爱丁堡大学,日本东京大学,新加坡国立大学等;与产业界多家著名企业具有合作伙伴关系,如IBM中国研究院、Microsoft亚洲研究院、华为、腾讯、百度等。计算机学院借助享誉国内国际的声望,积极为学生提供海外交流、知名企业实习以及各种赛事参与的机会,帮助学生拓宽视野。
杨仝,北京大学计算机学院数据所长聘副教授,博士生导师,教育部青年长江学者,本硕博学生一共70余人。该实验室研究大模型、网络、数据库、机器学习、数据挖掘等方向的新型概率数据结构,以可控且小的误差换取时间和空间上的显著降低,发表一作/通信作者CCF A类论文81篇,领域排名第一SIG论文24篇,包括SIGCOMM*5、SIGMOD*10、SIGKDD*8。2023年一年发表A类或者一区论文24篇。发表了北京大学第一单位首篇SIGCOMM论文、首篇NSDI论文、首篇Transactions on Networking论文、首篇SIGCOMM CCR论文。其中测量论文Elastic sketch在SIGCOMM 2018发表的40篇论文引用次数最多。负责1项国家自然基金重点项目、2项国家重点研发计划子课题、国家自然面上基金、青年基金、华为、中心、今日头条等项目。研究成果被国家自然基金委网站报道2次,教育部科技发展中心1次,6项研究成果在华为海思和产品线中落地,多项成果在今日头条、Redis数据库中落地。获得中国电子学会一等奖(2),奥林帕斯先锋奖。获得华为火花奖5次,是全国获该奖数最多的团队。
https://yangtonghome.github.io/
北京大学杨仝副教授团队暑期招收本科生做科研论文,大约从6.20到9.20,持续三个月,欢迎感兴趣的同学报名参加。
1. 适用人群:大一到大三本科生。有竞赛奖牌的同学优先。
2. 津贴:暑期实习期间每月给津贴1000-4000元,视表现决定具体津贴,表现突出的同学还可获得额外奖金。
3. 推荐信:参加科研的同学如果需要的话,杨老师可以给写推荐信。
1. Transformers模型在网络场景的部署研究
负责人介绍:缪瑞杰,杨仝副教授团队二年级博士。在KDD,ICDE发表过一作论文,一共以一作身份发表过A类论文4篇。科研兴趣在数据处理、AI等方面。
研究目标:研究神经网络模型,尤其是Transformer结构在网络领域的应用和部署。
研究内容:探索Transformer架构或其他模型合适的应用场景,调试模型结构、规模的实验效果,研究减少模型部署的代价。
前期基础:希望参与的同学了解Transformer架构,最好对transformers/pytorch有基本了解,熟悉训练和推理框架。
负责人介绍:李元鹏,杨仝副教授团队二年级博士,以第一作者身份在SIGMOD、ToN等CCF A类会议/期刊发表论文2篇。科研兴趣在网络测量,ML for network。
研究目标:研究ML对网络测量,尤其是采样算法的优化。
研究内容:探索ML-based数据包分类算法,优化采样策略以减小采样误差。
前期基础:希望参与的同学对网络协议栈有基本了解,掌握经典模型(e.g., CNN, RNN)的编程技能。
3. 改进Transformer模型以增强时间序列预测能力
负责人介绍:清华计算机硕士毕业,北大博士三年级,科研兴趣在大模型、医疗AI、时间序列预测等方面。
研究目标:改进现有的Transformer模型,设计一个更适合时间序列预测的底层模型结构。
研究内容:针对Transformer模型在时间序列预测中的局限性,特别是对自然时间表示能力的不足,设计新的底层模型结构,以增强模型对自然时间序列数据的表示能力。在能源、医疗等实际领域的时间序列数据上进行模型测试,对比最新文献中有关时间序列预测优化的Transformer架构开源代码,验证改进模型的有效性。
前期基础:希望参与的同学了解深度神经网络和Transformer架构的数学原理,具备一定的Python编程基础,能够熟练使用相关库(如TensorFlow或PyTorch)进行模型开发和测试。
4. 基于大模型和RAG技术的AI医学核保系统开发与优化
负责人介绍:清华计算机硕士毕业,北大博士三年级,丰富的大数据、AI领域研发和创业经验,科研兴趣在大模型、医疗AI、时间序列预测等方面。
研究目标:开发一个AI医学核保的原型系统,利用大模型和RAG技术,实现自动化的医学核保流程。
研究内容:利用开源和闭源的大模型(如Kimi、GPT-4等)进行体检报告和病例的分析。使用RAG技术构建医学核保手册的知识库,并实现查询匹配功能。设计并开发一个能够自动给出核保结论的AI医学核保系统。对开发的原型系统进行测试,并根据测试结果进行优化。本项目由原百度、360搜索的资深技术大牛带领,提供专业的指导和支持。有机会参与到实际的创业项目中,体验AI技术在实际应用中的价值。
前期基础:希望参与的同学了解有扎实的编程基础,熟悉至少一种编程语言(如Python)。了解软件开发的基本流程和工程实践。熟悉Git等版本控制系统,能够进行代码管理和协作开发。
负责人介绍:北大硕士二年级,在KDD,ICDE发表过论文(共一、二作等)。科研兴趣在概率数据结构的各种应用,如网络测量、数据库加速、数据挖掘
研究内容:许多现有方法难以处理集合项以连续流形式呈现的情况,我们希望开发一种概率数据结构来计算两个集合间的相似度。目前已有初步的idea。
前期基础:希望参与的同学了解有扎实的编程基础,熟悉至少一种编程语言(如C++)。尤其欢迎英语好(可以参加到调研/论文写作等任务)或者数学好(可以参加到数学推导流程)的同学。
负责人介绍:王砚舒,清华计算机博士毕业,北大博士后,丰富的网络,数据结构,AI大模型,和计算机系统经验。发表过系统顶会论文。
研究内容:需要有很强的英文阅读写作能力,对AI有一定的了解。本项目适合需要引用数来申请博士,绿卡等的学生。
前期基础:希望已经了解AI和初步的量化知识,可以快速上手一起写论文。
负责人介绍:王飞宇,北京大学硕士三年级,即将博士入学,发表CCF A类会议三篇,一作一篇。对概率数据结构,网络测量和大模型方面较为了解。
研究目标:探索在云环境中如何优化大模型分布式推理,提升推理系统吞吐,降低端到端时延。
前期基础:编程基础扎实,对大模型架构有一定了解,对大模型推理加速有研究热情。
负责人介绍:杨凯程,北大博士三年级,在SIGCOMM等会议发表过一作论文,科研兴趣在可编程网络测量及其应用等方面;孙晨,清华大学博士,现于华为工作,发表多篇SIGCOMM/NSDI论文,总引用数超过1000,科研兴趣在可编程网络,数据中心网络等方面。
研究目标:研究AI网络中大规模训练时的训练流量特征。
研究内容:研究多种多卡并行训练策略下的流量特征,探索网络如何与其更好地合作
前期基础:希望参与的同学对计算机网络和分布式训练有一定的了解。
负责人介绍:王砚舒,清华计算机博士毕业,北大博士后,丰富的网络,数据结构,AI大模型,和计算机系统经验。发表过系统顶会论文。
研究目标:三个月内完成一篇乘积量化算法优化的论文。
研究内容:乘积量化pq算法是使用量化空间分割的形式来进行相似度的快速计算,在向量数据库和大模型量化领域有广泛应用,本项目使用不同算法进行pq算法的优化,在各个指标角度提高算法性能。
负责人介绍:王砚舒,清华计算机博士毕业,北大博士后,丰富的网络,数据结构,AI大模型,和计算机系统经验。发表过系统顶会论文。
研究内容:大模型量化的目的是通过压缩权重函数和激活函数来大大压缩模型大小,从而节省推理资源。
前期基础:本项目的难度很大,希望同学有一定编程竞赛成绩,成果不局限论文,可以有开源项目甚至创业公司。
负责人:吴钰晗,博士三年级,有较多数据结构研究经验。获得过国奖、校奖。