2024年ASPLOS (Architectural Support for Programming Languages and Operating Systems)大会在4月27日到5月1日于San Diego举行,作为横跨体系结构、编程语言和操作系统等多个领域的顶级会议,吸引了超过800位老师和同学线下参加。老规矩,我会在这份评述中,尽可能讲一些Presentation细节和参会感受,希望对感兴趣的朋友有帮助。
Centauri: Enabling Efficient Scheduling for Communication-Computation Overlap in Large Model Training via Communication Partitioning
作为今年Best Paper之一的Centauri其实讲的有点低于预期,可能是因为报告时间有限,个人感觉和之前工作相比的区分度不太够,拆分张量实现Tensor Model Parallelism中计算和通信的Overlap应该不算是什么新的idea,不知道为什么似乎也算到了Contribution里,Scheduling部分应该算是亮点,可惜也没能讲清楚,感兴趣的同学可以阅读论文。
T3: Transparent Tracking & Triggering for Fine-grained Overlap of Compute & Collectives
来自AMD的T3讲的非常好,实现了细粒度的GEMM和通信的kernel fusion,如果能做到NV的卡上应该对Tensor Model Parallelism非常有用。
Two-Face: Combining Collective and One-Sided Communication for Efficient Distributed SpMM
SpecInfer: Accelerating Large Language Model Serving with Tree-based Speculative Inference and Verification
SpecInfer是首个Tree-based Speculative Inference System for LLMs,自从我们去年5月对外发布后,就得到了大量的关注,Follow-up的工作也有很多,不过大部分都是侧重Speculation算法改进的,很多人都忽略了投机式推理在系统层面的挑战,感兴趣的同学可以阅读我们的正式版论文,相信可以解读你的大部分疑惑。
ExeGPT: Constraint-Aware Resource Scheduling for LLM Inference