在线分享 - AI Infra 学习社区

AI Infra 在线分享系列，每期围绕一个具体主题进行深入讲解，涵盖论文精读、源码分析和实践经验。所有分享录屏均可在 Bilibili 回看，文档和课件托管在 GitHub。

已完成的分享

LLM 全景图介绍 / vLLM 快速入门

vLLM PagedAttention 论文精读

Prefix Caching 原理详解

Speculative Decoding 实现方案

Chunked-Prefills 分块预填充

PD 分离推理架构详解

开源推理平台项目介绍