Skip to main content
AI Infra 在线分享系列,每期围绕一个具体主题进行深入讲解,涵盖论文精读、源码分析和实践经验。 所有分享录屏均可在 Bilibili 回看,文档和课件托管在 GitHub

已完成的分享

01 - vLLM 快速入门

LLM 全景图介绍 / vLLM 快速入门

02 - PagedAttention

vLLM PagedAttention 论文精读

03 - Prefix caching

Prefix Caching 原理详解

04 - Speculative decoding

Speculative Decoding 实现方案

05 - Chunked prefills

Chunked-Prefills 分块预填充

06 - PD 分离

PD 分离推理架构详解

07 - 推理平台全景

开源推理平台项目介绍