阅读计划 - AI Infra 学习社区

时间表

场次	日期	章节	主讲	状态
第 1 次	04.19	第一章：介绍与 AI 系统概览	程治玮	已完成
第 2 次	05.24	第二章：AI 系统硬件概览	于增辉	已完成
第 3 次	06.07	第三章：GPU 环境下的 OS、Docker 与 Kubernetes 调优	程治玮	未开始
第 4 次	06.28	第四章：分布式网络通信调优	费翌阳	未开始
第 5 次	07.12	第五章：基于 GPU 的存储 I/O 优化	黄健峰	未开始
第 6 次	TBD	第六章：GPU 架构、CUDA 编程与最大化占用率	TBD	未开始
第 7 次	TBD	第七章：GPU 内存访问模式的分析与调优	TBD	未开始
第 8 次	TBD	第八章：占用率调优、Warp 效率与指令级并行	TBD	未开始
第 9 次	TBD	第九章：提升 CUDA Kernel 效率与算术强度	TBD	未开始
第 10 次	TBD	第十章：Kernel 内流水线、Warp 特化与协作线程块集群	TBD	未开始
第 11 次	TBD	第十一章：Kernel 间流水线、同步与 CUDA 流有序内存分配	TBD	未开始
第 12 次	TBD	第十二章：动态调度、CUDA Graphs 与设备发起的 Kernel 编排	TBD	未开始
第 13 次	TBD	第十三章：PyTorch 的分析、调优与扩展	TBD	未开始
第 14 次	TBD	第十四章：PyTorch 编译器、OpenAI Triton 与 XLA 后端	TBD	未开始
第 15 次	TBD	第十五章：多节点推理、并行、解码与路由优化	TBD	未开始
第 16 次	TBD	第十六章：大规模推理的分析、调试与调优	TBD	未开始
第 17 次	TBD	第十七章：推理中分离式 Prefill 与 Decode 的扩展	TBD	未开始
第 18 次	TBD	第十八章：高级 Prefill-Decode 与 KV Cache 调优	TBD	未开始
第 19 次	TBD	第十九章：动态与自适应推理引擎优化	TBD	未开始
第 20 次	TBD	第二十章：AI 辅助性能优化与百万级 GPU 集群扩展	TBD	未开始

阅读安排

原则上每章安排 2～3 周准备时间，具体以实际排期为准
每章安排一次线上分享：一人带读约 40 分钟 + 20 分钟自由讨论

Documentation Index

​时间表

​阅读安排

时间表

阅读安排