Skip to main content

时间表

周次日期章节状态
--前言未开始
第 1 周TBD第一章:介绍与 AI 系统概览未开始
第 2 周TBD第二章:AI 系统硬件概览未开始
第 3 周TBD第三章:GPU 环境下的 OS、Docker 与 Kubernetes 调优未开始
第 4 周TBD第四章:分布式网络通信调优未开始
第 5 周TBD第五章:基于 GPU 的存储 I/O 优化未开始
第 6 周TBD第六章:GPU 架构、CUDA 编程与最大化占用率未开始
第 7 周TBD第七章:GPU 内存访问模式的分析与调优未开始
第 8 周TBD第八章:占用率调优、Warp 效率与指令级并行未开始
第 9 周TBD第九章:提升 CUDA Kernel 效率与算术强度未开始
第 10 周TBD第十章:Kernel 内流水线、Warp 特化与协作线程块集群未开始
第 11 周TBD第十一章:Kernel 间流水线、同步与 CUDA 流有序内存分配未开始
第 12 周TBD第十二章:动态调度、CUDA Graphs 与设备发起的 Kernel 编排未开始
第 13 周TBD第十三章:PyTorch 的分析、调优与扩展未开始
第 14 周TBD第十四章:PyTorch 编译器、OpenAI Triton 与 XLA 后端未开始
第 15 周TBD第十五章:多节点推理、并行、解码与路由优化未开始
第 16 周TBD第十六章:大规模推理的分析、调试与调优未开始
第 17 周TBD第十七章:推理中分离式 Prefill 与 Decode 的扩展未开始
第 18 周TBD第十八章:高级 Prefill-Decode 与 KV Cache 调优未开始
第 19 周TBD第十九章:动态与自适应推理引擎优化未开始
第 20 周TBD第二十章:AI 辅助性能优化与百万级 GPU 集群扩展未开始
时间表将根据实际阅读节奏持续更新。

阅读建议

  • 每章 2 周阅读时间,期间可以在 GitHub Issue 上交流问题
  • 每章安排一次线上分享:一人带读约 40 分钟 + 20 分钟自由讨论
  • 阅读后在对应章节页面记录笔记和心得