Skip to main content

Documentation Index

Fetch the complete documentation index at: https://se7en.mintlify.app/llms.txt

Use this file to discover all available pages before exploring further.

时间表

场次日期章节主讲状态
第 1 次04.19第一章:介绍与 AI 系统概览程治玮未开始
第 2 次05.10第二章:AI 系统硬件概览于增辉未开始
第 3 次05.24第三章:GPU 环境下的 OS、Docker 与 Kubernetes 调优程治玮未开始
第 4 次06.07第四章:分布式网络通信调优费翌阳未开始
第 5 次06.21第五章:基于 GPU 的存储 I/O 优化黄健峰未开始
第 6 次TBD第六章:GPU 架构、CUDA 编程与最大化占用率TBD未开始
第 7 次TBD第七章:GPU 内存访问模式的分析与调优TBD未开始
第 8 次TBD第八章:占用率调优、Warp 效率与指令级并行TBD未开始
第 9 次TBD第九章:提升 CUDA Kernel 效率与算术强度TBD未开始
第 10 次TBD第十章:Kernel 内流水线、Warp 特化与协作线程块集群TBD未开始
第 11 次TBD第十一章:Kernel 间流水线、同步与 CUDA 流有序内存分配TBD未开始
第 12 次TBD第十二章:动态调度、CUDA Graphs 与设备发起的 Kernel 编排TBD未开始
第 13 次TBD第十三章:PyTorch 的分析、调优与扩展TBD未开始
第 14 次TBD第十四章:PyTorch 编译器、OpenAI Triton 与 XLA 后端TBD未开始
第 15 次TBD第十五章:多节点推理、并行、解码与路由优化TBD未开始
第 16 次TBD第十六章:大规模推理的分析、调试与调优TBD未开始
第 17 次TBD第十七章:推理中分离式 Prefill 与 Decode 的扩展TBD未开始
第 18 次TBD第十八章:高级 Prefill-Decode 与 KV Cache 调优TBD未开始
第 19 次TBD第十九章:动态与自适应推理引擎优化TBD未开始
第 20 次TBD第二十章:AI 辅助性能优化与百万级 GPU 集群扩展TBD未开始

阅读安排

  • 原则上每章安排 2~3 周准备时间,具体以实际排期为准
  • 每章安排一次线上分享:一人带读约 40 分钟 + 20 分钟自由讨论