
关于本书
AI Systems Performance Engineering: Optimizing Model Training and Inference Workloads with GPUs, CUDA, and PyTorch — Chris Fregly 著,O’Reilly 出版。 本书探讨如何从系统层面优化 AI 工作负载的性能,涵盖硬件架构、软件栈、训练与推理优化等关键主题。阅读目标
- 理解 AI 系统性能的核心瓶颈与优化方向
- 掌握从硬件到软件的全栈性能分析方法
- 能够在实际项目中应用性能工程的思维方式
当前进度
阅读计划正在制定中,请查看阅读计划了解详情。
章节目录
- 前言
- 第一章:介绍与 AI 系统概览
- 第二章:AI 系统硬件概览
- 第三章:GPU 环境下的 OS、Docker 与 Kubernetes 调优
- 第四章:分布式网络通信调优
- 第五章:基于 GPU 的存储 I/O 优化
- 第六章:GPU 架构、CUDA 编程与最大化占用率
- 第七章:GPU 内存访问模式的分析与调优
- 第八章:占用率调优、Warp 效率与指令级并行
- 第九章:提升 CUDA Kernel 效率与算术强度
- 第十章:Kernel 内流水线、Warp 特化与协作线程块集群
- 第十一章:Kernel 间流水线、同步与 CUDA 流有序内存分配
- 第十二章:动态调度、CUDA Graphs 与设备发起的 Kernel 编排
- 第十三章:PyTorch 的分析、调优与扩展
- 第十四章:PyTorch 编译器、OpenAI Triton 与 XLA 后端
- 第十五章:多节点推理、并行、解码与路由优化
- 第十六章:大规模推理的分析、调试与调优
- 第十七章:推理中分离式 Prefill 与 Decode 的扩展
- 第十八章:高级 Prefill-Decode 与 KV Cache 调优
- 第十九章:动态与自适应推理引擎优化
- 第二十章:AI 辅助性能优化与百万级 GPU 集群扩展
