书籍概览 - AI Infra 学习社区

关于本书

AI Systems Performance Engineering: Optimizing Model Training and Inference Workloads with GPUs, CUDA, and PyTorch — Chris Fregly 著，O’Reilly 出版。本书探讨如何从系统层面优化 AI 工作负载的性能，涵盖硬件架构、软件栈、训练与推理优化等关键主题。

阅读目标

理解 AI 系统性能的核心瓶颈与优化方向
掌握从硬件到软件的全栈性能分析方法
能够在实际项目中应用性能工程的思维方式

当前进度

首轮阅读计划已确定前五次安排，后续章节将根据实际阅读节奏持续更新。请查看阅读计划了解详情。

章节目录

第一章：介绍与 AI 系统概览
第二章：AI 系统硬件概览
第三章：GPU 环境下的 OS、Docker 与 Kubernetes 调优
第四章：分布式网络通信调优
第五章：基于 GPU 的存储 I/O 优化
第六章：GPU 架构、CUDA 编程与最大化占用率
第七章：GPU 内存访问模式的分析与调优
第八章：占用率调优、Warp 效率与指令级并行
第九章：提升 CUDA Kernel 效率与算术强度
第十章：Kernel 内流水线、Warp 特化与协作线程块集群
第十一章：Kernel 间流水线、同步与 CUDA 流有序内存分配
第十二章：动态调度、CUDA Graphs 与设备发起的 Kernel 编排
第十三章：PyTorch 的分析、调优与扩展
第十四章：PyTorch 编译器、OpenAI Triton 与 XLA 后端
第十五章：多节点推理、并行、解码与路由优化
第十六章：大规模推理的分析、调试与调优
第十七章：推理中分离式 Prefill 与 Decode 的扩展
第十八章：高级 Prefill-Decode 与 KV Cache 调优
第十九章：动态与自适应推理引擎优化
第二十章：AI 辅助性能优化与百万级 GPU 集群扩展

阅读计划

Documentation Index

​关于本书

​阅读目标

​当前进度

​章节目录

关于本书

阅读目标

当前进度

章节目录