Skip to main content
AI Infra 学习社区 home page
Search...
⌘K
GitHub
Search...
Navigation
章节笔记
第六章:GPU 架构、CUDA 编程与最大化占用率
首页
在线分享
读书会
学习资源
AI Systems Performance Engineering
概览
书籍概览
阅读计划
章节笔记
前言
第一章:介绍与 AI 系统概览
第二章:AI 系统硬件概览
第三章:GPU 环境下的 OS、Docker 与 Kubernetes 调优
第四章:分布式网络通信调优
第五章:基于 GPU 的存储 I/O 优化
第六章:GPU 架构、CUDA 编程与最大化占用率
第七章:GPU 内存访问模式的分析与调优
第八章:占用率调优、Warp 效率与指令级并行
第九章:提升 CUDA Kernel 效率与算术强度
第十章:Kernel 内流水线、Warp 特化与协作线程块集群
第十一章:Kernel 间流水线、同步与 CUDA 流有序内存分配
第十二章:动态调度、CUDA Graphs 与设备发起的 Kernel 编排
第十三章:PyTorch 的分析、调优与扩展
第十四章:PyTorch 编译器、OpenAI Triton 与 XLA 后端
第十五章:多节点推理、并行、解码与路由优化
第十六章:大规模推理的分析、调试与调优
第十七章:推理中分离式 Prefill 与 Decode 的扩展
第十八章:高级 Prefill-Decode 与 KV Cache 调优
第十九章:动态与自适应推理引擎优化
第二十章:AI 辅助性能优化与百万级 GPU 集群扩展
附录
延伸资源
On this page
本章概要
关键概念
笔记与心得
讨论问题
章节笔记
第六章:GPU 架构、CUDA 编程与最大化占用率
本章概要
关键概念
笔记与心得
讨论问题
Was this page helpful?
Yes
No
Suggest edits
Raise issue
第五章:基于 GPU 的存储 I/O 优化
第七章:GPU 内存访问模式的分析与调优
⌘I