| 书名 | 简介 | 资料 |
|---|---|---|
| AI Systems Performance Engineering | 逐步讲解 GPU CUDA Kernel 调优、基于 PyTorch 的算法优化以及多节点训练与推理系统的优化方法。同时涵盖 GPU 集群扩展、分布式模型训练和推理服务的性能调优。书末附 175+ 项经过验证的实战优化清单。 | GitHub |
| Build a Large Language Model (From Scratch) | 从零规划并编写 LLM 的各个组件,涵盖数据集准备、文本分类微调、基于人类反馈的指令对齐,以及加载预训练权重等完整流程。 | GitHub |
