简介 || 什么是DDP || 单节点多GPU训练 || 故障容忍 || 多节点训练 || minGPT训练
PyTorch中的分布式数据并行 - 视频教程¶
Created On: Sep 27, 2022 | Last Updated: Nov 15, 2024 | Last Verified: Nov 05, 2024
根据以下视频或在 YouTube 上进行学习。
这一系列视频教程通过PyTorch中的DDP为您讲解分布式训练。
该系列教程从一个简单的非分布式训练任务开始,最终完成跨集群中的多台机器部署训练任务。在此过程中,您还将学习如何使用 torchrun 实现容错的分布式训练。
该教程假设您对 PyTorch 模型训练有基本的了解。
运行代码¶
您需要多块 CUDA GPU 来运行教程代码。通常可以在拥有多块 GPU 的云实例上完成(教程使用了亚马逊 EC2 的 P3 实例,配备了4块 GPU)。
教程代码托管在这个 GitHub 仓库 中。克隆该仓库并跟随教程一起学习!
教程部分¶
简介(当前页面)
DDP 是什么? 温和地介绍了 DDP 的底层原理
单节点多 GPU 训练 使用单机上的多块 GPU 训练模型
容错分布式训练 使用 torchrun 提高分布式训练任务的健壮性
多节点训练 使用多台机器上的多块 GPU 训练模型
使用 DDP 训练 GPT 模型 使用 DDP 训练 minGPT 模型的“真实场景”示例