• Tutorials >
  • PyTorch中的分布式数据并行 - 视频教程
Shortcuts

简介 || 什么是DDP || 单节点多GPU训练 || 故障容忍 || 多节点训练 || minGPT训练

PyTorch中的分布式数据并行 - 视频教程

Created On: Sep 27, 2022 | Last Updated: Nov 15, 2024 | Last Verified: Nov 05, 2024

作者: Suraj Subramanian

根据以下视频或在 YouTube 上进行学习。

这一系列视频教程通过PyTorch中的DDP为您讲解分布式训练。

该系列教程从一个简单的非分布式训练任务开始,最终完成跨集群中的多台机器部署训练任务。在此过程中,您还将学习如何使用 torchrun 实现容错的分布式训练。

该教程假设您对 PyTorch 模型训练有基本的了解。

运行代码

您需要多块 CUDA GPU 来运行教程代码。通常可以在拥有多块 GPU 的云实例上完成(教程使用了亚马逊 EC2 的 P3 实例,配备了4块 GPU)。

教程代码托管在这个 GitHub 仓库 中。克隆该仓库并跟随教程一起学习!

教程部分

  1. 简介(当前页面)

  2. DDP 是什么? 温和地介绍了 DDP 的底层原理

  3. 单节点多 GPU 训练 使用单机上的多块 GPU 训练模型

  4. 容错分布式训练 使用 torchrun 提高分布式训练任务的健壮性

  5. 多节点训练 使用多台机器上的多块 GPU 训练模型

  6. 使用 DDP 训练 GPT 模型 使用 DDP 训练 minGPT 模型的“真实场景”示例

文档

访问 PyTorch 的详细开发者文档

查看文档

教程

获取针对初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得问题的解答

查看资源