Libuv TCPStore 后端介绍¶

Created On: Jul 22, 2024 | Last Updated: Jul 24, 2024 | Last Verified: Nov 05, 2024

作者：Xilun Wu

备注

|编辑| 在 github 查看和编辑本教程。

What you will learn

什么是新的 TCPStore 后端
比较新的 libuv 后端与旧版后端
如何启用旧版后端

Prerequisites

PyTorch 2.4 或更高版本
阅读有关 TCPStore API 的信息。

介绍¶

最近，我们推出了一个使用 libuv 的新 TCPStore 服务器后端，这是一个用于异步 I/O 的第三方库。这个新的服务器后端旨在解决大规模分布式训练作业（例如拥有超过 1024 个等级）中的可扩展性和稳健性挑战。我们进行了系列基准测试，比较了 libuv 后端与旧版后端，实验结果显示状态初始化时间大幅改善，同时在状态 I/O 操作中保持了可比性能。

基于这些发现，libuv 后端已在 PyTorch 2.4 中设置为默认 TCPStore 服务器后端。此更改预计将提高分布式训练作业的性能和可扩展性。

此更改对状态初始化引入了轻微的不兼容性。对于希望继续使用旧版后端的用户，本教程将提供如何指定使用旧版 TCPStore 服务器后端的指南。

性能基准¶

为了更好地说明我们的新 libuv TCPStore 后端的优势，我们设置了一个覆盖从 1024 (1K) 到 98304 (96K) 等级的广泛范围的基准。我们首先使用以下代码片段测量了 TCPStore 的初始化时间：

import logging
import os

from time import perf_counter

import torch
import torch.distributed as dist

logger: logging.Logger = logging.getLogger(__name__)

# Env var are preset when launching the benchmark
env_rank = os.environ.get("RANK", 0)
env_world_size = os.environ.get("WORLD_SIZE", 1)
env_master_addr = os.environ.get("MASTER_ADDR", "localhost")
env_master_port = os.environ.get("MASTER_PORT", "23456")

start = perf_counter()
tcp_store = dist.TCPStore(
    env_master_addr,
    int(env_master_port),
    world_size=int(env_world_size),
    is_master=(int(env_rank) == 0),
)
end = perf_counter()
time_elapsed = end - start
logger.info(
    f"Complete TCPStore init with rank={env_rank}, world_size={env_world_size} in {time_elapsed} seconds."
)

由于 TCPStore 服务器线程的执行将被阻塞，直到所有客户端成功连接，我们测量了 0 号等级上的时间并作为总的 TCPStore 初始化运行时间。实验数据如图所示：

图1 显示了一些显著证据表明 libuv 后端优于旧版后端：

使用 libuv 后端的 TCPStore 总是比旧版后端初始化更快，特别是在超大规模时。
旧版后端在 96K 规模时服务器与客户端连接可能会超时（例如，超过30分钟），而 libuv 后端在 100 秒内完成了初始化。

我们做的第二个基准测试是测量 TCPStore 的 store_based_barrier 操作运行时间：

import logging
import os
import time

from datetime import timedelta
from time import perf_counter

import torch
import torch.distributed as dist

DistStoreError = torch._C._DistStoreError
logger: logging.Logger = logging.getLogger(__name__)

# since dist._store_based_barrier is a private function and cannot be directly called, we need to write a function which does the same
def store_based_barrier(
    rank,
    store,
    group_name,
    rendezvous_count,
    timeout=dist.constants.default_pg_timeout,
    logging_interval=timedelta(seconds=10),
):
    store_key = f"store_based_barrier_key:{group_name}"
    store.add(store_key, 1)

    world_size = rendezvous_count
    worker_count = store.add(store_key, 0)

    last_worker_key = f"{store_key}:last_worker"
    if worker_count == world_size:
        store.set(last_worker_key, "1")

    start = time.time()
    while True:
        try:
            # This will throw an exception after the logging_interval in which we print out
            # the status of the group or time out officially, throwing runtime error
            store.wait([last_worker_key], logging_interval)
            break
        except RuntimeError as e:
            worker_count = store.add(store_key, 0)
            # Print status periodically to keep track.
            logger.info(
                "Waiting in store based barrier to initialize process group for "
                "rank: %s, key: %s (world_size=%s, num_workers_joined=%s, timeout=%s)"
                "error: %s",
                rank,
                store_key,
                world_size,
                worker_count,
                timeout,
                e,
            )

            if timedelta(seconds=(time.time() - start)) > timeout:
                raise DistStoreError(
                    "Timed out initializing process group in store based barrier on "
                    "rank {}, for key: {} (world_size={}, num_workers_joined={}, timeout={})".format(
                        rank, store_key, world_size, worker_count, timeout
                    )
                )

    logger.info(
        "Rank %s: Completed store-based barrier for key:%s with %s nodes.",
        rank,
        store_key,
        world_size,
    )

# Env var are preset when launching the benchmark
env_rank = os.environ.get("RANK", 0)
env_world_size = os.environ.get("WORLD_SIZE", 1)
env_master_addr = os.environ.get("MASTER_ADDR", "localhost")
env_master_port = os.environ.get("MASTER_PORT", "23456")

tcp_store = dist.TCPStore(
    env_master_addr,
    int(env_master_port),
    world_size=int(env_world_size),
    is_master=(int(env_rank) == 0),
)

# sync workers
store_based_barrier(int(env_rank), tcp_store, "tcpstore_test", int(env_world_size))

number_runs = 10
start = perf_counter()
for _ in range(number_runs):
    store_based_barrier(
        int(env_rank), tcp_store, "tcpstore_test", int(env_world_size)
    )
end = perf_counter()
time_elapsed = end - start
logger.info(
    f"Complete {number_runs} TCPStore barrier runs with rank={env_rank}, world_size={env_world_size} in {time_elapsed} seconds."
)

我们通过将 0 号等级上的运行时间除以 number_runs 来计算平均值，并报告在图中：

图2 显示了 libuv 后端的 I/O 性能与旧版后端可比：

libuv 后端在等级数量方面的整体表现是可比的
随着等级数量的增加，libuv 后端的运行时间比旧版后端更稳定

影响¶

用户需要注意的是，使用 libuv 后端时，TCPStore 当前不支持通过 listen_fd 初始化。如果用户想继续使用此初始化方法，可以简单地传递 use_libuv=False 来继续使用旧版 TCPStore 后端。

import socket

import torch
import torch.distributed as dist

listen_sock: socket.socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
listen_sock.bind(("localhost", 0))
addr, port, *_ = listen_sock.getsockname()
listen_fd = listen_sock.detach()

tcpstore = dist.TCPStore(addr, port, 1, True, master_listen_fd=listen_fd)  # expect NotImplementedError
tcpstore = dist.TCPStore(addr, port, 1, True, master_listen_fd=listen_fd, use_libuv=False)  # OK. Use legacy backend

解决方案1：向 TCPStore 初始化传递 `use_libuv=False`¶

如上代码片段所示，如果用户调用 TCPStore 初始化方法创建状态，只需传递 use_libuv=False 就可以让用户保持使用旧版 TCPStore 后端。此覆盖方式的优先级最高。

解决方案2：在 ProcessGroup 初始化时向 `init_method` 添加 `use_libuv=0`¶

如果用户在初始化 ProcessGroup 时没有明确传递 TCPStore，ProcessGroup 会创建一个 TCPStore。用户可以在初始化 ProcessGroup 时向 init_method 添加查询选项 use_libuv=0。此方法优先级低于解决方案1。

import torch
import torch.distributed as dist

addr = "localhost"
port = 23456
dist.init_process_group(
    backend="cpu:gloo,cuda:nccl",
    rank=0,
    world_size=1,
    init_method=f"tcp://{addr}:{port}?use_libuv=0",
)
dist.destroy_process_group()

解决方案3：设置环境变量 `USE_LIBUV` 为 `0`¶

当 ProcessGroup 创建 TCPStore 时，它还会检查环境变量 USE_LIBUV 来决定使用哪个 TCPStore 后端。用户可以将环境变量 "USE_LIBUV" 设置为 "0" 以指定使用旧的 TCPStore 后端。此方法的优先级低于退出路径 2，例如，如果用户将环境变量 USE_LIBUV 设置为 1 同时在 init_method 中传递 use_libuv=0，那么旧的存储后端将被选择。

import os

import torch
import torch.distributed as dist

addr = "localhost"
port = 23456
os.environ["USE_LIBUV"] = "0"
dist.init_process_group(
    backend="cpu:gloo,cuda:nccl",
    rank=0,
    world_size=1,
    init_method=f"tcp://{addr}:{port}",
)
dist.destroy_process_group()

结论¶

在 PyTorch 2.4 中，我们将新的 libuv TCPStore 后端设置为默认值。尽管新的后端无法从 listen_fd 初始化，但它在大规模存储初始化上表现出显著的性能提升，并在小/中/大规模存储 I/O 上具有兼容的性能，这为分布式训练的控制平面带来了重大益处。本教程解释了我们的动机，回顾了性能基准测试，通知用户潜在影响，并介绍了三种继续使用旧版后端的退出路径。从长远来看，我们的目标是最终弃用旧版后端。

Libuv TCPStore 后端介绍¶

介绍¶

性能基准¶

影响¶

解决方案1：向 TCPStore 初始化传递 `use_libuv=False`¶

解决方案2：在 ProcessGroup 初始化时向 `init_method` 添加 `use_libuv=0`¶

解决方案3：设置环境变量 `USE_LIBUV` 为 `0`¶

结论¶

文档

教程

资源

Libuv TCPStore 后端介绍¶

介绍¶

性能基准¶

影响¶

解决方案1：向 TCPStore 初始化传递 use_libuv=False¶

解决方案2：在 ProcessGroup 初始化时向 init_method 添加 use_libuv=0¶

解决方案3：设置环境变量 USE_LIBUV 为 0¶

结论¶

文档

教程

资源

解决方案1：向 TCPStore 初始化传递 `use_libuv=False`¶

解决方案2：在 ProcessGroup 初始化时向 `init_method` 添加 `use_libuv=0`¶

解决方案3：设置环境变量 `USE_LIBUV` 为 `0`¶