test/distributed/test_nccl.py

*da0073e9SAndroid Build Coastguard Worker# Owner(s): ["oncall: distributed"]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport re
*da0073e9SAndroid Build Coastguard Workerimport sys
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport torch
*da0073e9SAndroid Build Coastguard Workerimport torch.cuda
*da0073e9SAndroid Build Coastguard Workerimport torch.cuda.nccl as nccl
*da0073e9SAndroid Build Coastguard Workerimport torch.distributed as c10d
*da0073e9SAndroid Build Coastguard Workerfrom torch.testing._internal.common_cuda import TEST_CUDA, TEST_MULTIGPU
*da0073e9SAndroid Build Coastguard Workerfrom torch.testing._internal.common_device_type import (
*da0073e9SAndroid Build Coastguard Worker    dtypes,
*da0073e9SAndroid Build Coastguard Worker    instantiate_device_type_tests,
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard Workerfrom torch.testing._internal.common_utils import (
*da0073e9SAndroid Build Coastguard Worker    IS_WINDOWS,
*da0073e9SAndroid Build Coastguard Worker    load_tests,
*da0073e9SAndroid Build Coastguard Worker    NoTest,
*da0073e9SAndroid Build Coastguard Worker    run_tests,
*da0073e9SAndroid Build Coastguard Worker    skip_but_pass_in_sandcastle_if,
*da0073e9SAndroid Build Coastguard Worker    TEST_WITH_ROCM,
*da0073e9SAndroid Build Coastguard Worker    TestCase,
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerHIP_VERSION = (
*da0073e9SAndroid Build Coastguard Worker    0.0
*da0073e9SAndroid Build Coastguard Worker    if torch.version.hip is None
*da0073e9SAndroid Build Coastguard Worker    else float(re.search(r"^\d+\.\d+", torch.version.hip)[0])
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker# load_tests from common_utils is used to automatically filter tests for
*da0073e9SAndroid Build Coastguard Worker# sharding on sandcastle. This line silences flake warnings
*da0073e9SAndroid Build Coastguard Workerload_tests = load_tests
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkernGPUs = torch.cuda.device_count()
*da0073e9SAndroid Build Coastguard Workerif not TEST_CUDA:
*da0073e9SAndroid Build Coastguard Worker    print("CUDA not available, skipping tests", file=sys.stderr)
*da0073e9SAndroid Build Coastguard Worker    TestCase = NoTest  # noqa: F811
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdatatypes = [torch.float]
*da0073e9SAndroid Build Coastguard Workerif (
*da0073e9SAndroid Build Coastguard Worker    TEST_CUDA and c10d.is_nccl_available() and nccl.version() >= (2, 10)
*da0073e9SAndroid Build Coastguard Worker) or TEST_WITH_ROCM:
*da0073e9SAndroid Build Coastguard Worker    datatypes.append(torch.bfloat16)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass TestNCCL(TestCase):
*da0073e9SAndroid Build Coastguard Worker    @skip_but_pass_in_sandcastle_if(IS_WINDOWS, "NCCL doesn't support Windows")
*da0073e9SAndroid Build Coastguard Worker    def test_unique_id(self, device):
*da0073e9SAndroid Build Coastguard Worker        uid = nccl.unique_id()
*da0073e9SAndroid Build Coastguard Worker        self.assertIsInstance(uid, bytes)
*da0073e9SAndroid Build Coastguard Worker        self.assertGreater(len(uid), 1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skip_but_pass_in_sandcastle_if(
*da0073e9SAndroid Build Coastguard Worker        TEST_WITH_ROCM and HIP_VERSION < 3.5, "Skip NCCL tests for ROCm"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @skip_but_pass_in_sandcastle_if(IS_WINDOWS, "NCCL doesn't support Windows")
*da0073e9SAndroid Build Coastguard Worker    @skip_but_pass_in_sandcastle_if(not TEST_MULTIGPU, "only one GPU detected")
*da0073e9SAndroid Build Coastguard Worker    @dtypes(*datatypes)
*da0073e9SAndroid Build Coastguard Worker    def test_broadcast(self, device, dtype):
*da0073e9SAndroid Build Coastguard Worker        expected = torch.zeros(128).uniform_().to(dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        tensors = [expected.cuda()]
*da0073e9SAndroid Build Coastguard Worker        for device in range(1, torch.cuda.device_count()):
*da0073e9SAndroid Build Coastguard Worker            tensors.append(torch.zeros(128, dtype=dtype, device=device))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        nccl.broadcast(tensors)
*da0073e9SAndroid Build Coastguard Worker        for i in range(torch.cuda.device_count()):
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(tensors[i], expected)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Test with tuple
*da0073e9SAndroid Build Coastguard Worker        tensors = [expected.cuda()]
*da0073e9SAndroid Build Coastguard Worker        for device in range(1, torch.cuda.device_count()):
*da0073e9SAndroid Build Coastguard Worker            tensors.append(torch.zeros(128, dtype=dtype, device=device))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        nccl.broadcast(tuple(tensors))
*da0073e9SAndroid Build Coastguard Worker        for i in range(torch.cuda.device_count()):
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(tensors[i], expected)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skip_but_pass_in_sandcastle_if(
*da0073e9SAndroid Build Coastguard Worker        TEST_WITH_ROCM and HIP_VERSION < 3.5, "Skip NCCL tests for ROCm"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @skip_but_pass_in_sandcastle_if(IS_WINDOWS, "NCCL doesn't support Windows")
*da0073e9SAndroid Build Coastguard Worker    @skip_but_pass_in_sandcastle_if(not TEST_MULTIGPU, "only one GPU detected")
*da0073e9SAndroid Build Coastguard Worker    @dtypes(*datatypes)
*da0073e9SAndroid Build Coastguard Worker    def test_reduce(self, device, dtype):
*da0073e9SAndroid Build Coastguard Worker        cpu_tensors = [
*da0073e9SAndroid Build Coastguard Worker            torch.zeros(128).uniform_().to(dtype=dtype) for i in range(nGPUs)
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker        expected = torch.zeros(128, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        for t in cpu_tensors:
*da0073e9SAndroid Build Coastguard Worker            expected.add_(t)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        tensors = [cpu_tensors[i].cuda(i) for i in range(nGPUs)]
*da0073e9SAndroid Build Coastguard Worker        nccl.reduce(tensors)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(tensors[0], expected)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Test with tuple
*da0073e9SAndroid Build Coastguard Worker        tensors = [cpu_tensors[i].cuda(i) for i in range(nGPUs)]
*da0073e9SAndroid Build Coastguard Worker        nccl.reduce(tuple(tensors))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(tensors[0], expected)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skip_but_pass_in_sandcastle_if(IS_WINDOWS, "NCCL doesn't support Windows")
*da0073e9SAndroid Build Coastguard Worker    @skip_but_pass_in_sandcastle_if(not TEST_MULTIGPU, "only one GPU detected")
*da0073e9SAndroid Build Coastguard Worker    @skip_but_pass_in_sandcastle_if(
*da0073e9SAndroid Build Coastguard Worker        TEST_WITH_ROCM and HIP_VERSION < 3.5 and dtype == torch.bfloat16,  # noqa: F821
*da0073e9SAndroid Build Coastguard Worker        "Skip bfloat16 test for ROCm < 3.5",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @dtypes(*datatypes)
*da0073e9SAndroid Build Coastguard Worker    def test_all_reduce(self, device, dtype):
*da0073e9SAndroid Build Coastguard Worker        cpu_tensors = [
*da0073e9SAndroid Build Coastguard Worker            torch.zeros(128).uniform_().to(dtype=dtype) for i in range(nGPUs)
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker        expected = torch.zeros(128, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        for t in cpu_tensors:
*da0073e9SAndroid Build Coastguard Worker            expected.add_(t)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        tensors = [cpu_tensors[i].cuda(i) for i in range(nGPUs)]
*da0073e9SAndroid Build Coastguard Worker        nccl.all_reduce(tensors)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for tensor in tensors:
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(tensor, expected)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Test with tuple.
*da0073e9SAndroid Build Coastguard Worker        tensors = tuple(cpu_tensors[i].cuda(i) for i in range(nGPUs))
*da0073e9SAndroid Build Coastguard Worker        nccl.all_reduce(tensors)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for tensor in tensors:
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(tensor, expected)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Test with set.
*da0073e9SAndroid Build Coastguard Worker        tensors = {cpu_tensors[i].cuda(i) for i in range(nGPUs)}
*da0073e9SAndroid Build Coastguard Worker        nccl.all_reduce(tensors)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for tensor in tensors:
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(tensor, expected)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skip_but_pass_in_sandcastle_if(
*da0073e9SAndroid Build Coastguard Worker        TEST_WITH_ROCM and HIP_VERSION < 3.5, "Skip NCCL tests for ROCm"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @skip_but_pass_in_sandcastle_if(IS_WINDOWS, "NCCL doesn't support Windows")
*da0073e9SAndroid Build Coastguard Worker    def test_collective_errors(self, device):
*da0073e9SAndroid Build Coastguard Worker        t = torch.rand(10).cuda(0)
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(
*da0073e9SAndroid Build Coastguard Worker            TypeError, "Inputs should be a collection of tensors"
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            nccl.all_reduce(t)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(
*da0073e9SAndroid Build Coastguard Worker            TypeError, "Inputs should be a collection of tensors"
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            nccl.reduce(t)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(
*da0073e9SAndroid Build Coastguard Worker            TypeError, "Inputs should be a collection of tensors"
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            nccl.broadcast(t)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(
*da0073e9SAndroid Build Coastguard Worker            TypeError, "Inputs should be a collection of tensors"
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            nccl.all_gather(t, t)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(
*da0073e9SAndroid Build Coastguard Worker            TypeError, "Inputs should be a collection of tensors"
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            nccl.reduce_scatter(t, t)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skip_but_pass_in_sandcastle_if(
*da0073e9SAndroid Build Coastguard Worker        TEST_WITH_ROCM and HIP_VERSION < 3.5, "Skip NCCL tests for ROCm"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @skip_but_pass_in_sandcastle_if(IS_WINDOWS, "NCCL doesn't support Windows")
*da0073e9SAndroid Build Coastguard Worker    @skip_but_pass_in_sandcastle_if(not TEST_MULTIGPU, "only one GPU detected")
*da0073e9SAndroid Build Coastguard Worker    @dtypes(*datatypes)
*da0073e9SAndroid Build Coastguard Worker    def test_all_gather(self, device, dtype):
*da0073e9SAndroid Build Coastguard Worker        cpu_inputs = [torch.zeros(128).uniform_().to(dtype=dtype) for i in range(nGPUs)]
*da0073e9SAndroid Build Coastguard Worker        expected = torch.cat(cpu_inputs, 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        inputs = [cpu_inputs[i].cuda(i) for i in range(nGPUs)]
*da0073e9SAndroid Build Coastguard Worker        outputs = [
*da0073e9SAndroid Build Coastguard Worker            torch.zeros(128 * nGPUs, device=i, dtype=dtype) for i in range(nGPUs)
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker        nccl.all_gather(inputs, outputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for tensor in outputs:
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(tensor, expected)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Test with tuple.
*da0073e9SAndroid Build Coastguard Worker        inputs = [cpu_inputs[i].cuda(i) for i in range(nGPUs)]
*da0073e9SAndroid Build Coastguard Worker        outputs = [
*da0073e9SAndroid Build Coastguard Worker            torch.zeros(128 * nGPUs, device=i, dtype=dtype) for i in range(nGPUs)
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker        nccl.all_gather(tuple(inputs), tuple(outputs))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for tensor in outputs:
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(tensor, expected)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skip_but_pass_in_sandcastle_if(
*da0073e9SAndroid Build Coastguard Worker        TEST_WITH_ROCM and HIP_VERSION < 3.5, "Skip NCCL tests for ROCm"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @skip_but_pass_in_sandcastle_if(IS_WINDOWS, "NCCL doesn't support Windows")
*da0073e9SAndroid Build Coastguard Worker    @skip_but_pass_in_sandcastle_if(not TEST_MULTIGPU, "only one GPU detected")
*da0073e9SAndroid Build Coastguard Worker    @dtypes(*datatypes)
*da0073e9SAndroid Build Coastguard Worker    def test_reduce_scatter(self, device, dtype):
*da0073e9SAndroid Build Coastguard Worker        in_size = 32 * nGPUs
*da0073e9SAndroid Build Coastguard Worker        out_size = 32
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        cpu_inputs = [
*da0073e9SAndroid Build Coastguard Worker            torch.zeros(in_size).uniform_().to(dtype=dtype) for i in range(nGPUs)
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker        expected = torch.zeros(in_size, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        for t in cpu_inputs:
*da0073e9SAndroid Build Coastguard Worker            expected.add_(t)
*da0073e9SAndroid Build Coastguard Worker        expected = expected.view(nGPUs, 32)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        inputs = [cpu_inputs[i].cuda(i) for i in range(nGPUs)]
*da0073e9SAndroid Build Coastguard Worker        outputs = [torch.zeros(out_size, device=i, dtype=dtype) for i in range(nGPUs)]
*da0073e9SAndroid Build Coastguard Worker        nccl.reduce_scatter(inputs, outputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for i in range(nGPUs):
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(outputs[i], expected[i])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Test with tuple
*da0073e9SAndroid Build Coastguard Worker        inputs = [cpu_inputs[i].cuda(i) for i in range(nGPUs)]
*da0073e9SAndroid Build Coastguard Worker        outputs = [torch.zeros(out_size, device=i, dtype=dtype) for i in range(nGPUs)]
*da0073e9SAndroid Build Coastguard Worker        nccl.reduce_scatter(tuple(inputs), tuple(outputs))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for i in range(nGPUs):
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(outputs[i], expected[i])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerinstantiate_device_type_tests(TestNCCL, globals(), only_for="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerif __name__ == "__main__":
*da0073e9SAndroid Build Coastguard Worker    run_tests()