pytorch/test/test_cuda.py

*da0073e9SAndroid Build Coastguard Worker# Owner(s): ["module: cuda"]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport contextlib
*da0073e9SAndroid Build Coastguard Workerimport ctypes
*da0073e9SAndroid Build Coastguard Workerimport gc
*da0073e9SAndroid Build Coastguard Workerimport json
*da0073e9SAndroid Build Coastguard Workerimport os
*da0073e9SAndroid Build Coastguard Workerimport pickle
*da0073e9SAndroid Build Coastguard Workerimport random
*da0073e9SAndroid Build Coastguard Workerimport subprocess
*da0073e9SAndroid Build Coastguard Workerimport sys
*da0073e9SAndroid Build Coastguard Workerimport tempfile
*da0073e9SAndroid Build Coastguard Workerimport threading
*da0073e9SAndroid Build Coastguard Workerimport unittest
*da0073e9SAndroid Build Coastguard Workerimport warnings
*da0073e9SAndroid Build Coastguard Workerfrom copy import deepcopy
*da0073e9SAndroid Build Coastguard Workerfrom itertools import product
*da0073e9SAndroid Build Coastguard Workerfrom random import randint
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport psutil
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport torch
*da0073e9SAndroid Build Coastguard Workerimport torch.cuda
*da0073e9SAndroid Build Coastguard Workerfrom torch import inf, nan
*da0073e9SAndroid Build Coastguard Workerfrom torch.cuda._memory_viz import (
*da0073e9SAndroid Build Coastguard Worker    _profile_to_snapshot,
*da0073e9SAndroid Build Coastguard Worker    profile_plot,
*da0073e9SAndroid Build Coastguard Worker    segment_plot,
*da0073e9SAndroid Build Coastguard Worker    trace_plot,
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard Workerfrom torch.testing._internal.autocast_test_lists import AutocastTestLists, TestAutocast
*da0073e9SAndroid Build Coastguard Workerfrom torch.testing._internal.common_cuda import (
*da0073e9SAndroid Build Coastguard Worker    _create_scaling_case,
*da0073e9SAndroid Build Coastguard Worker    _get_torch_cuda_version,
*da0073e9SAndroid Build Coastguard Worker    TEST_CUDNN,
*da0073e9SAndroid Build Coastguard Worker    TEST_MULTIGPU,
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard Workerfrom torch.testing._internal.common_device_type import (
*da0073e9SAndroid Build Coastguard Worker    instantiate_device_type_tests,
*da0073e9SAndroid Build Coastguard Worker    onlyCUDA,
*da0073e9SAndroid Build Coastguard Worker    onlyNativeDeviceTypes,
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard Workerfrom torch.testing._internal.common_optimizers import (
*da0073e9SAndroid Build Coastguard Worker    _get_optim_inputs_including_global_cliquey_kwargs,
*da0073e9SAndroid Build Coastguard Worker    optim_db,
*da0073e9SAndroid Build Coastguard Worker    optims,
*da0073e9SAndroid Build Coastguard Worker    TensorTracker,
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard Workerfrom torch.testing._internal.common_utils import (
*da0073e9SAndroid Build Coastguard Worker    EXPANDABLE_SEGMENTS,
*da0073e9SAndroid Build Coastguard Worker    freeze_rng_state,
*da0073e9SAndroid Build Coastguard Worker    gcIfJetson,
*da0073e9SAndroid Build Coastguard Worker    get_cycles_per_ms,
*da0073e9SAndroid Build Coastguard Worker    instantiate_parametrized_tests,
*da0073e9SAndroid Build Coastguard Worker    IS_ARM64,
*da0073e9SAndroid Build Coastguard Worker    IS_FBCODE,
*da0073e9SAndroid Build Coastguard Worker    IS_JETSON,
*da0073e9SAndroid Build Coastguard Worker    IS_LINUX,
*da0073e9SAndroid Build Coastguard Worker    IS_SANDCASTLE,
*da0073e9SAndroid Build Coastguard Worker    IS_WINDOWS,
*da0073e9SAndroid Build Coastguard Worker    load_tests,
*da0073e9SAndroid Build Coastguard Worker    NO_MULTIPROCESSING_SPAWN,
*da0073e9SAndroid Build Coastguard Worker    parametrize,
*da0073e9SAndroid Build Coastguard Worker    run_tests,
*da0073e9SAndroid Build Coastguard Worker    serialTest,
*da0073e9SAndroid Build Coastguard Worker    skipCUDAMemoryLeakCheckIf,
*da0073e9SAndroid Build Coastguard Worker    skipCUDANonDefaultStreamIf,
*da0073e9SAndroid Build Coastguard Worker    skipIfRocm,
*da0073e9SAndroid Build Coastguard Worker    slowTest,
*da0073e9SAndroid Build Coastguard Worker    subtest,
*da0073e9SAndroid Build Coastguard Worker    TemporaryFileName,
*da0073e9SAndroid Build Coastguard Worker    TEST_CUDA,
*da0073e9SAndroid Build Coastguard Worker    TEST_CUDA_GRAPH,
*da0073e9SAndroid Build Coastguard Worker    TEST_NUMPY,
*da0073e9SAndroid Build Coastguard Worker    TEST_WITH_ROCM,
*da0073e9SAndroid Build Coastguard Worker    TestCase,
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard Workerfrom torch.utils.checkpoint import checkpoint_sequential
*da0073e9SAndroid Build Coastguard Workerfrom torch.utils.viz._cycles import observe_tensor_cycles
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker# load_tests from common_utils is used to automatically filter tests for
*da0073e9SAndroid Build Coastguard Worker# sharding on sandcastle. This line silences flake warnings
*da0073e9SAndroid Build Coastguard Workerload_tests = load_tests
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertry:
*da0073e9SAndroid Build Coastguard Worker    import torchvision.models  # noqa: F401
*da0073e9SAndroid Build Coastguard Worker    from torchvision.models import resnet18  # noqa: F401
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    HAS_TORCHVISION = True
*da0073e9SAndroid Build Coastguard Workerexcept ImportError:
*da0073e9SAndroid Build Coastguard Worker    HAS_TORCHVISION = False
*da0073e9SAndroid Build Coastguard WorkerskipIfNoTorchVision = unittest.skipIf(not HAS_TORCHVISION, "no torchvision")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTEST_CUDAMALLOCASYNC = TEST_CUDA and (
*da0073e9SAndroid Build Coastguard Worker    torch.cuda.get_allocator_backend() == "cudaMallocAsync"
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard WorkerTEST_LARGE_TENSOR = TEST_CUDA
*da0073e9SAndroid Build Coastguard WorkerTEST_MEDIUM_TENSOR = TEST_CUDA
*da0073e9SAndroid Build Coastguard WorkerTEST_BF16 = False
*da0073e9SAndroid Build Coastguard WorkerTEST_PYNVML = not torch.cuda._HAS_PYNVML
*da0073e9SAndroid Build Coastguard Workerif TEST_CUDA:
*da0073e9SAndroid Build Coastguard Worker    TEST_LARGE_TENSOR = torch.cuda.get_device_properties(0).total_memory >= 12e9
*da0073e9SAndroid Build Coastguard Worker    TEST_MEDIUM_TENSOR = torch.cuda.get_device_properties(0).total_memory >= 6e9
*da0073e9SAndroid Build Coastguard Worker    TEST_BF16 = torch.cuda.is_bf16_supported()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker_cycles_per_ms = None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker@unittest.skipIf(not TEST_CUDA, "CUDA not available, skipping tests")
*da0073e9SAndroid Build Coastguard Worker@torch.testing._internal.common_utils.markDynamoStrictTest
*da0073e9SAndroid Build Coastguard Workerclass TestCuda(TestCase):
*da0073e9SAndroid Build Coastguard Worker    _do_cuda_memory_leak_check = True
*da0073e9SAndroid Build Coastguard Worker    _do_cuda_non_default_stream = True
*da0073e9SAndroid Build Coastguard Worker    FIFTY_MIL_CYCLES = 50000000
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def setUp(self):
*da0073e9SAndroid Build Coastguard Worker        super().setUp()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def tearDown(self):
*da0073e9SAndroid Build Coastguard Worker        super().tearDown()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def expandable_segments(self):
*da0073e9SAndroid Build Coastguard Worker        return EXPANDABLE_SEGMENTS
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_pinned_memory_with_cudaregister(self):
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.memory._set_allocator_settings(
*da0073e9SAndroid Build Coastguard Worker            "pinned_use_cuda_host_register:True,pinned_num_register_threads:8"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        t = torch.ones(20)
*da0073e9SAndroid Build Coastguard Worker        self.assertFalse(t.is_pinned())
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            pinned_t = torch.ones(1 << 21).pin_memory()
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(pinned_t.is_pinned())
*da0073e9SAndroid Build Coastguard Worker            pinned_t = torch.ones(1 << 24).pin_memory()
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(pinned_t.is_pinned())
*da0073e9SAndroid Build Coastguard Worker        except RuntimeError as e:
*da0073e9SAndroid Build Coastguard Worker            # Some GPUs don't support same address space on host and device side
*da0073e9SAndroid Build Coastguard Worker            pass
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_pinned_memory_with_cudaregister_multithread(self):
*da0073e9SAndroid Build Coastguard Worker        num_threads = 4
*da0073e9SAndroid Build Coastguard Worker        threads = [
*da0073e9SAndroid Build Coastguard Worker            threading.Thread(target=self.test_pinned_memory_with_cudaregister)
*da0073e9SAndroid Build Coastguard Worker            for t in range(num_threads)
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker        for thread in threads:
*da0073e9SAndroid Build Coastguard Worker            thread.start()
*da0073e9SAndroid Build Coastguard Worker        for thread in threads:
*da0073e9SAndroid Build Coastguard Worker            thread.join()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_pinned_memory_empty_cache(self):
*da0073e9SAndroid Build Coastguard Worker        for alloc_settings in (True, False):
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory._set_allocator_settings(
*da0073e9SAndroid Build Coastguard Worker                f"pinned_use_cuda_host_register:{alloc_settings}"
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                t = torch.ones(1024 * 1024, pin_memory=True)
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(t.is_pinned())
*da0073e9SAndroid Build Coastguard Worker                del t
*da0073e9SAndroid Build Coastguard Worker                torch._C._host_emptyCache()
*da0073e9SAndroid Build Coastguard Worker            except RuntimeError as e:
*da0073e9SAndroid Build Coastguard Worker                # Some GPUs don't support same address space on host and device side
*da0073e9SAndroid Build Coastguard Worker                pass
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_cudart_register(self):
*da0073e9SAndroid Build Coastguard Worker        t = torch.ones(20)
*da0073e9SAndroid Build Coastguard Worker        self.assertFalse(t.is_pinned())
*da0073e9SAndroid Build Coastguard Worker        cudart = torch.cuda.cudart()
*da0073e9SAndroid Build Coastguard Worker        r = cudart.cudaHostRegister(t.data_ptr(), t.numel() * t.element_size(), 0)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(r, 0)
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(t.is_pinned())
*da0073e9SAndroid Build Coastguard Worker        r = cudart.cudaHostUnregister(t.data_ptr())
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(r, 0)
*da0073e9SAndroid Build Coastguard Worker        self.assertFalse(t.is_pinned())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_memory_allocation(self):
*da0073e9SAndroid Build Coastguard Worker        gc.collect()
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker        mem = None
*da0073e9SAndroid Build Coastguard Worker        size = 1
*da0073e9SAndroid Build Coastguard Worker        prev = 0
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            prev = torch.cuda.memory_allocated()
*da0073e9SAndroid Build Coastguard Worker            mem = torch.cuda.caching_allocator_alloc(size)
*da0073e9SAndroid Build Coastguard Worker            self.assertGreater(torch.cuda.memory_allocated(), prev)
*da0073e9SAndroid Build Coastguard Worker        finally:
*da0073e9SAndroid Build Coastguard Worker            if mem is not None:
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.caching_allocator_delete(mem)
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(torch.cuda.memory_allocated(), prev)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_check_error(self):
*da0073e9SAndroid Build Coastguard Worker        # Assert this call doesn't raise.
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.check_error(0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.CudaError, "out of memory|hipErrorOutOfMemory"
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.check_error(2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_cuda_get_device_name(self):
*da0073e9SAndroid Build Coastguard Worker        # Testing the behaviour with None as an argument
*da0073e9SAndroid Build Coastguard Worker        current_device = torch.cuda.current_device()
*da0073e9SAndroid Build Coastguard Worker        current_device_name = torch.cuda.get_device_name(current_device)
*da0073e9SAndroid Build Coastguard Worker        device_name_None = torch.cuda.get_device_name(None)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(current_device_name, device_name_None)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Testing the behaviour for No argument
*da0073e9SAndroid Build Coastguard Worker        device_name_no_argument = torch.cuda.get_device_name()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(current_device_name, device_name_no_argument)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_cuda_get_device_capability(self):
*da0073e9SAndroid Build Coastguard Worker        # Testing the behaviour with None as an argument
*da0073e9SAndroid Build Coastguard Worker        current_device = torch.cuda.current_device()
*da0073e9SAndroid Build Coastguard Worker        current_device_capability = torch.cuda.get_device_capability(current_device)
*da0073e9SAndroid Build Coastguard Worker        device_capability_None = torch.cuda.get_device_capability(None)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(current_device_capability, device_capability_None)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Testing the behaviour for No argument
*da0073e9SAndroid Build Coastguard Worker        device_capability_no_argument = torch.cuda.get_device_capability()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(current_device_capability, device_capability_no_argument)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_out_of_memory(self):
*da0073e9SAndroid Build Coastguard Worker        tensor = torch.zeros(1024, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        oom_regex = (
*da0073e9SAndroid Build Coastguard Worker            "would exceed allowed memory"
*da0073e9SAndroid Build Coastguard Worker            if TEST_CUDAMALLOCASYNC
*da0073e9SAndroid Build Coastguard Worker            else "Tried to allocate 800000000.00 GiB"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(RuntimeError, oom_regex):
*da0073e9SAndroid Build Coastguard Worker            torch.empty(1024 * 1024 * 1024 * 800000000, dtype=torch.int8, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(
*da0073e9SAndroid Build Coastguard Worker            RuntimeError, "Tried to allocate more than 1EB memory"
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            torch.empty(
*da0073e9SAndroid Build Coastguard Worker                1024 * 1024 * 1024 * 8000000000, dtype=torch.int8, device="cuda"
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # ensure out of memory error doesn't disturb subsequent kernel
*da0073e9SAndroid Build Coastguard Worker        tensor.fill_(1)
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue((tensor == 1).all())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        TEST_CUDAMALLOCASYNC or IS_JETSON, "Segmentation fault (core dumped)"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @serialTest()
*da0073e9SAndroid Build Coastguard Worker    def test_out_of_memory_retry(self):
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker        total_memory = torch.cuda.get_device_properties(0).total_memory
*da0073e9SAndroid Build Coastguard Worker        oom_regex = (
*da0073e9SAndroid Build Coastguard Worker            "would exceed allowed memory"
*da0073e9SAndroid Build Coastguard Worker            if TEST_CUDAMALLOCASYNC
*da0073e9SAndroid Build Coastguard Worker            else "Tried to allocate"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        size = int(total_memory * 0.5)
*da0073e9SAndroid Build Coastguard Worker        a = torch.empty(size, dtype=torch.int8, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(RuntimeError, oom_regex):
*da0073e9SAndroid Build Coastguard Worker            b = torch.empty(size, dtype=torch.int8, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        del a
*da0073e9SAndroid Build Coastguard Worker        b = torch.empty(size, dtype=torch.int8, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        del b
*da0073e9SAndroid Build Coastguard Worker        # We used a lot of memory here, clean up so we don't affect other tests too much
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.reset_peak_memory_stats()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @serialTest()
*da0073e9SAndroid Build Coastguard Worker    def test_set_per_process_memory_fraction(self):
*da0073e9SAndroid Build Coastguard Worker        # test invalid fraction value.
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(TypeError, "Invalid type"):
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.set_per_process_memory_fraction(1)
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(ValueError, "Invalid fraction value"):
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.set_per_process_memory_fraction(-0.1)
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(ValueError, "Invalid fraction value"):
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.set_per_process_memory_fraction(2.0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        tensor = torch.zeros(1024, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker        total_memory = torch.cuda.get_device_properties(0).total_memory
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.set_per_process_memory_fraction(0.5, 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # test 0.499 allocation is ok.
*da0073e9SAndroid Build Coastguard Worker        application = int(total_memory * 0.499) - torch.cuda.max_memory_reserved()
*da0073e9SAndroid Build Coastguard Worker        tmp_tensor = torch.empty(application, dtype=torch.int8, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        del tmp_tensor
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        application = int(total_memory * 0.5)
*da0073e9SAndroid Build Coastguard Worker        # it will get OOM when try to allocate more than half memory.
*da0073e9SAndroid Build Coastguard Worker        oom_regex = (
*da0073e9SAndroid Build Coastguard Worker            "would exceed allowed memory" if TEST_CUDAMALLOCASYNC else "out of memory"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(RuntimeError, oom_regex):
*da0073e9SAndroid Build Coastguard Worker            torch.empty(application, dtype=torch.int8, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # ensure out of memory error doesn't disturb subsequent kernel
*da0073e9SAndroid Build Coastguard Worker        tensor.fill_(1)
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue((tensor == 1).all())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(IS_FBCODE or IS_SANDCASTLE, "uuid attribute not yet available")
*da0073e9SAndroid Build Coastguard Worker    def test_uuid(self):
*da0073e9SAndroid Build Coastguard Worker        uuid = torch.cuda.get_device_properties(0).uuid
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(len(str(uuid)), 36)  # xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(len(uuid.bytes), 16)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_copy_non_blocking(self):
*da0073e9SAndroid Build Coastguard Worker        def _test_copy_non_blocking(a, b):
*da0073e9SAndroid Build Coastguard Worker            event = torch.cuda.Event()
*da0073e9SAndroid Build Coastguard Worker            a.copy_(b, non_blocking=True)
*da0073e9SAndroid Build Coastguard Worker            event.record()
*da0073e9SAndroid Build Coastguard Worker            event.synchronize()
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(a, b)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # 10MB copies
*da0073e9SAndroid Build Coastguard Worker        x = torch.ones(10000000, dtype=torch.uint8).cuda()
*da0073e9SAndroid Build Coastguard Worker        y = torch.zeros(10000000, dtype=torch.uint8).pin_memory()
*da0073e9SAndroid Build Coastguard Worker        _test_copy_non_blocking(x, y)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x = torch.zeros(10000000, dtype=torch.uint8).pin_memory()
*da0073e9SAndroid Build Coastguard Worker        y = torch.ones(10000000, dtype=torch.uint8).cuda()
*da0073e9SAndroid Build Coastguard Worker        _test_copy_non_blocking(x, y)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Test the case where the pinned data_ptr is not equal to the storage data_ptr.
*da0073e9SAndroid Build Coastguard Worker        x_base = torch.zeros(10000000, dtype=torch.uint8).pin_memory()
*da0073e9SAndroid Build Coastguard Worker        x = x_base[1:]
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(x.is_pinned())
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(x_base.is_pinned())
*da0073e9SAndroid Build Coastguard Worker        self.assertNotEqual(x_base.data_ptr(), x.data_ptr())
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x_base.storage().data_ptr(), x.storage().data_ptr())
*da0073e9SAndroid Build Coastguard Worker        y = torch.ones(10000000 - 1, dtype=torch.uint8).cuda()
*da0073e9SAndroid Build Coastguard Worker        _test_copy_non_blocking(x, y)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_copy_non_blocking_type_conversion(self):
*da0073e9SAndroid Build Coastguard Worker        a = torch.ones(1, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        b = torch.zeros(1, device="cpu", pin_memory=True)
*da0073e9SAndroid Build Coastguard Worker        c = torch.empty(1, device="cuda", dtype=torch.long)
*da0073e9SAndroid Build Coastguard Worker        torch.cuda._sleep(int(100 * get_cycles_per_ms()))
*da0073e9SAndroid Build Coastguard Worker        b.copy_(a, non_blocking=True)
*da0073e9SAndroid Build Coastguard Worker        c.copy_(b, non_blocking=True)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(a, c, exact_dtype=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @serialTest()
*da0073e9SAndroid Build Coastguard Worker    def test_to_non_blocking(self):
*da0073e9SAndroid Build Coastguard Worker        stream = torch.cuda.current_stream()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def _test_to_non_blocking(a, non_blocking, dst):
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker            # Pushes an 0.1 second spin to stream so if the copy is non blocking,
*da0073e9SAndroid Build Coastguard Worker            # stream will almost surely be active when we query().
*da0073e9SAndroid Build Coastguard Worker            torch.cuda._sleep(int(100 * get_cycles_per_ms()))
*da0073e9SAndroid Build Coastguard Worker            b = a.to(device=dst, non_blocking=non_blocking)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(stream.query(), not non_blocking)
*da0073e9SAndroid Build Coastguard Worker            stream.synchronize()
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(a, b)
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(b.is_pinned() == (non_blocking and dst == "cpu"))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for dst, try_non_blocking in product(("cuda", "cpu"), (True, False)):
*da0073e9SAndroid Build Coastguard Worker            # Creates source on the opposite device from destination.
*da0073e9SAndroid Build Coastguard Worker            src = torch.randn(
*da0073e9SAndroid Build Coastguard Worker                1000000,
*da0073e9SAndroid Build Coastguard Worker                device="cuda" if dst == "cpu" else "cpu",
*da0073e9SAndroid Build Coastguard Worker                pin_memory=True if dst == "cuda" else False,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            _test_to_non_blocking(src, try_non_blocking, dst)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_to_cpu_blocking_by_default(self):
*da0073e9SAndroid Build Coastguard Worker        src = torch.randn(1000000, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker        torch.cuda._sleep(int(100 * get_cycles_per_ms()))
*da0073e9SAndroid Build Coastguard Worker        dst = src.to(device="cpu")
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(torch.cuda.current_stream().query(), True)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(src, dst)
*da0073e9SAndroid Build Coastguard Worker        self.assertFalse(dst.is_pinned())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_serialization_array_with_storage(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(5, 5).cuda()
*da0073e9SAndroid Build Coastguard Worker        y = torch.IntTensor(2, 5).fill_(0).cuda()
*da0073e9SAndroid Build Coastguard Worker        q = [x, y, x, y.storage()]
*da0073e9SAndroid Build Coastguard Worker        with tempfile.NamedTemporaryFile() as f:
*da0073e9SAndroid Build Coastguard Worker            torch.save(q, f)
*da0073e9SAndroid Build Coastguard Worker            f.seek(0)
*da0073e9SAndroid Build Coastguard Worker            q_copy = torch.load(f)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(q_copy, q, atol=0, rtol=0)
*da0073e9SAndroid Build Coastguard Worker        q_copy[0].fill_(5)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(q_copy[0], q_copy[2], atol=0, rtol=0)
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(isinstance(q_copy[0], torch.cuda.FloatTensor))
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(isinstance(q_copy[1], torch.cuda.IntTensor))
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(isinstance(q_copy[2], torch.cuda.FloatTensor))
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(isinstance(q_copy[3], torch.storage.TypedStorage))
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(isinstance(q_copy[3]._untyped_storage, torch.UntypedStorage))
*da0073e9SAndroid Build Coastguard Worker        q_copy[1].fill_(10)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(q_copy[3], torch.cuda.IntStorage(10).fill_(10))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        TEST_CUDAMALLOCASYNC or TEST_WITH_ROCM, "temporarily disabled for async"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        _get_torch_cuda_version() >= (12, 2),
*da0073e9SAndroid Build Coastguard Worker        "skipped as explicit workspace allocation is removed",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_cublas_workspace_explicit_allocation(self):
*da0073e9SAndroid Build Coastguard Worker        a = torch.randn(7, 7, device="cuda", requires_grad=False)
*da0073e9SAndroid Build Coastguard Worker        default_workspace_size = 4096 * 2 * 1024 + 16 * 8 * 1024  # :4096:2:16:8
*da0073e9SAndroid Build Coastguard Worker        # different size (32 MiB) expected on Hopper GPU
*da0073e9SAndroid Build Coastguard Worker        if torch.cuda.get_device_capability() == (9, 0):
*da0073e9SAndroid Build Coastguard Worker            default_workspace_size = 4096 * 8 * 1024
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def check_workspace_size(inp):
*da0073e9SAndroid Build Coastguard Worker            torch._C._cuda_clearCublasWorkspaces()
*da0073e9SAndroid Build Coastguard Worker            start = torch.cuda.memory_stats()["active_bytes.all.allocated"]
*da0073e9SAndroid Build Coastguard Worker            with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker                torch.matmul(inp, inp)
*da0073e9SAndroid Build Coastguard Worker            finish = torch.cuda.memory_stats()["active_bytes.all.allocated"]
*da0073e9SAndroid Build Coastguard Worker            return finish - start
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # check default
*da0073e9SAndroid Build Coastguard Worker        os.environ["CUBLAS_WORKSPACE_CONFIG"] = ""
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(abs(check_workspace_size(a) - default_workspace_size) < 524288)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # check default with bad user config
*da0073e9SAndroid Build Coastguard Worker        os.environ["CUBLAS_WORKSPACE_CONFIG"] = "-1"
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(abs(check_workspace_size(a) - default_workspace_size) < 524288)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # check valid config
*da0073e9SAndroid Build Coastguard Worker        os.environ["CUBLAS_WORKSPACE_CONFIG"] = ":128:8:64:16:32:32"
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(abs(check_workspace_size(a) - (3072 * 1024)) < 524288)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch._C._cuda_clearCublasWorkspaces()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_cublas_allow_tf32_get_set(self):
*da0073e9SAndroid Build Coastguard Worker        skip_tf32_cublas = "TORCH_ALLOW_TF32_CUBLAS_OVERRIDE" in os.environ and int(
*da0073e9SAndroid Build Coastguard Worker            os.environ["TORCH_ALLOW_TF32_CUBLAS_OVERRIDE"]
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        if skip_tf32_cublas:
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(torch.backends.cuda.matmul.allow_tf32)
*da0073e9SAndroid Build Coastguard Worker            return
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        orig = torch.backends.cuda.matmul.allow_tf32
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(torch._C._get_cublas_allow_tf32(), orig)
*da0073e9SAndroid Build Coastguard Worker        torch.backends.cuda.matmul.allow_tf32 = not orig
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(torch._C._get_cublas_allow_tf32(), not orig)
*da0073e9SAndroid Build Coastguard Worker        torch.backends.cuda.matmul.allow_tf32 = orig
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_float32_matmul_precision_get_set(self):
*da0073e9SAndroid Build Coastguard Worker        orig = torch.get_float32_matmul_precision()
*da0073e9SAndroid Build Coastguard Worker        skip_tf32_cublas = "TORCH_ALLOW_TF32_CUBLAS_OVERRIDE" in os.environ and int(
*da0073e9SAndroid Build Coastguard Worker            os.environ["TORCH_ALLOW_TF32_CUBLAS_OVERRIDE"]
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        # this is really just checking that the environment variable is respected during testing
*da0073e9SAndroid Build Coastguard Worker        # and not overwritten by another function that doesn't revert it to the intitial value
*da0073e9SAndroid Build Coastguard Worker        if not skip_tf32_cublas:
*da0073e9SAndroid Build Coastguard Worker            self.assertFalse(torch.backends.cuda.matmul.allow_tf32)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(torch.get_float32_matmul_precision(), "highest")
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(torch.backends.cuda.matmul.allow_tf32)
*da0073e9SAndroid Build Coastguard Worker        for p in ("medium", "high"):
*da0073e9SAndroid Build Coastguard Worker            torch.set_float32_matmul_precision(p)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(torch.get_float32_matmul_precision(), p)
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(torch.backends.cuda.matmul.allow_tf32)
*da0073e9SAndroid Build Coastguard Worker        torch.set_float32_matmul_precision("highest")
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(torch.get_float32_matmul_precision(), "highest")
*da0073e9SAndroid Build Coastguard Worker        self.assertFalse(torch.backends.cuda.matmul.allow_tf32)
*da0073e9SAndroid Build Coastguard Worker        torch.set_float32_matmul_precision(orig)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_cublas_allow_fp16_reduced_precision_reduction_get_set(self):
*da0073e9SAndroid Build Coastguard Worker        orig = torch.backends.cuda.matmul.allow_fp16_reduced_precision_reduction
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            torch._C._get_cublas_allow_fp16_reduced_precision_reduction(), orig
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        torch.backends.cuda.matmul.allow_fp16_reduced_precision_reduction = not orig
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            torch._C._get_cublas_allow_fp16_reduced_precision_reduction(), not orig
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        torch.backends.cuda.matmul.allow_fp16_reduced_precision_reduction = orig
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_cublas_allow_bf16_reduced_precision_reduction_get_set(self):
*da0073e9SAndroid Build Coastguard Worker        orig = torch.backends.cuda.matmul.allow_bf16_reduced_precision_reduction
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            torch._C._get_cublas_allow_bf16_reduced_precision_reduction(), orig
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        torch.backends.cuda.matmul.allow_bf16_reduced_precision_reduction = not orig
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            torch._C._get_cublas_allow_bf16_reduced_precision_reduction(), not orig
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        torch.backends.cuda.matmul.allow_bf16_reduced_precision_reduction = orig
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_cudnn_allow_tf32_get_set(self):
*da0073e9SAndroid Build Coastguard Worker        with torch.backends.cudnn.flags(
*da0073e9SAndroid Build Coastguard Worker            enabled=None, benchmark=None, deterministic=None, allow_tf32=False
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            self.assertFalse(torch.backends.cudnn.allow_tf32)
*da0073e9SAndroid Build Coastguard Worker        with torch.backends.cudnn.flags(
*da0073e9SAndroid Build Coastguard Worker            enabled=None, benchmark=None, deterministic=None, allow_tf32=True
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(torch.backends.cudnn.allow_tf32)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_type_conversions(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(5, 5)
*da0073e9SAndroid Build Coastguard Worker        self.assertIsInstance(x.float(), torch.FloatTensor)
*da0073e9SAndroid Build Coastguard Worker        self.assertIsInstance(x.cuda().double(), torch.cuda.DoubleTensor)
*da0073e9SAndroid Build Coastguard Worker        self.assertIsInstance(x.cuda().float(), torch.cuda.FloatTensor)
*da0073e9SAndroid Build Coastguard Worker        self.assertIsInstance(x.cuda().float().cpu(), torch.FloatTensor)
*da0073e9SAndroid Build Coastguard Worker        self.assertIsInstance(x.cuda().float().cpu().int(), torch.IntTensor)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        y = x.storage()
*da0073e9SAndroid Build Coastguard Worker        self.assertIsInstance(y.float(), torch.FloatStorage)
*da0073e9SAndroid Build Coastguard Worker        self.assertIsInstance(y.cuda().double(), torch.cuda.DoubleStorage)
*da0073e9SAndroid Build Coastguard Worker        self.assertIsInstance(y.cuda().float(), torch.cuda.FloatStorage)
*da0073e9SAndroid Build Coastguard Worker        self.assertIsInstance(y.cuda().float().cpu(), torch.FloatStorage)
*da0073e9SAndroid Build Coastguard Worker        self.assertIsInstance(y.cuda().float().cpu().int(), torch.IntStorage)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skip("was disabled due to not enough memory, but actually it always fail")
*da0073e9SAndroid Build Coastguard Worker    def test_arithmetic_large_tensor(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.empty(2**30, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x.fill_(1)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x.sum(), 2**30)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x += 1
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x.sum(), 2**31)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x.fill_(1)
*da0073e9SAndroid Build Coastguard Worker        x -= 0.5
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x.sum(), 2**29)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x.fill_(1)
*da0073e9SAndroid Build Coastguard Worker        x *= 2
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x.sum(), 2**31)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x.fill_(1)
*da0073e9SAndroid Build Coastguard Worker        x /= 2
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x.sum(), 2**29)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_gather_bool(self):
*da0073e9SAndroid Build Coastguard Worker        t = torch.tensor([[False, True], [True, True]], device="cuda")
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            torch.gather(t, 1, torch.tensor([[0, 0], [1, 0]], device="cuda")),
*da0073e9SAndroid Build Coastguard Worker            torch.tensor([[False, False], [True, True]], device="cuda"),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_torch_manual_seed_seeds_cuda_devices(self):
*da0073e9SAndroid Build Coastguard Worker        with freeze_rng_state():
*da0073e9SAndroid Build Coastguard Worker            x = torch.zeros(4, 4).float().cuda()
*da0073e9SAndroid Build Coastguard Worker            torch.manual_seed(2)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(torch.cuda.initial_seed(), 2)
*da0073e9SAndroid Build Coastguard Worker            x.uniform_()
*da0073e9SAndroid Build Coastguard Worker            torch.manual_seed(2)
*da0073e9SAndroid Build Coastguard Worker            y = x.clone().uniform_()
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(x, y)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(torch.cuda.initial_seed(), 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_manual_seed(self):
*da0073e9SAndroid Build Coastguard Worker        with freeze_rng_state():
*da0073e9SAndroid Build Coastguard Worker            x = torch.zeros(4, 4).float().cuda()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.manual_seed(2)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(torch.cuda.initial_seed(), 2)
*da0073e9SAndroid Build Coastguard Worker            x.uniform_()
*da0073e9SAndroid Build Coastguard Worker            a = torch.bernoulli(torch.full_like(x, 0.5))
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.manual_seed(2)
*da0073e9SAndroid Build Coastguard Worker            y = x.clone().uniform_()
*da0073e9SAndroid Build Coastguard Worker            b = torch.bernoulli(torch.full_like(x, 0.5))
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(x, y)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(a, b)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(torch.cuda.initial_seed(), 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_specify_improper_device_name(self):
*da0073e9SAndroid Build Coastguard Worker        import os
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        fname = "tempfile.pt"
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            with self.assertRaisesRegex(RuntimeError, "Invalid device string"):
*da0073e9SAndroid Build Coastguard Worker                torch.save(
*da0073e9SAndroid Build Coastguard Worker                    [torch.nn.Parameter(torch.randn(10, 10))],
*da0073e9SAndroid Build Coastguard Worker                    fname,
*da0073e9SAndroid Build Coastguard Worker                    _use_new_zipfile_serialization=True,
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                torch.load(fname, "cuda0")
*da0073e9SAndroid Build Coastguard Worker        finally:
*da0073e9SAndroid Build Coastguard Worker            if os.path.exists(fname):
*da0073e9SAndroid Build Coastguard Worker                os.remove(fname)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_get_device_index(self):
*da0073e9SAndroid Build Coastguard Worker        from torch.cuda._utils import _get_device_index
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(RuntimeError, "Invalid device string"):
*da0073e9SAndroid Build Coastguard Worker            _get_device_index("cuda0", optional=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(ValueError, "Expected a cuda device"):
*da0073e9SAndroid Build Coastguard Worker            cpu_device = torch.device("cpu")
*da0073e9SAndroid Build Coastguard Worker            _get_device_index(cpu_device, optional=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_serialization_array_with_empty(self):
*da0073e9SAndroid Build Coastguard Worker        x = [torch.randn(4, 4).cuda(), torch.cuda.FloatTensor()]
*da0073e9SAndroid Build Coastguard Worker        with tempfile.NamedTemporaryFile() as f:
*da0073e9SAndroid Build Coastguard Worker            torch.save(x, f)
*da0073e9SAndroid Build Coastguard Worker            f.seek(0)
*da0073e9SAndroid Build Coastguard Worker            x_copy = torch.load(f)
*da0073e9SAndroid Build Coastguard Worker        for original, copy in zip(x, x_copy):
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(copy, original)
*da0073e9SAndroid Build Coastguard Worker            self.assertIs(type(copy), type(original))
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(copy.get_device(), original.get_device())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skipCUDANonDefaultStreamIf(True)
*da0073e9SAndroid Build Coastguard Worker    def test_streams(self):
*da0073e9SAndroid Build Coastguard Worker        default_stream = torch.cuda.current_stream()
*da0073e9SAndroid Build Coastguard Worker        user_stream = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(torch.cuda.current_stream(), default_stream)
*da0073e9SAndroid Build Coastguard Worker        self.assertNotEqual(default_stream, user_stream)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(default_stream.cuda_stream, 0)
*da0073e9SAndroid Build Coastguard Worker        self.assertNotEqual(user_stream.cuda_stream, 0)
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(user_stream):
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(torch.cuda.current_stream(), user_stream)
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(user_stream.query())
*da0073e9SAndroid Build Coastguard Worker        tensor1 = torch.ByteTensor(5).pin_memory()
*da0073e9SAndroid Build Coastguard Worker        tensor2 = tensor1.cuda(non_blocking=True) + 1
*da0073e9SAndroid Build Coastguard Worker        default_stream.synchronize()
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(default_stream.query())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_stream_event_repr(self):
*da0073e9SAndroid Build Coastguard Worker        s = torch.cuda.current_stream()
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue("torch.cuda.Stream" in s.__repr__())
*da0073e9SAndroid Build Coastguard Worker        e = torch.cuda.Event()
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue("torch.cuda.Event" in e.__repr__())
*da0073e9SAndroid Build Coastguard Worker        s.record_event(e)
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue("torch.cuda.Event" in e.__repr__())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_events(self):
*da0073e9SAndroid Build Coastguard Worker        stream = torch.cuda.current_stream()
*da0073e9SAndroid Build Coastguard Worker        event = torch.cuda.Event(enable_timing=True)
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(event.query())
*da0073e9SAndroid Build Coastguard Worker        start_event = torch.cuda.Event(enable_timing=True)
*da0073e9SAndroid Build Coastguard Worker        stream.record_event(start_event)
*da0073e9SAndroid Build Coastguard Worker        torch.cuda._sleep(int(50 * get_cycles_per_ms()))
*da0073e9SAndroid Build Coastguard Worker        stream.record_event(event)
*da0073e9SAndroid Build Coastguard Worker        self.assertFalse(event.query())
*da0073e9SAndroid Build Coastguard Worker        event.synchronize()
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(event.query())
*da0073e9SAndroid Build Coastguard Worker        self.assertGreater(start_event.elapsed_time(event), 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_generic_stream_event(self):
*da0073e9SAndroid Build Coastguard Worker        stream = torch.Stream("cuda")
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(stream.device_index, torch.cuda.current_device())
*da0073e9SAndroid Build Coastguard Worker        cuda_stream = torch.cuda.Stream(
*da0073e9SAndroid Build Coastguard Worker            stream_id=stream.stream_id,
*da0073e9SAndroid Build Coastguard Worker            device_index=stream.device_index,
*da0073e9SAndroid Build Coastguard Worker            device_type=stream.device_type,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(stream.stream_id, cuda_stream.stream_id)
*da0073e9SAndroid Build Coastguard Worker        self.assertNotEqual(stream.stream_id, torch.cuda.current_stream().stream_id)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        event1 = torch.Event("cuda", enable_timing=True)
*da0073e9SAndroid Build Coastguard Worker        event2 = torch.Event("cuda", enable_timing=True)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(event1.event_id, 0)
*da0073e9SAndroid Build Coastguard Worker        a = torch.randn(1000)
*da0073e9SAndroid Build Coastguard Worker        b = torch.randn(1000)
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(cuda_stream):
*da0073e9SAndroid Build Coastguard Worker            a_cuda = a.to("cuda", non_blocking=True)
*da0073e9SAndroid Build Coastguard Worker            b_cuda = b.to("cuda", non_blocking=True)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(stream.stream_id, torch.cuda.current_stream().stream_id)
*da0073e9SAndroid Build Coastguard Worker        event1.record(stream)
*da0073e9SAndroid Build Coastguard Worker        event1.synchronize()
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(event1.query())
*da0073e9SAndroid Build Coastguard Worker        c_cuda = a_cuda + b_cuda
*da0073e9SAndroid Build Coastguard Worker        event2.record()
*da0073e9SAndroid Build Coastguard Worker        event2.synchronize()
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(event2.query())
*da0073e9SAndroid Build Coastguard Worker        self.assertNotEqual(event1.event_id, event2.event_id)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(c_cuda.cpu(), a + b)
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(event1.elapsed_time(event2) > 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_record_stream(self):
*da0073e9SAndroid Build Coastguard Worker        cycles_per_ms = get_cycles_per_ms()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        t = torch.FloatTensor([1, 2, 3, 4]).pin_memory()
*da0073e9SAndroid Build Coastguard Worker        result = torch.cuda.FloatTensor(t.size())
*da0073e9SAndroid Build Coastguard Worker        stream = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker        ptr = [None]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Performs the CPU->GPU copy in a background stream
*da0073e9SAndroid Build Coastguard Worker        def perform_copy():
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.stream(stream):
*da0073e9SAndroid Build Coastguard Worker                tmp = t.cuda(non_blocking=True)
*da0073e9SAndroid Build Coastguard Worker                ptr[0] = tmp.data_ptr()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.current_stream().wait_stream(stream)
*da0073e9SAndroid Build Coastguard Worker            tmp.record_stream(torch.cuda.current_stream())
*da0073e9SAndroid Build Coastguard Worker            torch.cuda._sleep(int(50 * cycles_per_ms))  # delay the copy
*da0073e9SAndroid Build Coastguard Worker            result.copy_(tmp)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        perform_copy()
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(stream):
*da0073e9SAndroid Build Coastguard Worker            tmp2 = torch.cuda.FloatTensor(t.size())
*da0073e9SAndroid Build Coastguard Worker            tmp2.zero_()
*da0073e9SAndroid Build Coastguard Worker            self.assertNotEqual(
*da0073e9SAndroid Build Coastguard Worker                tmp2.data_ptr(), ptr[0], msg="allocation re-used to soon"
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(result.tolist(), [1, 2, 3, 4])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if not TEST_CUDAMALLOCASYNC:
*da0073e9SAndroid Build Coastguard Worker            # In the native allocator, we expect "tmp"'s side-stream-tagged block will be reused
*da0073e9SAndroid Build Coastguard Worker            # in that side stream after result.copy_(tmp) in the main stream finishes.
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.current_stream().synchronize()
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.stream(stream):
*da0073e9SAndroid Build Coastguard Worker                tmp3 = torch.cuda.FloatTensor(t.size())
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(tmp3.data_ptr(), ptr[0], msg="allocation not re-used")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_record_stream_on_shifted_view(self):
*da0073e9SAndroid Build Coastguard Worker        # See issue #27366
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # This test detects unexpected block reallocation. For reliable test,
*da0073e9SAndroid Build Coastguard Worker        # the stream to allocate tensors is isolated. The allocator will not
*da0073e9SAndroid Build Coastguard Worker        # reuse free blocks which were allocated from another stream.
*da0073e9SAndroid Build Coastguard Worker        stream_alloc = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(stream_alloc):
*da0073e9SAndroid Build Coastguard Worker            base = torch.cuda.FloatTensor([10, 10])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Record another stream on a shifted view tensor.
*da0073e9SAndroid Build Coastguard Worker        view = base[5:]
*da0073e9SAndroid Build Coastguard Worker        assert view.storage_offset() > 0
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        stream_record = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(stream_record):
*da0073e9SAndroid Build Coastguard Worker            torch.cuda._sleep(int(50 * get_cycles_per_ms()))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        view.record_stream(stream_record)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Delete those tensors to make the block free soon.
*da0073e9SAndroid Build Coastguard Worker        data_ptr = base.data_ptr()
*da0073e9SAndroid Build Coastguard Worker        del base, view
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # A new tensor should not be allocated to the block above.
*da0073e9SAndroid Build Coastguard Worker        stream_alloc.synchronize()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(stream_alloc):
*da0073e9SAndroid Build Coastguard Worker            try_realloc = torch.cuda.FloatTensor([10, 10])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertNotEqual(try_realloc.data_ptr(), data_ptr)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_noncontiguous_pinned_memory(self):
*da0073e9SAndroid Build Coastguard Worker        # See issue #3266
*da0073e9SAndroid Build Coastguard Worker        x = torch.arange(0, 10).view((2, 5))
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x.t(), x.t().pin_memory())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_caching_pinned_memory(self):
*da0073e9SAndroid Build Coastguard Worker        cycles_per_ms = get_cycles_per_ms()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # check that allocations are re-used after deletion
*da0073e9SAndroid Build Coastguard Worker        t = torch.FloatTensor([1]).pin_memory()
*da0073e9SAndroid Build Coastguard Worker        ptr = t.data_ptr()
*da0073e9SAndroid Build Coastguard Worker        del t
*da0073e9SAndroid Build Coastguard Worker        t = torch.FloatTensor([1]).pin_memory()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(t.data_ptr(), ptr, msg="allocation not reused")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # check that the allocation is not re-used if it's in-use by a copy
*da0073e9SAndroid Build Coastguard Worker        gpu_tensor = torch.cuda.FloatTensor([0])
*da0073e9SAndroid Build Coastguard Worker        torch.cuda._sleep(int(1000 * cycles_per_ms))  # delay the copy by 1s
*da0073e9SAndroid Build Coastguard Worker        gpu_tensor.copy_(t, non_blocking=True)
*da0073e9SAndroid Build Coastguard Worker        del t
*da0073e9SAndroid Build Coastguard Worker        t = torch.FloatTensor([1]).pin_memory()
*da0073e9SAndroid Build Coastguard Worker        self.assertNotEqual(t.data_ptr(), ptr, msg="allocation re-used too soon")
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(list(gpu_tensor), [1])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_caching_allocator_record_stream_oom(self):
*da0073e9SAndroid Build Coastguard Worker        """allocations delayed by a record_stream call should still be freed on
*da0073e9SAndroid Build Coastguard Worker        an out-of-memory in cuda_malloc_retry. see issue #19219"""
*da0073e9SAndroid Build Coastguard Worker        stream = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(stream):
*da0073e9SAndroid Build Coastguard Worker            y = torch.zeros(40 * 1024 * 1024, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for _ in range(100):
*da0073e9SAndroid Build Coastguard Worker            x = torch.empty(40 * 1024 * 1024, device="cuda")
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.stream(stream):
*da0073e9SAndroid Build Coastguard Worker                y += x
*da0073e9SAndroid Build Coastguard Worker            # delays re-use of `x` until after all operations in `stream`
*da0073e9SAndroid Build Coastguard Worker            x.record_stream(stream)
*da0073e9SAndroid Build Coastguard Worker            del x
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # we've made a mess by allocating up to the device capacity. free any
*da0073e9SAndroid Build Coastguard Worker        # cached blocks in case it affects future tests.
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # Tests for historic illegal memory access, see #17040.
*da0073e9SAndroid Build Coastguard Worker    def test_reduction_gpu_memory_accessing(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.ones(512, 8, dtype=torch.float32, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        torch.sum(x, 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_sum_fp16(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.zeros(10, device="cuda", dtype=torch.float16)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x.sum(), 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x = torch.ones(65504, device="cuda", dtype=torch.float16)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x.sum(), 65504)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x.sum(dtype=torch.float32), 65504)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x = torch.ones(65536, device="cuda", dtype=torch.float16)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x.sum(dtype=torch.float32), 65536)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        a = torch.zeros(1203611).bernoulli_(0.0005)
*da0073e9SAndroid Build Coastguard Worker        x = a.to(device="cuda", dtype=torch.float16)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x.sum().item(), a.sum().item())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        a = torch.zeros(100, 121, 80).bernoulli_(0.0005)
*da0073e9SAndroid Build Coastguard Worker        x = a.to(device="cuda", dtype=torch.float16)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x.sum((0, 2)).float().cpu(), a.sum((0, 2)))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_mean_fp16(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.ones(65536, device="cuda", dtype=torch.float16)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x.mean(), 1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x = torch.ones(65536, device="cuda", dtype=torch.float16)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x.mean(dtype=torch.float32), 1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_prod_large(self):
*da0073e9SAndroid Build Coastguard Worker        # tests global reduction (should_global_reduce = true) in case of non-zero identity element
*da0073e9SAndroid Build Coastguard Worker        x = torch.ones(240000, device="cuda", dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x.prod(), 1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # test for complex types. Note 240k is divisible by 4
*da0073e9SAndroid Build Coastguard Worker        for dtype in [torch.cfloat, torch.cdouble]:
*da0073e9SAndroid Build Coastguard Worker            x = torch.ones(240000, device="cuda", dtype=dtype) * (0 + 1j)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(x.prod(), 1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_multinomial_ext(self):
*da0073e9SAndroid Build Coastguard Worker        # Test two corner cases from older PyTorch (Issue #4858)
*da0073e9SAndroid Build Coastguard Worker        freqs = torch.cuda.FloatTensor(
*da0073e9SAndroid Build Coastguard Worker            [
*da0073e9SAndroid Build Coastguard Worker                0.0,
*da0073e9SAndroid Build Coastguard Worker                0.0,
*da0073e9SAndroid Build Coastguard Worker                0.0,
*da0073e9SAndroid Build Coastguard Worker                0.0,
*da0073e9SAndroid Build Coastguard Worker                0.0,
*da0073e9SAndroid Build Coastguard Worker                0.0,
*da0073e9SAndroid Build Coastguard Worker                0.0,
*da0073e9SAndroid Build Coastguard Worker                0.0,
*da0073e9SAndroid Build Coastguard Worker                0.0,
*da0073e9SAndroid Build Coastguard Worker                0.03178183361887932,
*da0073e9SAndroid Build Coastguard Worker                0.027680952101945877,
*da0073e9SAndroid Build Coastguard Worker                0.033176131546497345,
*da0073e9SAndroid Build Coastguard Worker                0.046052902936935425,
*da0073e9SAndroid Build Coastguard Worker                0.07742464542388916,
*da0073e9SAndroid Build Coastguard Worker                0.11543981730937958,
*da0073e9SAndroid Build Coastguard Worker                0.14148041605949402,
*da0073e9SAndroid Build Coastguard Worker                0.15784293413162231,
*da0073e9SAndroid Build Coastguard Worker                0.13180233538150787,
*da0073e9SAndroid Build Coastguard Worker                0.08271478116512299,
*da0073e9SAndroid Build Coastguard Worker                0.049702685326337814,
*da0073e9SAndroid Build Coastguard Worker                0.027557924389839172,
*da0073e9SAndroid Build Coastguard Worker                0.018125897273421288,
*da0073e9SAndroid Build Coastguard Worker                0.011851548217236996,
*da0073e9SAndroid Build Coastguard Worker                0.010252203792333603,
*da0073e9SAndroid Build Coastguard Worker                0.007422595750540495,
*da0073e9SAndroid Build Coastguard Worker                0.005372154992073774,
*da0073e9SAndroid Build Coastguard Worker                0.0045109698548913,
*da0073e9SAndroid Build Coastguard Worker                0.0036087757907807827,
*da0073e9SAndroid Build Coastguard Worker                0.0035267581697553396,
*da0073e9SAndroid Build Coastguard Worker                0.0018864056328311563,
*da0073e9SAndroid Build Coastguard Worker                0.0024605290964245796,
*da0073e9SAndroid Build Coastguard Worker                0.0022964938543736935,
*da0073e9SAndroid Build Coastguard Worker                0.0018453967059031129,
*da0073e9SAndroid Build Coastguard Worker                0.0010662291897460818,
*da0073e9SAndroid Build Coastguard Worker                0.0009842115687206388,
*da0073e9SAndroid Build Coastguard Worker                0.00045109697384759784,
*da0073e9SAndroid Build Coastguard Worker                0.0007791675161570311,
*da0073e9SAndroid Build Coastguard Worker                0.00020504408166743815,
*da0073e9SAndroid Build Coastguard Worker                0.00020504408166743815,
*da0073e9SAndroid Build Coastguard Worker                0.00020504408166743815,
*da0073e9SAndroid Build Coastguard Worker                0.00012302644609007984,
*da0073e9SAndroid Build Coastguard Worker                0.0,
*da0073e9SAndroid Build Coastguard Worker                0.00012302644609007984,
*da0073e9SAndroid Build Coastguard Worker                4.100881778867915e-05,
*da0073e9SAndroid Build Coastguard Worker                0.0,
*da0073e9SAndroid Build Coastguard Worker                0.0,
*da0073e9SAndroid Build Coastguard Worker                0.0,
*da0073e9SAndroid Build Coastguard Worker                0.0,
*da0073e9SAndroid Build Coastguard Worker                0.0,
*da0073e9SAndroid Build Coastguard Worker                0.0,
*da0073e9SAndroid Build Coastguard Worker            ]
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.manual_seed(11042)
*da0073e9SAndroid Build Coastguard Worker        sample = torch.multinomial(freqs, 1000, True)
*da0073e9SAndroid Build Coastguard Worker        self.assertNotEqual(freqs[sample].min(), 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        p = torch.zeros(3421, 2, device="cuda", dtype=torch.float)
*da0073e9SAndroid Build Coastguard Worker        p[:, 1] = 1
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.manual_seed(5214)
*da0073e9SAndroid Build Coastguard Worker        r = torch.multinomial(p, 1)
*da0073e9SAndroid Build Coastguard Worker        self.assertNotEqual(r.min().item(), 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # test corner case from Issue #13867
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.manual_seed(33)
*da0073e9SAndroid Build Coastguard Worker        probs = torch.randn(1000000, device="cuda").clamp(min=0) * 3e-5
*da0073e9SAndroid Build Coastguard Worker        samples = probs.multinomial(1000000, replacement=True)
*da0073e9SAndroid Build Coastguard Worker        self.assertGreater(probs[samples].min().item(), 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _spawn_test_multinomial_invalid_probs_cuda(self, probs):
*da0073e9SAndroid Build Coastguard Worker        import subprocess
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            p = subprocess.Popen(
*da0073e9SAndroid Build Coastguard Worker                [
*da0073e9SAndroid Build Coastguard Worker                    sys.executable,
*da0073e9SAndroid Build Coastguard Worker                    "-c",
*da0073e9SAndroid Build Coastguard Worker                    f"""\
*da0073e9SAndroid Build Coastguard Workerimport sys
*da0073e9SAndroid Build Coastguard Workerimport torch
*da0073e9SAndroid Build Coastguard Workerfrom torch import inf, nan
*da0073e9SAndroid Build Coastguard Workertry:
*da0073e9SAndroid Build Coastguard Worker    with torch.random.fork_rng(devices=[0]):
*da0073e9SAndroid Build Coastguard Worker        torch.multinomial(torch.tensor({probs}).to('cuda'), 2, replacement=True)
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker    sys.exit(-1) # Should not be reached
*da0073e9SAndroid Build Coastguard Workerexcept RuntimeError as e:
*da0073e9SAndroid Build Coastguard Worker    sys.exit(-2)
*da0073e9SAndroid Build Coastguard Worker""",
*da0073e9SAndroid Build Coastguard Worker                ],
*da0073e9SAndroid Build Coastguard Worker                stdout=subprocess.PIPE,
*da0073e9SAndroid Build Coastguard Worker                stderr=subprocess.PIPE,
*da0073e9SAndroid Build Coastguard Worker                universal_newlines=True,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            out, err = p.communicate(timeout=10)
*da0073e9SAndroid Build Coastguard Worker            p.wait(timeout=10)
*da0073e9SAndroid Build Coastguard Worker        except subprocess.TimeoutExpired as e:
*da0073e9SAndroid Build Coastguard Worker            p.kill()
*da0073e9SAndroid Build Coastguard Worker            out, err = p.communicate()
*da0073e9SAndroid Build Coastguard Worker        expected_messages = [
*da0073e9SAndroid Build Coastguard Worker            "device-side assert triggered",  # CUDA
*da0073e9SAndroid Build Coastguard Worker            "Assertion",  # CUDA
*da0073e9SAndroid Build Coastguard Worker            "HSA_STATUS_ERROR_EXCEPTION",  # ROCm
*da0073e9SAndroid Build Coastguard Worker            "Device-side assertion",  # ROCm
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(any(msg in out or msg in err for msg in expected_messages))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @slowTest
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(TEST_WITH_ROCM, "ROCm doesn't support device side asserts")
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        NO_MULTIPROCESSING_SPAWN,
*da0073e9SAndroid Build Coastguard Worker        "Disabled for environments that \
*da0073e9SAndroid Build Coastguard Worker                     don't support multiprocessing with spawn start method",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_multinomial_invalid_probs_cuda(self):
*da0073e9SAndroid Build Coastguard Worker        self._spawn_test_multinomial_invalid_probs_cuda([1.0, -1.0, 1.0])
*da0073e9SAndroid Build Coastguard Worker        self._spawn_test_multinomial_invalid_probs_cuda([1.0, inf, 1.0])
*da0073e9SAndroid Build Coastguard Worker        self._spawn_test_multinomial_invalid_probs_cuda([1.0, -inf, 1.0])
*da0073e9SAndroid Build Coastguard Worker        self._spawn_test_multinomial_invalid_probs_cuda([1.0, 1.0, nan])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @staticmethod
*da0073e9SAndroid Build Coastguard Worker    def _mute_init():
*da0073e9SAndroid Build Coastguard Worker        os.dup2(os.open(os.devnull, os.O_WRONLY), sys.stderr.fileno())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _spawn_method(self, method, arg):
*da0073e9SAndroid Build Coastguard Worker        ctx = torch.multiprocessing.get_context("spawn")
*da0073e9SAndroid Build Coastguard Worker        with ctx.Pool(1, initializer=self._mute_init) as pool:
*da0073e9SAndroid Build Coastguard Worker            errors = pool.map(method, [arg])
*da0073e9SAndroid Build Coastguard Worker            for e in errors:
*da0073e9SAndroid Build Coastguard Worker                if "device-side assert triggered" not in str(e):
*da0073e9SAndroid Build Coastguard Worker                    self.fail(e)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @staticmethod
*da0073e9SAndroid Build Coastguard Worker    def _test_index_bounds_cuda(idx):
*da0073e9SAndroid Build Coastguard Worker        x = torch.arange(10, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            y = x[torch.tensor([idx])]
*da0073e9SAndroid Build Coastguard Worker            return f"x[torch.tensor([{idx})]={y}"
*da0073e9SAndroid Build Coastguard Worker        except RuntimeError as err:
*da0073e9SAndroid Build Coastguard Worker            return err
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @slowTest
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        NO_MULTIPROCESSING_SPAWN,
*da0073e9SAndroid Build Coastguard Worker        "Disabled for environments that \
*da0073e9SAndroid Build Coastguard Worker                     don't support multiprocessing with spawn start method",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @skipIfRocm
*da0073e9SAndroid Build Coastguard Worker    def test_index_out_of_bounds_exception_cuda(self):
*da0073e9SAndroid Build Coastguard Worker        test_method = TestCuda._test_index_bounds_cuda
*da0073e9SAndroid Build Coastguard Worker        # Test in-bound access works fine
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            test_method(1), "x[torch.tensor([1)]=tensor([1], device='cuda:0')"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        # Test that indexing out of bounds causes assert
*da0073e9SAndroid Build Coastguard Worker        self._spawn_method(test_method, 11)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @slowTest
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_LARGE_TENSOR, "not enough memory")
*da0073e9SAndroid Build Coastguard Worker    @serialTest()
*da0073e9SAndroid Build Coastguard Worker    def test_huge_index(self):
*da0073e9SAndroid Build Coastguard Worker        src = torch.empty(15000000, 45, device="cuda", dtype=torch.long).random_(
*da0073e9SAndroid Build Coastguard Worker            0, 2**22
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        idx = torch.randperm(src.shape[0], device="cuda")
*da0073e9SAndroid Build Coastguard Worker        res = src[idx]
*da0073e9SAndroid Build Coastguard Worker        res_cpu = src.cpu()[idx.cpu()]
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(res.cpu(), res_cpu)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_randint_randomness_for_large_range(self) -> None:
*da0073e9SAndroid Build Coastguard Worker        # For large ranges, randint generation is slightly different. This lead to a subtle bug where some Philox
*da0073e9SAndroid Build Coastguard Worker        # offsets were not calculated correctly, resulting in reused random states.
*da0073e9SAndroid Build Coastguard Worker        # See https://github.com/pytorch/pytorch/issues/125224
*da0073e9SAndroid Build Coastguard Worker        size = 1_000_000
*da0073e9SAndroid Build Coastguard Worker        high = 6_000_000_000  # Keep this above 2**32
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def run(dev: torch.device) -> int:
*da0073e9SAndroid Build Coastguard Worker            # Measure how many unique numbers are generated in 2 consecutive calls to randint. If random states are
*da0073e9SAndroid Build Coastguard Worker            # reused, this will yield fewer unique numbers.
*da0073e9SAndroid Build Coastguard Worker            gen = torch.Generator(device=dev)
*da0073e9SAndroid Build Coastguard Worker            gen.manual_seed(0)
*da0073e9SAndroid Build Coastguard Worker            t1 = torch.randint(
*da0073e9SAndroid Build Coastguard Worker                0, high, [size], device=dev, generator=gen, dtype=torch.int64
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            t2 = torch.randint(
*da0073e9SAndroid Build Coastguard Worker                0, high, [size], device=dev, generator=gen, dtype=torch.int64
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            return torch.stack([t1, t2]).unique().shape[0]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Use CPU as reference. The results should not deviate too much.
*da0073e9SAndroid Build Coastguard Worker        assert abs(run(torch.device("cuda")) - run(torch.device("cpu"))) < 10_000
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @parametrize("dtype", [torch.float32, torch.double])
*da0073e9SAndroid Build Coastguard Worker    def test_random_no_reused_random_states(self, dtype: torch.dtype) -> None:
*da0073e9SAndroid Build Coastguard Worker        # Test if random states do not overlap between consecutive rand/randn calls.
*da0073e9SAndroid Build Coastguard Worker        # See https://github.com/pytorch/pytorch/issues/125224
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def run(func, dev: torch.device, dtype: torch.dtype) -> int:
*da0073e9SAndroid Build Coastguard Worker            # Measure how many unique numbers are generated in 2 consecutive calls. If random states are
*da0073e9SAndroid Build Coastguard Worker            # reused, this will yield fewer unique numbers.
*da0073e9SAndroid Build Coastguard Worker            size = 1000000
*da0073e9SAndroid Build Coastguard Worker            gen = torch.Generator(device=dev)
*da0073e9SAndroid Build Coastguard Worker            gen.manual_seed(0)
*da0073e9SAndroid Build Coastguard Worker            t1 = func((size,), device=dev, generator=gen, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            t2 = func((size,), device=dev, generator=gen, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            return torch.stack([t1, t2]).unique().shape[0]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Use CPU as reference. The results should not deviate too much.
*da0073e9SAndroid Build Coastguard Worker        for func in [torch.rand, torch.randn]:
*da0073e9SAndroid Build Coastguard Worker            deviation = abs(
*da0073e9SAndroid Build Coastguard Worker                run(func, torch.device("cuda"), dtype)
*da0073e9SAndroid Build Coastguard Worker                - run(func, torch.device("cpu"), dtype)
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            assert deviation < 50_000, deviation
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_min_max_inits(self):
*da0073e9SAndroid Build Coastguard Worker        # Testing if THC_reduceAll received the correct index initialization.
*da0073e9SAndroid Build Coastguard Worker        # This affects the result of THC_reduceAll operations at extreme values
*da0073e9SAndroid Build Coastguard Worker        x = torch.cuda.ByteTensor([0])
*da0073e9SAndroid Build Coastguard Worker        y = torch.cuda.ByteTensor([255])
*da0073e9SAndroid Build Coastguard Worker        expected = torch.cuda.LongTensor([0])[0]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        _, v = x.max(dim=0)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(v, expected)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        _, v = y.min(dim=0)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(v, expected)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_nvtx(self):
*da0073e9SAndroid Build Coastguard Worker        # Just making sure we can see the symbols
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.nvtx.range_push("foo")
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.nvtx.mark("bar")
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.nvtx.range_pop()
*da0073e9SAndroid Build Coastguard Worker        range_handle = torch.cuda.nvtx.range_start("range_start")
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.nvtx.range_end(range_handle)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_bincount_ext(self):
*da0073e9SAndroid Build Coastguard Worker        # ensure CUDA code coverage
*da0073e9SAndroid Build Coastguard Worker        input_size = (100000,)
*da0073e9SAndroid Build Coastguard Worker        w = torch.randn(input_size, dtype=torch.double, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        w_cpu = w.cpu()
*da0073e9SAndroid Build Coastguard Worker        # test shared memory impl
*da0073e9SAndroid Build Coastguard Worker        t = torch.randint(50, input_size, dtype=torch.int8, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(t.cpu().bincount(), t.bincount())
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(t.cpu().bincount(w_cpu), t.bincount(w))
*da0073e9SAndroid Build Coastguard Worker        # test global memory impl
*da0073e9SAndroid Build Coastguard Worker        #   see `CUDAHistogramMemoryType` in SummaryOps.cu
*da0073e9SAndroid Build Coastguard Worker        #   50000 * sizeof(int64_t) == 390 KiB, which should exceed smem of any known GPU
*da0073e9SAndroid Build Coastguard Worker        t = torch.randint(50000, input_size, dtype=torch.int64, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(t.cpu().bincount(), t.bincount())
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(t.cpu().bincount(w_cpu), t.bincount(w))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        t = torch.zeros([10], dtype=torch.int32, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        # 35488 * 65536 as int32 would cause overflow to negative value
*da0073e9SAndroid Build Coastguard Worker        # giving negative bin offset
*da0073e9SAndroid Build Coastguard Worker        t[0] = 35488
*da0073e9SAndroid Build Coastguard Worker        counted = t.bincount(minlength=65536)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(torch.sum(counted), 10)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_tiny_half_norm_(self):
*da0073e9SAndroid Build Coastguard Worker        a = torch.arange(25).cuda().float()
*da0073e9SAndroid Build Coastguard Worker        a /= 100000000
*da0073e9SAndroid Build Coastguard Worker        b = a.half()
*da0073e9SAndroid Build Coastguard Worker        self.assertGreater(b.norm().item(), 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_norm_type_conversion(self):
*da0073e9SAndroid Build Coastguard Worker        a = torch.ones(65536).cuda().half()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(a.norm(p=0, dtype=torch.float32), 65536)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_cuda_memory_leak_detection_propagates_errors(self):
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(
*da0073e9SAndroid Build Coastguard Worker            RuntimeError, r"The size of tensor a \(3\) must match"
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            with self.assertLeaksNoCudaTensors():
*da0073e9SAndroid Build Coastguard Worker                x = torch.randn(3, 1, device="cuda")
*da0073e9SAndroid Build Coastguard Worker                y = torch.randn(2, 1, device="cuda")
*da0073e9SAndroid Build Coastguard Worker                z = x + y
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_MEDIUM_TENSOR, "not enough memory")
*da0073e9SAndroid Build Coastguard Worker    @serialTest()
*da0073e9SAndroid Build Coastguard Worker    def test_cuda_kernel_loop_overflow(self):
*da0073e9SAndroid Build Coastguard Worker        # Issue #24309: In extreme cases, the loop variable could overflow and continue
*da0073e9SAndroid Build Coastguard Worker        # the kernel loop with a negative index, causing a RuntimeError (invalid write):
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(1, 1, 1, 2**30 + 1, dtype=torch.float16, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        expected = x[0, 0, 0, 2**30]
*da0073e9SAndroid Build Coastguard Worker        y = torch.nn.functional.avg_pool2d(x, kernel_size=1)
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(y[0, 0, 0, 2**30], expected)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_LARGE_TENSOR, "not enough memory")
*da0073e9SAndroid Build Coastguard Worker    @gcIfJetson
*da0073e9SAndroid Build Coastguard Worker    @serialTest()
*da0073e9SAndroid Build Coastguard Worker    def test_cuda_kernel_loop_overflow_large(self):
*da0073e9SAndroid Build Coastguard Worker        # Make sure input.numel() > INT_MAX is handled:
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(1, 1, 1, 2**31, dtype=torch.float16, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(RuntimeError, "integer out of range"):
*da0073e9SAndroid Build Coastguard Worker            y = torch.nn.functional.avg_pool2d(x, kernel_size=1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Issue #24309: In extreme cases, the loop variable could overflow and continue
*da0073e9SAndroid Build Coastguard Worker        # the kernel loop with a negative index, causing a RuntimeError (invalid write):
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(1, 1, 1, 2**31 - 1, dtype=torch.float16, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        expected = x[0, 0, 0, 2**31 - 2]
*da0073e9SAndroid Build Coastguard Worker        y = torch.nn.functional.avg_pool2d(x, kernel_size=1)
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(y[0, 0, 0, 2**31 - 2], expected)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # this might create a reference cycle on self...
*da0073e9SAndroid Build Coastguard Worker    def _make_multiply_in_stream(self):
*da0073e9SAndroid Build Coastguard Worker        class MultiplyInStream(torch.autograd.Function):
*da0073e9SAndroid Build Coastguard Worker            @staticmethod
*da0073e9SAndroid Build Coastguard Worker            def forward(ctx, x, val):
*da0073e9SAndroid Build Coastguard Worker                ctx.val = val
*da0073e9SAndroid Build Coastguard Worker                ctx.stream = torch.cuda.current_stream()
*da0073e9SAndroid Build Coastguard Worker                return x * val
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            @staticmethod
*da0073e9SAndroid Build Coastguard Worker            def backward(ctx, grad):
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(torch.cuda.current_stream(), ctx.stream)
*da0073e9SAndroid Build Coastguard Worker                # delays the operation in the background stream
*da0073e9SAndroid Build Coastguard Worker                torch.cuda._sleep(1000 * 5000)
*da0073e9SAndroid Build Coastguard Worker                return grad * ctx.val, None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        return MultiplyInStream
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skipCUDANonDefaultStreamIf(True)
*da0073e9SAndroid Build Coastguard Worker    def test_streaming_backwards_sync(self):
*da0073e9SAndroid Build Coastguard Worker        default_stream = torch.cuda.current_stream()
*da0073e9SAndroid Build Coastguard Worker        stream = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        MultiplyInStream = self._make_multiply_in_stream()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Tests using grads outside the backward() stream context
*da0073e9SAndroid Build Coastguard Worker        # See "Stream semantics of backward passes" on https://pytorch.org/docs/stable/notes/cuda.html
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(5, 5, device="cuda", requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(stream):
*da0073e9SAndroid Build Coastguard Worker            stream.wait_stream(default_stream)
*da0073e9SAndroid Build Coastguard Worker            output = MultiplyInStream.apply(x, 2)
*da0073e9SAndroid Build Coastguard Worker            output.sum().backward()
*da0073e9SAndroid Build Coastguard Worker        # sync needed
*da0073e9SAndroid Build Coastguard Worker        default_stream.wait_stream(stream)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x.grad, torch.ones_like(x) * 2)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(torch.cuda.current_stream(), default_stream)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Tests that using grads in the same stream context as backward()
*da0073e9SAndroid Build Coastguard Worker        # is safe regardless what streams bwd ops ran on
*da0073e9SAndroid Build Coastguard Worker        bwd_ambient_stream = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(5, 5, device="cuda", requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(stream):
*da0073e9SAndroid Build Coastguard Worker            stream.wait_stream(default_stream)
*da0073e9SAndroid Build Coastguard Worker            output = MultiplyInStream.apply(x, 3)
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(bwd_ambient_stream):
*da0073e9SAndroid Build Coastguard Worker            bwd_ambient_stream.wait_stream(stream)
*da0073e9SAndroid Build Coastguard Worker            output.sum().backward()
*da0073e9SAndroid Build Coastguard Worker            # x was first used on "stream" so its AccumulateGrad leaf should run on "stream".
*da0073e9SAndroid Build Coastguard Worker            # The end of backward() should have synced "bwd_ambient_stream" with "stream"
*da0073e9SAndroid Build Coastguard Worker            # so it should be safe to use x.grad here without any syncs.
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(x.grad, torch.ones_like(x) * 3)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(torch.cuda.current_stream(), bwd_ambient_stream)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # Skip the test for ROCm as per https://github.com/pytorch/pytorch/issues/53190
*da0073e9SAndroid Build Coastguard Worker    @skipIfRocm(msg="flakey on ROCm https://github.com/pytorch/pytorch/issues/53190")
*da0073e9SAndroid Build Coastguard Worker    def test_streaming_backwards_multiple_streams(self):
*da0073e9SAndroid Build Coastguard Worker        MultiplyInStream = self._make_multiply_in_stream()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        class StreamModel(torch.nn.Module):
*da0073e9SAndroid Build Coastguard Worker            def __init__(self) -> None:
*da0073e9SAndroid Build Coastguard Worker                super().__init__()
*da0073e9SAndroid Build Coastguard Worker                self.event = torch.cuda.Event()
*da0073e9SAndroid Build Coastguard Worker                self.stream0 = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker                self.stream1 = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def forward(self, x, x_first_use_on_ambient):
*da0073e9SAndroid Build Coastguard Worker                if x_first_use_on_ambient:
*da0073e9SAndroid Build Coastguard Worker                    x0 = x.clone()
*da0073e9SAndroid Build Coastguard Worker                self.stream0.wait_stream(torch.cuda.current_stream())
*da0073e9SAndroid Build Coastguard Worker                self.stream1.wait_stream(torch.cuda.current_stream())
*da0073e9SAndroid Build Coastguard Worker                with torch.cuda.stream(self.stream0):
*da0073e9SAndroid Build Coastguard Worker                    if not x_first_use_on_ambient:
*da0073e9SAndroid Build Coastguard Worker                        x0 = x.clone()
*da0073e9SAndroid Build Coastguard Worker                    y0 = MultiplyInStream.apply(x0, 2)
*da0073e9SAndroid Build Coastguard Worker                    self.event.record(stream=torch.cuda.current_stream())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                with torch.cuda.stream(self.stream1):
*da0073e9SAndroid Build Coastguard Worker                    y1 = MultiplyInStream.apply(x, 3)
*da0073e9SAndroid Build Coastguard Worker                    self.stream1.wait_event(self.event)
*da0073e9SAndroid Build Coastguard Worker                    return y0 + y1
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        stream = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for x_first_use_on_ambient in (True, False):
*da0073e9SAndroid Build Coastguard Worker            # the out_of_place=False, iters=1 case stresses if proper syncs are inserted
*da0073e9SAndroid Build Coastguard Worker            # when grads are initially None and stolen by backward ops.
*da0073e9SAndroid Build Coastguard Worker            for out_of_place, iters in ((True, 1), (False, 1), (False, 5)):
*da0073e9SAndroid Build Coastguard Worker                with torch.cuda.stream(stream):
*da0073e9SAndroid Build Coastguard Worker                    x = torch.randn(5, 5, device="cuda", requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker                    model = StreamModel().cuda()
*da0073e9SAndroid Build Coastguard Worker                    x.register_hook(
*da0073e9SAndroid Build Coastguard Worker                        lambda grad: self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker                            torch.cuda.current_stream(),
*da0073e9SAndroid Build Coastguard Worker                            stream if x_first_use_on_ambient else model.stream0,
*da0073e9SAndroid Build Coastguard Worker                        )
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker                    for p in model.parameters():
*da0073e9SAndroid Build Coastguard Worker                        self.assertTrue(p.grad is None)
*da0073e9SAndroid Build Coastguard Worker                    for i in range(iters):
*da0073e9SAndroid Build Coastguard Worker                        loss = model(x, x_first_use_on_ambient).sum()
*da0073e9SAndroid Build Coastguard Worker                        if out_of_place:
*da0073e9SAndroid Build Coastguard Worker                            x_grad = torch.autograd.grad((loss,), (x,))[0]
*da0073e9SAndroid Build Coastguard Worker                        else:
*da0073e9SAndroid Build Coastguard Worker                            loss.backward()
*da0073e9SAndroid Build Coastguard Worker                # See "Stream semantics of backward passes" on https://pytorch.org/docs/stable/notes/cuda.html
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.current_stream().wait_stream(stream)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                if out_of_place:
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(x_grad, torch.ones_like(x) * 5 * iters)
*da0073e9SAndroid Build Coastguard Worker                else:
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(x.grad, torch.ones_like(x) * 5 * iters)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_streaming_backwards_sync_graph_root(self):
*da0073e9SAndroid Build Coastguard Worker        # This function tests if bwd ops running on a side stream properly sync with the GraphRoot.
*da0073e9SAndroid Build Coastguard Worker        # The potential bug it targets is a race condition. The test uses multiple trials and
*da0073e9SAndroid Build Coastguard Worker        # torch.cuda._sleep such that if the race condition exists, the test will almost certainly fail,
*da0073e9SAndroid Build Coastguard Worker        # but there's a chance it may spuriously pass. Passing does not guarantee the backend is bug-free,
*da0073e9SAndroid Build Coastguard Worker        # but failure does guarantee there is a bug.
*da0073e9SAndroid Build Coastguard Worker        fwd_bwd_op_stream = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker        bwd_ambient_stream = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker        # We need these streams to be different otherwise the test is meaningless.
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(fwd_bwd_op_stream != bwd_ambient_stream)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        size = int(1e3)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        a = torch.full((size,), 2.0, device="cuda", requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        b = torch.full((size,), 3.0, device="cuda", requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # I don't think we need any manual record_streams below.
*da0073e9SAndroid Build Coastguard Worker        # a and b remain in scope for the entire test.
*da0073e9SAndroid Build Coastguard Worker        # c and grad remain in scope for each iteration, and there's a full sync between iterations.
*da0073e9SAndroid Build Coastguard Worker        for trial in range(5):
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker            a.grad = b.grad = None
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.stream(fwd_bwd_op_stream):
*da0073e9SAndroid Build Coastguard Worker                c = a * b
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.stream(bwd_ambient_stream):
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker                # Long-running dummy kernel on bwd_ambient_stream delays filling of grad
*da0073e9SAndroid Build Coastguard Worker                torch.cuda._sleep(int(50 * get_cycles_per_ms()))
*da0073e9SAndroid Build Coastguard Worker                # Fills grad on bwd_ambient_stream
*da0073e9SAndroid Build Coastguard Worker                grad = torch.full((size,), float(trial + 1), device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # Bwd ops still run on fwd_bwd_ops_stream, so the following will likely fail if
*da0073e9SAndroid Build Coastguard Worker                # bwd ops don't sync with bwd_ambient_stream before consuming grad.
*da0073e9SAndroid Build Coastguard Worker                torch.autograd.backward(tensors=c, grad_tensors=grad)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # See https://github.com/pytorch/pytorch/issues/47028
*da0073e9SAndroid Build Coastguard Worker                # assertEquals below run on bwd_ambient_stream, so this test may also fail
*da0073e9SAndroid Build Coastguard Worker                # if backward() fails to sync with bwd_ambient_stream at the end.
*da0073e9SAndroid Build Coastguard Worker                # Synchronizing here works around the issue until a proper fix can be made.
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker                with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(a.grad, grad * b)
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(b.grad, grad * a)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_streaming_backwards_callback(self):
*da0073e9SAndroid Build Coastguard Worker        # Tests if autograd callbacks sync properly with respect to leaf streams and
*da0073e9SAndroid Build Coastguard Worker        # the user-facing stream surrounding backward(). If it fails, first suspect is
*da0073e9SAndroid Build Coastguard Worker        # sync logic where  "final_callbacks_" are called in torch/csrc/autograd/engine.cpp
*da0073e9SAndroid Build Coastguard Worker        MultiplyInStream = self._make_multiply_in_stream()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        size = int(1e3)
*da0073e9SAndroid Build Coastguard Worker        a = torch.full((size,), 1, device="cuda", dtype=torch.float, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        b = torch.full((size,), 1, device="cuda", dtype=torch.float, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        s0 = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker        s1 = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker        s2 = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        stash = []
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # sets up a nontrivial structure of leaf streams
*da0073e9SAndroid Build Coastguard Worker        s0.wait_stream(torch.cuda.current_stream())
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(s0):
*da0073e9SAndroid Build Coastguard Worker            c = MultiplyInStream.apply(a, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        s1.wait_stream(torch.cuda.current_stream())
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(s1):
*da0073e9SAndroid Build Coastguard Worker            d = MultiplyInStream.apply(b, 3)
*da0073e9SAndroid Build Coastguard Worker            s1.wait_stream(s0)
*da0073e9SAndroid Build Coastguard Worker            e = c * d
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def clone_leaf_grads():
*da0073e9SAndroid Build Coastguard Worker                stash.append(a.grad.clone())
*da0073e9SAndroid Build Coastguard Worker                stash.append(b.grad.clone())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Use a hook on e to install the callback
*da0073e9SAndroid Build Coastguard Worker            e.register_hook(
*da0073e9SAndroid Build Coastguard Worker                lambda grad: torch.autograd.Variable._execution_engine.queue_callback(
*da0073e9SAndroid Build Coastguard Worker                    clone_leaf_grads
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        s2.wait_stream(s1)
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(s2):
*da0073e9SAndroid Build Coastguard Worker            e.sum().backward()
*da0073e9SAndroid Build Coastguard Worker            # The autograd engine should sync s2 with all leaf streams then run the callback clone_leaf_grads on s2.
*da0073e9SAndroid Build Coastguard Worker            # If those things happened properly, checking the values of the cloned grads on s2 should be safe:
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(stash[0], torch.full_like(a, 6))
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(stash[1], torch.full_like(a, 6))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        TEST_WITH_ROCM,
*da0073e9SAndroid Build Coastguard Worker        "In ROCm, kernel asserts are disabled due to performance overhead",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_fixed_cuda_assert_async(self):
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(
*da0073e9SAndroid Build Coastguard Worker            RuntimeError, "Boolean value of Tensor with no values is ambiguous"
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            torch._assert_async(torch.tensor([], device="cuda"))
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(
*da0073e9SAndroid Build Coastguard Worker            RuntimeError,
*da0073e9SAndroid Build Coastguard Worker            "Boolean value of Tensor with more than one value is ambiguous",
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            torch._assert_async(torch.tensor([0, 0], device="cuda"))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch._assert_async(torch.tensor(1, device="cuda"))
*da0073e9SAndroid Build Coastguard Worker        torch._assert_async(torch.tensor(0.1, device="cuda"))
*da0073e9SAndroid Build Coastguard Worker        torch._assert_async(torch.tensor(-0.1, device="cuda"))
*da0073e9SAndroid Build Coastguard Worker        torch._assert_async(torch.tensor(True, device="cuda"))
*da0073e9SAndroid Build Coastguard Worker        torch._assert_async(torch.tensor(0 + 0.1j, device="cuda"))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        fail_stmts = [
*da0073e9SAndroid Build Coastguard Worker            "torch._assert_async(torch.tensor(0, device='cuda'))",
*da0073e9SAndroid Build Coastguard Worker            "torch._assert_async(torch.tensor(0.0, device='cuda'))",
*da0073e9SAndroid Build Coastguard Worker            "torch._assert_async(torch.tensor(False, device='cuda'))",
*da0073e9SAndroid Build Coastguard Worker            "torch._assert_async(torch.tensor(0 + 0j, device='cuda'))",
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        import subprocess
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for stmt in fail_stmts:
*da0073e9SAndroid Build Coastguard Worker            with self.subTest(stmt=stmt):
*da0073e9SAndroid Build Coastguard Worker                r = subprocess.call(
*da0073e9SAndroid Build Coastguard Worker                    [
*da0073e9SAndroid Build Coastguard Worker                        sys.executable,
*da0073e9SAndroid Build Coastguard Worker                        "-c",
*da0073e9SAndroid Build Coastguard Worker                        f"""\
*da0073e9SAndroid Build Coastguard Workerimport torch
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker{stmt}
*da0073e9SAndroid Build Coastguard Workertorch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker""",
*da0073e9SAndroid Build Coastguard Worker                    ]
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(r != 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(TEST_CUDAMALLOCASYNC, "FAIL")
*da0073e9SAndroid Build Coastguard Worker    def test_cublas_multiple_threads_same_device(self):
*da0073e9SAndroid Build Coastguard Worker        # Note, these parameters should be very carefully tuned
*da0073e9SAndroid Build Coastguard Worker        # Too small number makes it hard for the racing condition
*da0073e9SAndroid Build Coastguard Worker        # to happen, while too large number sometimes cause hang
*da0073e9SAndroid Build Coastguard Worker        size = 1024
*da0073e9SAndroid Build Coastguard Worker        num_threads = 2
*da0073e9SAndroid Build Coastguard Worker        trials = 3
*da0073e9SAndroid Build Coastguard Worker        test_iters = 100
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        weight = torch.ones((size, size), device="cuda")
*da0073e9SAndroid Build Coastguard Worker        results = {}
*da0073e9SAndroid Build Coastguard Worker        barrier = threading.Barrier(num_threads)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def _worker(t):
*da0073e9SAndroid Build Coastguard Worker            my_stream = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker            # Hard sync so we don't need to worry about creating and using tensors
*da0073e9SAndroid Build Coastguard Worker            # across streams or the fact that default streams are thread-local.
*da0073e9SAndroid Build Coastguard Worker            # Those issues are not the target of this test.
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker            # Line up threads to increase likelihood of race conditions.
*da0073e9SAndroid Build Coastguard Worker            barrier.wait()
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.stream(my_stream):
*da0073e9SAndroid Build Coastguard Worker                for i in range(test_iters):
*da0073e9SAndroid Build Coastguard Worker                    # If all threads are sharing the same cublas handle,
*da0073e9SAndroid Build Coastguard Worker                    # the following sequence may occur:
*da0073e9SAndroid Build Coastguard Worker                    # thread 0 calls cublasSetStream()
*da0073e9SAndroid Build Coastguard Worker                    # thread 1 calls cublasSetStream()
*da0073e9SAndroid Build Coastguard Worker                    # thread 0 launches its raw gemm, which it thinks is in
*da0073e9SAndroid Build Coastguard Worker                    #          its own stream, but is actually in thread 1's stream.
*da0073e9SAndroid Build Coastguard Worker                    # thread 0 enqueues its div_, which IS is its own stream,
*da0073e9SAndroid Build Coastguard Worker                    #          but actually now races with its gemm.
*da0073e9SAndroid Build Coastguard Worker                    results[t] = torch.mm(results[t], weight)
*da0073e9SAndroid Build Coastguard Worker                    results[t].div_(float(size))
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for _ in range(trials):
*da0073e9SAndroid Build Coastguard Worker            for t in range(num_threads):
*da0073e9SAndroid Build Coastguard Worker                results[t] = torch.ones((size, size), device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            threads = [
*da0073e9SAndroid Build Coastguard Worker                threading.Thread(target=_worker, args=(t,)) for t in range(num_threads)
*da0073e9SAndroid Build Coastguard Worker            ]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            for thread in threads:
*da0073e9SAndroid Build Coastguard Worker                thread.start()
*da0073e9SAndroid Build Coastguard Worker            for thread in threads:
*da0073e9SAndroid Build Coastguard Worker                thread.join()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            for t in range(num_threads):
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(results[t].sum().item(), size * size)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # Test is flaky on Windows (https://github.com/pytorch/pytorch/issues/57401)
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(IS_WINDOWS, "Test is flaky on Windows (see issue 57401)")
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_CUDNN, "CUDNN not available")
*da0073e9SAndroid Build Coastguard Worker    @skipIfRocm
*da0073e9SAndroid Build Coastguard Worker    def test_cudnn_multiple_threads_same_device(self):
*da0073e9SAndroid Build Coastguard Worker        # This function is intended to test the lazy creation and reuse of per-thread
*da0073e9SAndroid Build Coastguard Worker        # cudnn handles on each device in aten/src/ATen/cudnn/Handles.cpp.
*da0073e9SAndroid Build Coastguard Worker        # Failure here likely indicates something wrong with that logic.
*da0073e9SAndroid Build Coastguard Worker        weight = torch.ones((1, 1, 2, 2), device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        results = {}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        num_threads = 2
*da0073e9SAndroid Build Coastguard Worker        trials = 3
*da0073e9SAndroid Build Coastguard Worker        test_iters = 1000
*da0073e9SAndroid Build Coastguard Worker        barrier = threading.Barrier(num_threads)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with torch.backends.cudnn.flags(enabled=True):
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def _worker(t):
*da0073e9SAndroid Build Coastguard Worker                my_stream = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker                # Hard sync so we don't need to worry about creating and using tensors
*da0073e9SAndroid Build Coastguard Worker                # across streams or the fact that default streams are thread-local.
*da0073e9SAndroid Build Coastguard Worker                # Those issues are not the target of this test.
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker                # Line up threads to increase likelihood of race conditions.
*da0073e9SAndroid Build Coastguard Worker                barrier.wait()
*da0073e9SAndroid Build Coastguard Worker                with torch.cuda.stream(my_stream):
*da0073e9SAndroid Build Coastguard Worker                    for _ in range(test_iters):
*da0073e9SAndroid Build Coastguard Worker                        # If all threads are sharing the same cudnn handle,
*da0073e9SAndroid Build Coastguard Worker                        # the following sequence may occur:
*da0073e9SAndroid Build Coastguard Worker                        # thread 0 calls setCuDNNStreamToCurrent()
*da0073e9SAndroid Build Coastguard Worker                        # thread 1 calls setCuDNNStreamToCurrent()
*da0073e9SAndroid Build Coastguard Worker                        # thread 0 launches its raw convolution, which it thinks is in
*da0073e9SAndroid Build Coastguard Worker                        #          its own stream, but is actually in thread 1's stream.
*da0073e9SAndroid Build Coastguard Worker                        # thread 0 enqueues its div_, which IS is its own stream,
*da0073e9SAndroid Build Coastguard Worker                        #          but now races with its convolution.
*da0073e9SAndroid Build Coastguard Worker                        results[t] = torch.nn.functional.conv2d(
*da0073e9SAndroid Build Coastguard Worker                            results[t], weight, padding=0
*da0073e9SAndroid Build Coastguard Worker                        )
*da0073e9SAndroid Build Coastguard Worker                        results[t].div_(4.0)
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            for _ in range(trials):
*da0073e9SAndroid Build Coastguard Worker                for t in range(num_threads):
*da0073e9SAndroid Build Coastguard Worker                    results[t] = torch.ones((1, 1, 2048, 2048), device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                threads = [
*da0073e9SAndroid Build Coastguard Worker                    threading.Thread(target=_worker, args=(t,))
*da0073e9SAndroid Build Coastguard Worker                    for t in range(num_threads)
*da0073e9SAndroid Build Coastguard Worker                ]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                for thread in threads:
*da0073e9SAndroid Build Coastguard Worker                    thread.start()
*da0073e9SAndroid Build Coastguard Worker                for thread in threads:
*da0073e9SAndroid Build Coastguard Worker                    thread.join()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                for t in range(num_threads):
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker                        results[t].sum().item(),
*da0073e9SAndroid Build Coastguard Worker                        (2048 - test_iters) * (2048 - test_iters),
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_cusparse_multiple_threads_same_device(self):
*da0073e9SAndroid Build Coastguard Worker        size = 1024
*da0073e9SAndroid Build Coastguard Worker        num_threads = 2
*da0073e9SAndroid Build Coastguard Worker        trials = 3
*da0073e9SAndroid Build Coastguard Worker        test_iters = 500
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def ones_sparse(size):
*da0073e9SAndroid Build Coastguard Worker            a = torch.arange(size, device="cuda")
*da0073e9SAndroid Build Coastguard Worker            indices = torch.cartesian_prod(a, a).t()
*da0073e9SAndroid Build Coastguard Worker            values = torch.ones(size * size, device="cuda")
*da0073e9SAndroid Build Coastguard Worker            return torch.sparse_coo_tensor(indices, values)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        weight = ones_sparse(size)
*da0073e9SAndroid Build Coastguard Worker        results = {}
*da0073e9SAndroid Build Coastguard Worker        barrier = threading.Barrier(num_threads)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def _worker(t):
*da0073e9SAndroid Build Coastguard Worker            my_stream = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker            # Hard sync so we don't need to worry about creating and using tensors
*da0073e9SAndroid Build Coastguard Worker            # across streams or the fact that default streams are thread-local.
*da0073e9SAndroid Build Coastguard Worker            # Those issues are not the target of this test.
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker            # Line up threads to increase likelihood of race conditions.
*da0073e9SAndroid Build Coastguard Worker            barrier.wait()
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.stream(my_stream):
*da0073e9SAndroid Build Coastguard Worker                for i in range(test_iters):
*da0073e9SAndroid Build Coastguard Worker                    # If all threads are sharing the same cublas handle,
*da0073e9SAndroid Build Coastguard Worker                    # the following sequence may occur:
*da0073e9SAndroid Build Coastguard Worker                    # thread 0 calls cublasSetStream()
*da0073e9SAndroid Build Coastguard Worker                    # thread 1 calls cublasSetStream()
*da0073e9SAndroid Build Coastguard Worker                    # thread 0 launches its raw gemm, which it thinks is in
*da0073e9SAndroid Build Coastguard Worker                    #          its own stream, but is actually in thread 1's stream.
*da0073e9SAndroid Build Coastguard Worker                    # thread 0 enqueues its div_, which IS is its own stream,
*da0073e9SAndroid Build Coastguard Worker                    #          but actually now races with its gemm.
*da0073e9SAndroid Build Coastguard Worker                    results[t] = weight.mm(results[t])
*da0073e9SAndroid Build Coastguard Worker                    results[t].div_(float(size))
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for _ in range(trials):
*da0073e9SAndroid Build Coastguard Worker            for t in range(num_threads):
*da0073e9SAndroid Build Coastguard Worker                results[t] = torch.ones((size, size), device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            threads = [
*da0073e9SAndroid Build Coastguard Worker                threading.Thread(target=_worker, args=(t,)) for t in range(num_threads)
*da0073e9SAndroid Build Coastguard Worker            ]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            for thread in threads:
*da0073e9SAndroid Build Coastguard Worker                thread.start()
*da0073e9SAndroid Build Coastguard Worker            for thread in threads:
*da0073e9SAndroid Build Coastguard Worker                thread.join()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            for t in range(num_threads):
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(results[t].sum().item(), size * size)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @slowTest
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_LARGE_TENSOR, "not enough memory")
*da0073e9SAndroid Build Coastguard Worker    @serialTest()
*da0073e9SAndroid Build Coastguard Worker    def test_max_large_axis(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.zeros(2**32, device="cuda", dtype=torch.int8)
*da0073e9SAndroid Build Coastguard Worker        x[-1] = 1
*da0073e9SAndroid Build Coastguard Worker        val, idx = x.max(0)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(val, 1)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(idx, x.shape[0] - 1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_NUMPY, "Numpy not found")
*da0073e9SAndroid Build Coastguard Worker    def test_to_numpy(self):
*da0073e9SAndroid Build Coastguard Worker        self.assertRaises(TypeError, lambda: torch.empty(1, device="cuda").numpy())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_graph_is_current_stream_capturing(self):
*da0073e9SAndroid Build Coastguard Worker        self.assertFalse(torch.cuda.is_current_stream_capturing())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if TEST_CUDA and (not TEST_WITH_ROCM):
*da0073e9SAndroid Build Coastguard Worker            s = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.stream(s):
*da0073e9SAndroid Build Coastguard Worker                g = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker                self.assertFalse(torch.cuda.is_current_stream_capturing())
*da0073e9SAndroid Build Coastguard Worker                g.capture_begin()
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(torch.cuda.is_current_stream_capturing())
*da0073e9SAndroid Build Coastguard Worker                g.capture_end()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_graph_capture_simple(self):
*da0073e9SAndroid Build Coastguard Worker        s = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(s):
*da0073e9SAndroid Build Coastguard Worker            a = torch.full((1000,), 1, device="cuda")
*da0073e9SAndroid Build Coastguard Worker            g = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker            g.capture_begin()
*da0073e9SAndroid Build Coastguard Worker            b = a
*da0073e9SAndroid Build Coastguard Worker            for _ in range(10):
*da0073e9SAndroid Build Coastguard Worker                b = b + 1
*da0073e9SAndroid Build Coastguard Worker            g.capture_end()
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.current_stream().wait_stream(s)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        g.replay()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(b.sum().item() == 11000.0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_graphsafe_set_get_rng_state(self):
*da0073e9SAndroid Build Coastguard Worker        # Define a function to create generator states, with optional graph registration
*da0073e9SAndroid Build Coastguard Worker        def create_states(generator):
*da0073e9SAndroid Build Coastguard Worker            """Initializes generator states and registers them with a CUDA graph if provided."""
*da0073e9SAndroid Build Coastguard Worker            # Ensure the CUDA generator is initialized
*da0073e9SAndroid Build Coastguard Worker            torch.rand(1, device="cuda")
*da0073e9SAndroid Build Coastguard Worker            generator.manual_seed(0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Save the current state of the generator
*da0073e9SAndroid Build Coastguard Worker            old_state = generator.graphsafe_get_state()
*da0073e9SAndroid Build Coastguard Worker            # Create and save a cloned state of the generator
*da0073e9SAndroid Build Coastguard Worker            new_state = generator.clone_state()
*da0073e9SAndroid Build Coastguard Worker            # Return the original generator and its two states
*da0073e9SAndroid Build Coastguard Worker            return generator, old_state, new_state
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def register_states_to_graph(generator_state, graph):
*da0073e9SAndroid Build Coastguard Worker            generator, old_state, new_state = generator_state
*da0073e9SAndroid Build Coastguard Worker            graph.register_generator_state(old_state)
*da0073e9SAndroid Build Coastguard Worker            graph.register_generator_state(new_state)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Define a function to perform specific RNG actions using the generator's states
*da0073e9SAndroid Build Coastguard Worker        def perform_random_generation_steps(generator_state):
*da0073e9SAndroid Build Coastguard Worker            generator, old_state, new_state = generator_state
*da0073e9SAndroid Build Coastguard Worker            random_values = []
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Generate random numbers with the new generator state
*da0073e9SAndroid Build Coastguard Worker            generator.graphsafe_set_state(new_state)
*da0073e9SAndroid Build Coastguard Worker            random_values.append(torch.rand(5, device="cuda", generator=generator))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Generate random numbers twice with the old generator state
*da0073e9SAndroid Build Coastguard Worker            generator.graphsafe_set_state(old_state)
*da0073e9SAndroid Build Coastguard Worker            random_values.extend(
*da0073e9SAndroid Build Coastguard Worker                [torch.rand(5, device="cuda", generator=generator) for _ in range(2)]
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            return random_values
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Define a function to retrieve the final offsets of the original and new generator states
*da0073e9SAndroid Build Coastguard Worker        def get_final_offsets_of_states(generator_state):
*da0073e9SAndroid Build Coastguard Worker            generator, old_state, new_state = generator_state
*da0073e9SAndroid Build Coastguard Worker            old_state_offset = old_state.get_offset()
*da0073e9SAndroid Build Coastguard Worker            new_state_offset = new_state.get_offset()
*da0073e9SAndroid Build Coastguard Worker            return old_state_offset, new_state_offset
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Set up and test a new CUDA generator
*da0073e9SAndroid Build Coastguard Worker        generator = torch.Generator(device="cuda")
*da0073e9SAndroid Build Coastguard Worker        generator_state = create_states(generator)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Set up and test the default CUDA generator with a CUDA Graph
*da0073e9SAndroid Build Coastguard Worker        g = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker        s = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker        default_generator = torch.cuda.default_generators[0]
*da0073e9SAndroid Build Coastguard Worker        default_generator_state = create_states(default_generator)
*da0073e9SAndroid Build Coastguard Worker        register_states_to_graph(default_generator_state, g)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Perform random number generation within a CUDA graph
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(s):
*da0073e9SAndroid Build Coastguard Worker            g.capture_begin()
*da0073e9SAndroid Build Coastguard Worker            graphed_random_values = perform_random_generation_steps(
*da0073e9SAndroid Build Coastguard Worker                default_generator_state
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            g.capture_end()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Synchronize the streams and replay the graph
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.current_stream().wait_stream(s)
*da0073e9SAndroid Build Coastguard Worker        for _ in range(3):
*da0073e9SAndroid Build Coastguard Worker            random_values = perform_random_generation_steps(generator_state)
*da0073e9SAndroid Build Coastguard Worker            g.replay()
*da0073e9SAndroid Build Coastguard Worker            offset = get_final_offsets_of_states(generator_state)
*da0073e9SAndroid Build Coastguard Worker            graph_offset = get_final_offsets_of_states(default_generator_state)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Compare the final offsets of states for both generators to ensure consistency
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(offset == graph_offset)
*da0073e9SAndroid Build Coastguard Worker            # Compare the states generated outside and inside the graph
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(random_values, graphed_random_values)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_memory_stats_of_multiple_generators_and_graphs(self):
*da0073e9SAndroid Build Coastguard Worker        # Function to clear CUDA cache and collect garbage
*da0073e9SAndroid Build Coastguard Worker        def clear_cuda_cache():
*da0073e9SAndroid Build Coastguard Worker            gc.collect()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Executes a simple graph task which includes capturing and executing a random number generation within a CUDA graph.
*da0073e9SAndroid Build Coastguard Worker        def simple_graph_task(graph):
*da0073e9SAndroid Build Coastguard Worker            s = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.stream(s):
*da0073e9SAndroid Build Coastguard Worker                graph.capture_begin()
*da0073e9SAndroid Build Coastguard Worker                torch.rand(1, device="cuda")
*da0073e9SAndroid Build Coastguard Worker                graph.capture_end()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.current_stream().wait_stream(s)
*da0073e9SAndroid Build Coastguard Worker            graph.replay()  # Replays the captured operations
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def get_memory_stats():
*da0073e9SAndroid Build Coastguard Worker            stats = torch.cuda.memory_stats()
*da0073e9SAndroid Build Coastguard Worker            num_blocks = stats["active.all.current"]
*da0073e9SAndroid Build Coastguard Worker            total_size = stats["active_bytes.all.current"]
*da0073e9SAndroid Build Coastguard Worker            return num_blocks, total_size
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def test(num_graphs, num_generators):
*da0073e9SAndroid Build Coastguard Worker            baseline = get_memory_stats()
*da0073e9SAndroid Build Coastguard Worker            baseline_num_blocks, baseline_total_size = baseline
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Allocate CUDA graphs
*da0073e9SAndroid Build Coastguard Worker            graphs = [torch.cuda.CUDAGraph() for _ in range(num_graphs)]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Allocate and manage generator states
*da0073e9SAndroid Build Coastguard Worker            default_generator = torch.cuda.default_generators[0]
*da0073e9SAndroid Build Coastguard Worker            generators = [default_generator.graphsafe_get_state()]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Starts from 1 as one state is already added
*da0073e9SAndroid Build Coastguard Worker            for _ in range(1, num_generators):
*da0073e9SAndroid Build Coastguard Worker                generators.append(default_generator.clone_state())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            for graph in graphs:
*da0073e9SAndroid Build Coastguard Worker                for generator_state in generators:
*da0073e9SAndroid Build Coastguard Worker                    graph.register_generator_state(generator_state)
*da0073e9SAndroid Build Coastguard Worker                simple_graph_task(graph)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Assert conditions after graph tasks
*da0073e9SAndroid Build Coastguard Worker            num_blocks, total_size = get_memory_stats()
*da0073e9SAndroid Build Coastguard Worker            # The allocated blocks should only be proportional to the number of generators
*da0073e9SAndroid Build Coastguard Worker            expected_blocks_diff = 2 * num_generators
*da0073e9SAndroid Build Coastguard Worker            expected_size_diff = 2 * 512 * num_generators  # Each block's size is 512
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(
*da0073e9SAndroid Build Coastguard Worker                (num_blocks - baseline_num_blocks) == expected_blocks_diff,
*da0073e9SAndroid Build Coastguard Worker                "Unexpected number of active blocks.",
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(
*da0073e9SAndroid Build Coastguard Worker                (total_size - baseline_total_size) == expected_size_diff,
*da0073e9SAndroid Build Coastguard Worker                "Unexpected total memory size.",
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Cleanup graphs and clear CUDA cache
*da0073e9SAndroid Build Coastguard Worker            while graphs:
*da0073e9SAndroid Build Coastguard Worker                graph = graphs.pop()
*da0073e9SAndroid Build Coastguard Worker                del graph
*da0073e9SAndroid Build Coastguard Worker            clear_cuda_cache()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Assert that memory stats return to baseline after cleanup
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(
*da0073e9SAndroid Build Coastguard Worker                get_memory_stats() == baseline,
*da0073e9SAndroid Build Coastguard Worker                "Memory stats do not match baseline after cleanup.",
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Running the test function with different parameters
*da0073e9SAndroid Build Coastguard Worker        test(1, 1)
*da0073e9SAndroid Build Coastguard Worker        test(3, 2)
*da0073e9SAndroid Build Coastguard Worker        test(10, 20)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_graph_capture_reset_recapture(self):
*da0073e9SAndroid Build Coastguard Worker        s = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(s):
*da0073e9SAndroid Build Coastguard Worker            a = torch.full((1000,), 1, device="cuda")
*da0073e9SAndroid Build Coastguard Worker            g = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker            g.capture_begin()
*da0073e9SAndroid Build Coastguard Worker            b = a
*da0073e9SAndroid Build Coastguard Worker            for _ in range(10):
*da0073e9SAndroid Build Coastguard Worker                b = b + 1
*da0073e9SAndroid Build Coastguard Worker            g.capture_end()
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.current_stream().wait_stream(s)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        g.replay()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(b.sum().item() == 11000.0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        g.reset()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(s):
*da0073e9SAndroid Build Coastguard Worker            g.capture_begin()
*da0073e9SAndroid Build Coastguard Worker            b.fill_(2.0)
*da0073e9SAndroid Build Coastguard Worker            for _ in range(10):
*da0073e9SAndroid Build Coastguard Worker                b = b + 2
*da0073e9SAndroid Build Coastguard Worker            g.capture_end()
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.current_stream().wait_stream(s)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        g.replay()
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(b.sum().item() == 22000.0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        g.reset()
*da0073e9SAndroid Build Coastguard Worker        del g
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_graph_debugdump(self):
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(10240000, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        y = torch.rand_like(x)
*da0073e9SAndroid Build Coastguard Worker        g = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker        g.enable_debug_mode()
*da0073e9SAndroid Build Coastguard Worker        s0 = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker        s1 = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker        s0.wait_stream(torch.cuda.current_stream())
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(s0):
*da0073e9SAndroid Build Coastguard Worker            g.capture_begin()
*da0073e9SAndroid Build Coastguard Worker            z = x + y
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.stream(s1):
*da0073e9SAndroid Build Coastguard Worker                s1.wait_stream(s0)
*da0073e9SAndroid Build Coastguard Worker                w = z + y
*da0073e9SAndroid Build Coastguard Worker            s0.wait_stream(s1)
*da0073e9SAndroid Build Coastguard Worker            g.capture_end()
*da0073e9SAndroid Build Coastguard Worker        s0.synchronize()
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker        with tempfile.TemporaryDirectory() as tempdir:
*da0073e9SAndroid Build Coastguard Worker            g.debug_dump(os.path.join(tempdir, "out_multi_stream.dot"))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_graph_error(self):
*da0073e9SAndroid Build Coastguard Worker        # We need to run this test in a separate thread as the error we trigger
*da0073e9SAndroid Build Coastguard Worker        # puts the cuda context in a bad state
*da0073e9SAndroid Build Coastguard Worker        script = """
*da0073e9SAndroid Build Coastguard Workerimport torch
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerg = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Workertry:
*da0073e9SAndroid Build Coastguard Worker    g.capture_begin()
*da0073e9SAndroid Build Coastguard Workerexcept RuntimeError as e:
*da0073e9SAndroid Build Coastguard Worker    if "CUDA graphs must be captured on a non-default stream." in str(e):
*da0073e9SAndroid Build Coastguard Worker        exit(0)
*da0073e9SAndroid Build Coastguard Worker    else:
*da0073e9SAndroid Build Coastguard Worker        exit(1)
*da0073e9SAndroid Build Coastguard Workerexit(2)
*da0073e9SAndroid Build Coastguard Worker"""
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            a = subprocess.check_output(
*da0073e9SAndroid Build Coastguard Worker                [sys.executable, "-c", script],
*da0073e9SAndroid Build Coastguard Worker                stderr=subprocess.STDOUT,
*da0073e9SAndroid Build Coastguard Worker                # On Windows, opening the subprocess with the default CWD makes `import torch`
*da0073e9SAndroid Build Coastguard Worker                # fail, so just set CWD to this script's directory
*da0073e9SAndroid Build Coastguard Worker                cwd=os.path.dirname(os.path.realpath(__file__)),
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker        except subprocess.CalledProcessError as e:
*da0073e9SAndroid Build Coastguard Worker            if e.returncode == 1:
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(
*da0073e9SAndroid Build Coastguard Worker                    False,
*da0073e9SAndroid Build Coastguard Worker                    "Error raise by starting capture without a stream is not the expected one",
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            elif e.returncode == 2:
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(
*da0073e9SAndroid Build Coastguard Worker                    False,
*da0073e9SAndroid Build Coastguard Worker                    "Error raised by starting capture without a stream was not caught",
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        (not TEST_CUDA) or TEST_WITH_ROCM or int(torch.version.cuda.split(".")[0]) < 11,
*da0073e9SAndroid Build Coastguard Worker        "CUDA >= 11.0 required for graphs",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_graph_warn_if_has_zero_nodes(self):
*da0073e9SAndroid Build Coastguard Worker        with warnings.catch_warnings(record=True) as caught:
*da0073e9SAndroid Build Coastguard Worker            g = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker            s = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.stream(s):
*da0073e9SAndroid Build Coastguard Worker                g.capture_begin()
*da0073e9SAndroid Build Coastguard Worker                g.capture_end()
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(
*da0073e9SAndroid Build Coastguard Worker            any("The CUDA Graph is empty" in str(w.message) for w in caught)
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        IS_JETSON, "oom reporting has issues on jetson igx due to partial nvml support"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_graph_capture_oom(self):
*da0073e9SAndroid Build Coastguard Worker        oom_regex = (
*da0073e9SAndroid Build Coastguard Worker            "would exceed allowed memory" if TEST_CUDAMALLOCASYNC else "out of memory"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(RuntimeError, oom_regex):
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.graph(torch.cuda.CUDAGraph()):
*da0073e9SAndroid Build Coastguard Worker                torch.zeros(2**40, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @serialTest()
*da0073e9SAndroid Build Coastguard Worker    def test_repeat_graph_capture_cublas_workspace_memory(self):
*da0073e9SAndroid Build Coastguard Worker        (x, y, z) = 1024, 512, 64
*da0073e9SAndroid Build Coastguard Worker        a = torch.rand((x, y), device="cuda")
*da0073e9SAndroid Build Coastguard Worker        b = torch.rand((y, z), device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # warmup
*da0073e9SAndroid Build Coastguard Worker        torch.mm(a, b)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        free_bytes_before, total_bytes = torch.cuda.mem_get_info()
*da0073e9SAndroid Build Coastguard Worker        used_gb_before = (total_bytes - free_bytes_before) / 1e9
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for i in range(100):
*da0073e9SAndroid Build Coastguard Worker            torch_graph = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.graph(torch_graph):
*da0073e9SAndroid Build Coastguard Worker                torch.mm(a, b)
*da0073e9SAndroid Build Coastguard Worker            torch_graph.replay()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        free_bytes_after, _ = torch.cuda.mem_get_info()
*da0073e9SAndroid Build Coastguard Worker        used_gb_after = (total_bytes - free_bytes_after) / 1e9
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertFalse(used_gb_before + 0.1 < used_gb_after)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_graph_rng_functional(self):
*da0073e9SAndroid Build Coastguard Worker        ops_with_kwargs = (
*da0073e9SAndroid Build Coastguard Worker            (torch.nn.functional.dropout, {"p": 0.1}),
*da0073e9SAndroid Build Coastguard Worker            (torch.nn.functional.rrelu, {"training": True}),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        size = 10000
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def run(op, kwargs):
*da0073e9SAndroid Build Coastguard Worker            a = torch.randn((size,), device="cuda", dtype=torch.float)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Control
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.manual_seed(5)
*da0073e9SAndroid Build Coastguard Worker            eager_out = a
*da0073e9SAndroid Build Coastguard Worker            for _ in range(6):
*da0073e9SAndroid Build Coastguard Worker                eager_out = op(eager_out, **kwargs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            graph_in = a.clone()
*da0073e9SAndroid Build Coastguard Worker            stream = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker            stream.wait_stream(torch.cuda.current_stream())
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.stream(stream):
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.manual_seed(5)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                g = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker                g.capture_begin()
*da0073e9SAndroid Build Coastguard Worker                graph_out = graph_in
*da0073e9SAndroid Build Coastguard Worker                for _ in range(2):
*da0073e9SAndroid Build Coastguard Worker                    graph_out = op(graph_out, **kwargs)
*da0073e9SAndroid Build Coastguard Worker                g.capture_end()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.current_stream().wait_stream(stream)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Runs a graphed->eager->graphed sequence of RNG ops.
*da0073e9SAndroid Build Coastguard Worker            # replay() plays 2 invocations of the op, so the sequence has 6
*da0073e9SAndroid Build Coastguard Worker            # invocations total, matching Control.
*da0073e9SAndroid Build Coastguard Worker            # replay() reads from graph_in and writes to graph_out.
*da0073e9SAndroid Build Coastguard Worker            g.replay()
*da0073e9SAndroid Build Coastguard Worker            out = op(graph_out, **kwargs)
*da0073e9SAndroid Build Coastguard Worker            out = op(out, **kwargs)
*da0073e9SAndroid Build Coastguard Worker            graph_in.copy_(out)
*da0073e9SAndroid Build Coastguard Worker            g.replay()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # If replay() updated RNG state correctly, graph_out
*da0073e9SAndroid Build Coastguard Worker            # should now hold data equal to eager_out.
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(eager_out, graph_out)
*da0073e9SAndroid Build Coastguard Worker            except Exception as e:
*da0073e9SAndroid Build Coastguard Worker                raise RuntimeError("Failed on ", op) from e
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Do the same operations varying seeds
*da0073e9SAndroid Build Coastguard Worker            seeds = [6, 128, 9999]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            for seed in seeds:
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.manual_seed(seed)
*da0073e9SAndroid Build Coastguard Worker                graph_in.copy_(a)
*da0073e9SAndroid Build Coastguard Worker                for _ in range(3):
*da0073e9SAndroid Build Coastguard Worker                    g.replay()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # If the random seed was not updated then the graph would
*da0073e9SAndroid Build Coastguard Worker                # generate the same output as in previous check.
*da0073e9SAndroid Build Coastguard Worker                try:
*da0073e9SAndroid Build Coastguard Worker                    self.assertNotEqual(eager_out, graph_out)
*da0073e9SAndroid Build Coastguard Worker                except Exception as e:
*da0073e9SAndroid Build Coastguard Worker                    raise RuntimeError("Failed on ", op) from e
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # Now repeat the same operations in non-graphed mode.
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.manual_seed(seed)
*da0073e9SAndroid Build Coastguard Worker                for _ in range(3):
*da0073e9SAndroid Build Coastguard Worker                    eager_out.copy_(a)
*da0073e9SAndroid Build Coastguard Worker                    eager_out = op(eager_out, **kwargs)
*da0073e9SAndroid Build Coastguard Worker                    eager_out = op(eager_out, **kwargs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # In the end, graph_out and eager_out must be equal
*da0073e9SAndroid Build Coastguard Worker                # as they went under the same set of operations.
*da0073e9SAndroid Build Coastguard Worker                try:
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(eager_out, graph_out)
*da0073e9SAndroid Build Coastguard Worker                except Exception as e:
*da0073e9SAndroid Build Coastguard Worker                    raise RuntimeError("Failed on ", op) from e
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # We hold references to all tensors used across streams up til this sync,
*da0073e9SAndroid Build Coastguard Worker            # so no need to call record_stream on those tensors.
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for op, kwargs in ops_with_kwargs:
*da0073e9SAndroid Build Coastguard Worker            run(op, kwargs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_graph_rng_distributions(self):
*da0073e9SAndroid Build Coastguard Worker        size = 10000
*da0073e9SAndroid Build Coastguard Worker        input = torch.rand((size,), device="cuda", dtype=torch.float)
*da0073e9SAndroid Build Coastguard Worker        alloc = torch.empty((size,), device="cuda", dtype=torch.float)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Torch ops to test with sample args (tuple) and kwargs (dict)
*da0073e9SAndroid Build Coastguard Worker        torch_with_args = (
*da0073e9SAndroid Build Coastguard Worker            ("bernoulli", (input.clone(),), {}),
*da0073e9SAndroid Build Coastguard Worker            # multinomial uses some uncapturable CUDA calls.
*da0073e9SAndroid Build Coastguard Worker            # TODO: reenable multinomial tests if/when the implementation is capturable.
*da0073e9SAndroid Build Coastguard Worker            # ("multinomial", (input.clone(), size, True), {}),
*da0073e9SAndroid Build Coastguard Worker            # ("multinomial", (input.clone(), size // 2, False), {}),
*da0073e9SAndroid Build Coastguard Worker            # TODO: reenable normal test, where std is a device
*da0073e9SAndroid Build Coastguard Worker            # tensor, when graph test failures are fixed
*da0073e9SAndroid Build Coastguard Worker            # ("normal", (input.clone() + 1, input.clone()), {}),
*da0073e9SAndroid Build Coastguard Worker            ("normal", (input.clone() + 1, 1.0), {}),
*da0073e9SAndroid Build Coastguard Worker            ("poisson", (input.clone(),), {}),
*da0073e9SAndroid Build Coastguard Worker            ("rand", (size,), {"device": "cuda", "dtype": torch.float}),
*da0073e9SAndroid Build Coastguard Worker            ("randint", (0, 3, (size,)), {"device": "cuda", "dtype": torch.float}),
*da0073e9SAndroid Build Coastguard Worker            ("randn", (size,), {"device": "cuda", "dtype": torch.float}),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Tensor methods to test with sample args (tuple)
*da0073e9SAndroid Build Coastguard Worker        tensor_with_args = (
*da0073e9SAndroid Build Coastguard Worker            ("bernoulli_", (input.clone(),)),
*da0073e9SAndroid Build Coastguard Worker            ("cauchy_", ()),
*da0073e9SAndroid Build Coastguard Worker            ("exponential_", ()),
*da0073e9SAndroid Build Coastguard Worker            ("geometric_", (0.3,)),
*da0073e9SAndroid Build Coastguard Worker            ("log_normal_", ()),
*da0073e9SAndroid Build Coastguard Worker            ("normal_", ()),
*da0073e9SAndroid Build Coastguard Worker            ("random_", ()),
*da0073e9SAndroid Build Coastguard Worker            ("uniform_", ()),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def run(module, op, args, kwargs):
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.manual_seed(5)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Each path runs a dummy op to increment the state a bit before creating controls.
*da0073e9SAndroid Build Coastguard Worker            if module == "torch":
*da0073e9SAndroid Build Coastguard Worker                dummy = getattr(torch, op)(*args, **kwargs)
*da0073e9SAndroid Build Coastguard Worker                control1 = getattr(torch, op)(*args, **kwargs)
*da0073e9SAndroid Build Coastguard Worker                control2 = getattr(torch, op)(*args, **kwargs)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                dummy = alloc.clone()
*da0073e9SAndroid Build Coastguard Worker                control1 = alloc.clone()
*da0073e9SAndroid Build Coastguard Worker                control2 = alloc.clone()
*da0073e9SAndroid Build Coastguard Worker                getattr(dummy, op)(*args)
*da0073e9SAndroid Build Coastguard Worker                getattr(control1, op)(*args)
*da0073e9SAndroid Build Coastguard Worker                getattr(control2, op)(*args)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            stream = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker            stream.wait_stream(torch.cuda.current_stream())
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.stream(stream):
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.manual_seed(5)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                g = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker                if module == "torch":
*da0073e9SAndroid Build Coastguard Worker                    g.capture_begin()
*da0073e9SAndroid Build Coastguard Worker                    t1 = getattr(torch, op)(*args, **kwargs)
*da0073e9SAndroid Build Coastguard Worker                    t2 = getattr(torch, op)(*args, **kwargs)
*da0073e9SAndroid Build Coastguard Worker                    g.capture_end()
*da0073e9SAndroid Build Coastguard Worker                else:
*da0073e9SAndroid Build Coastguard Worker                    t1 = alloc.clone()
*da0073e9SAndroid Build Coastguard Worker                    t2 = alloc.clone()
*da0073e9SAndroid Build Coastguard Worker                    g.capture_begin()
*da0073e9SAndroid Build Coastguard Worker                    getattr(t1, op)(*args)
*da0073e9SAndroid Build Coastguard Worker                    getattr(t2, op)(*args)
*da0073e9SAndroid Build Coastguard Worker                    g.capture_end()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.current_stream().wait_stream(stream)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if not TEST_CUDAMALLOCASYNC:
*da0073e9SAndroid Build Coastguard Worker                # Makes sure values haven't been populated yet
*da0073e9SAndroid Build Coastguard Worker                # (in other words, makes sure capture didn't actually run ops).
*da0073e9SAndroid Build Coastguard Worker                # We can only try this with the native allocator, for which captured
*da0073e9SAndroid Build Coastguard Worker                # addresses are already backed by cudaMalloced memory.
*da0073e9SAndroid Build Coastguard Worker                # If we try it with cudaMallocAsync, CUDA won't event consider
*da0073e9SAndroid Build Coastguard Worker                # the captured addresses allocated until replay(), and if we
*da0073e9SAndroid Build Coastguard Worker                # access them before replay() we get IMAs.
*da0073e9SAndroid Build Coastguard Worker                try:
*da0073e9SAndroid Build Coastguard Worker                    self.assertNotEqual(control1, t1)
*da0073e9SAndroid Build Coastguard Worker                    self.assertNotEqual(control2, t2)
*da0073e9SAndroid Build Coastguard Worker                except Exception as e:
*da0073e9SAndroid Build Coastguard Worker                    raise RuntimeError("Failed on " + module + "." + op) from e
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Set a new seed to check if graph would use it
*da0073e9SAndroid Build Coastguard Worker            for seed in [6, 314, 271]:
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.manual_seed(seed)
*da0073e9SAndroid Build Coastguard Worker                # Runs a dummy op prelude, as for controls, to make sure replay()
*da0073e9SAndroid Build Coastguard Worker                # picks up the dummy op's state increment.
*da0073e9SAndroid Build Coastguard Worker                if module == "torch":
*da0073e9SAndroid Build Coastguard Worker                    dummy = getattr(torch, op)(*args, **kwargs)
*da0073e9SAndroid Build Coastguard Worker                    control1 = getattr(torch, op)(*args, **kwargs)
*da0073e9SAndroid Build Coastguard Worker                    control2 = getattr(torch, op)(*args, **kwargs)
*da0073e9SAndroid Build Coastguard Worker                else:
*da0073e9SAndroid Build Coastguard Worker                    getattr(dummy, op)(*args)
*da0073e9SAndroid Build Coastguard Worker                    getattr(control1, op)(*args)
*da0073e9SAndroid Build Coastguard Worker                    getattr(control2, op)(*args)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.manual_seed(seed)
*da0073e9SAndroid Build Coastguard Worker                if module == "torch":
*da0073e9SAndroid Build Coastguard Worker                    dummy = getattr(torch, op)(*args, **kwargs)
*da0073e9SAndroid Build Coastguard Worker                else:
*da0073e9SAndroid Build Coastguard Worker                    getattr(dummy, op)(*args)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # see above comment on TEST_CUDAMALLOCASYNC
*da0073e9SAndroid Build Coastguard Worker                if not TEST_CUDAMALLOCASYNC:
*da0073e9SAndroid Build Coastguard Worker                    t1.copy_(alloc)
*da0073e9SAndroid Build Coastguard Worker                    t2.copy_(alloc)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # Runs RNG ops that fill t1 and t2.
*da0073e9SAndroid Build Coastguard Worker                g.replay()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                try:
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(control1, t1)
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(control2, t2)
*da0073e9SAndroid Build Coastguard Worker                except Exception as e:
*da0073e9SAndroid Build Coastguard Worker                    raise RuntimeError("Failed on " + module + "." + op) from e
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # We hold references to all tensors used across streams up til this sync,
*da0073e9SAndroid Build Coastguard Worker            # so no need to call record_stream on those tensors.
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for op_with_args in torch_with_args:
*da0073e9SAndroid Build Coastguard Worker            run("torch", *op_with_args)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for meth_with_args in tensor_with_args:
*da0073e9SAndroid Build Coastguard Worker            # Adds an empty dict for kwargs, which none of the Tensor methods use
*da0073e9SAndroid Build Coastguard Worker            run("Tensor", *(meth_with_args + ({},)))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_graph_two_successive(self):
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        size = 1000
*da0073e9SAndroid Build Coastguard Worker        kSmallBuffer = 2097152
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def func_with_temps(t, val):
*da0073e9SAndroid Build Coastguard Worker            x = t.clone() + val
*da0073e9SAndroid Build Coastguard Worker            y = t.clone() + val
*da0073e9SAndroid Build Coastguard Worker            return x + y
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        s = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for share_mem in ("Don't share", "via pool()", "via graph_pool_handle()"):
*da0073e9SAndroid Build Coastguard Worker            g0 = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker            g1 = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            a = torch.ones((size,), device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            s.wait_stream(torch.cuda.current_stream())
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.stream(s):
*da0073e9SAndroid Build Coastguard Worker                g0_args = (
*da0073e9SAndroid Build Coastguard Worker                    (torch.cuda.graph_pool_handle(),)
*da0073e9SAndroid Build Coastguard Worker                    if share_mem == "via graph_pool_handle()"
*da0073e9SAndroid Build Coastguard Worker                    else ()
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                g0.capture_begin(*g0_args)
*da0073e9SAndroid Build Coastguard Worker                b = a.clone()
*da0073e9SAndroid Build Coastguard Worker                for _ in range(5):
*da0073e9SAndroid Build Coastguard Worker                    b = func_with_temps(b, 1)
*da0073e9SAndroid Build Coastguard Worker                g0.capture_end()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                g1_args = (g0.pool(),) if share_mem == "via pool()" else g0_args
*da0073e9SAndroid Build Coastguard Worker                g1.capture_begin(*g1_args)
*da0073e9SAndroid Build Coastguard Worker                for _ in range(5):
*da0073e9SAndroid Build Coastguard Worker                    b = func_with_temps(b, 1)
*da0073e9SAndroid Build Coastguard Worker                g1.capture_end()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.current_stream().wait_stream(s)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # mixes unrelated eager ops with replays
*da0073e9SAndroid Build Coastguard Worker            c = a.clone()
*da0073e9SAndroid Build Coastguard Worker            for _ in range(2):
*da0073e9SAndroid Build Coastguard Worker                c = func_with_temps(c, 3)
*da0073e9SAndroid Build Coastguard Worker            g0.replay()
*da0073e9SAndroid Build Coastguard Worker            for _ in range(2):
*da0073e9SAndroid Build Coastguard Worker                c = func_with_temps(c, 3)
*da0073e9SAndroid Build Coastguard Worker            g1.replay()
*da0073e9SAndroid Build Coastguard Worker            for _ in range(2):
*da0073e9SAndroid Build Coastguard Worker                c = func_with_temps(c, 3)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(b.sum().item(), size * 3070)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(c.sum().item(), size * 442)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if not TEST_CUDAMALLOCASYNC:
*da0073e9SAndroid Build Coastguard Worker                # These stat checks are specific to the native allocator.
*da0073e9SAndroid Build Coastguard Worker                if share_mem != "Don't share":
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker                        reserved_no_sharing  # noqa: F821
*da0073e9SAndroid Build Coastguard Worker                        - torch.cuda.memory_stats()["reserved_bytes.all.current"],
*da0073e9SAndroid Build Coastguard Worker                        kSmallBuffer,
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker                else:
*da0073e9SAndroid Build Coastguard Worker                    reserved_no_sharing = torch.cuda.memory_stats()[
*da0073e9SAndroid Build Coastguard Worker                        "reserved_bytes.all.current"
*da0073e9SAndroid Build Coastguard Worker                    ]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            del a, b, c, g0, g1
*da0073e9SAndroid Build Coastguard Worker            # Tensors used across streams (a and b) were held until just now, so no need to call record_stream on them.
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        (not TEST_CUDA_GRAPH)
*da0073e9SAndroid Build Coastguard Worker        or IS_WINDOWS
*da0073e9SAndroid Build Coastguard Worker        or (  # appears to still be broken on Windows as of 11.4+
*da0073e9SAndroid Build Coastguard Worker            torch.version.cuda
*da0073e9SAndroid Build Coastguard Worker            and int(torch.version.cuda.split(".")[0]) == 11
*da0073e9SAndroid Build Coastguard Worker            and int(torch.version.cuda.split(".")[1]) < 4
*da0073e9SAndroid Build Coastguard Worker        ),
*da0073e9SAndroid Build Coastguard Worker        "Graph bindings disallow concurrent replay for CUDA < 11.4, see "
*da0073e9SAndroid Build Coastguard Worker        + "https://github.com/pytorch/pytorch/pull/57556",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_graph_concurrent_replay(self):
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        size = 1000000  # largeish to help expose race conditions
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def func_with_temps(t, val):
*da0073e9SAndroid Build Coastguard Worker            x = t.clone() + val
*da0073e9SAndroid Build Coastguard Worker            y = t.clone() + val
*da0073e9SAndroid Build Coastguard Worker            return x + y
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        s = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for share_mem in ("Don't share", "via pool()", "via graph_pool_handle()"):
*da0073e9SAndroid Build Coastguard Worker            g0 = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker            g1 = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            s0 = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker            s1 = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            a = torch.ones((size,), device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            s.wait_stream(torch.cuda.current_stream())
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.stream(s):
*da0073e9SAndroid Build Coastguard Worker                g0_args = (
*da0073e9SAndroid Build Coastguard Worker                    (torch.cuda.graph_pool_handle(),)
*da0073e9SAndroid Build Coastguard Worker                    if share_mem == "via graph_pool_handle()"
*da0073e9SAndroid Build Coastguard Worker                    else ()
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                g0.capture_begin(*g0_args)
*da0073e9SAndroid Build Coastguard Worker                b = a.clone()
*da0073e9SAndroid Build Coastguard Worker                for _ in range(5):
*da0073e9SAndroid Build Coastguard Worker                    b = func_with_temps(b, 1)
*da0073e9SAndroid Build Coastguard Worker                g0.capture_end()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                g1_args = (g0.pool(),) if share_mem == "via pool()" else g0_args
*da0073e9SAndroid Build Coastguard Worker                g1.capture_begin(*g1_args)
*da0073e9SAndroid Build Coastguard Worker                c = a.clone()
*da0073e9SAndroid Build Coastguard Worker                for _ in range(5):
*da0073e9SAndroid Build Coastguard Worker                    c = func_with_temps(c, 2)
*da0073e9SAndroid Build Coastguard Worker                g1.capture_end()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # To reproduce data corruption, I need g0 and g1's kernels to run concurrently.
*da0073e9SAndroid Build Coastguard Worker            # But replay() (especially cudaGraphLaunch) can incur significant CPU overhead.
*da0073e9SAndroid Build Coastguard Worker            # The following pattern helps align device-side execution of g0 and g1's kernels.
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.stream(s0):
*da0073e9SAndroid Build Coastguard Worker                torch.cuda._sleep(1000000)
*da0073e9SAndroid Build Coastguard Worker                s1.wait_stream(s0)
*da0073e9SAndroid Build Coastguard Worker                g0.replay()
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.stream(s1):
*da0073e9SAndroid Build Coastguard Worker                g1.replay()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.current_stream().wait_stream(s0)
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.current_stream().wait_stream(s1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if (not TEST_CUDAMALLOCASYNC) and (share_mem != "Don't share"):
*da0073e9SAndroid Build Coastguard Worker                # If we used the native allocator and shared mempools,
*da0073e9SAndroid Build Coastguard Worker                # we expect the concurrent replays corrupted each other.
*da0073e9SAndroid Build Coastguard Worker                self.assertNotEqual(b.sum().item(), size * 94)
*da0073e9SAndroid Build Coastguard Worker                self.assertNotEqual(c.sum().item(), size * 156)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                # If we EITHER
*da0073e9SAndroid Build Coastguard Worker                #   - used the native allocator without sharing mempools, OR
*da0073e9SAndroid Build Coastguard Worker                #   - used cudaMallocAsync, which ignores graph pool-sharing hints and should always be safe
*da0073e9SAndroid Build Coastguard Worker                # we don't expect memory corruption.
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(b.sum().item(), size * 94)
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(c.sum().item(), size * 156)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            del a, b, c, g0, g1
*da0073e9SAndroid Build Coastguard Worker            # Tensors used across streams (a, b, c) were held until just now, so no need to call record_stream on them.
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_graph_three_successive(self):
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        size = 1000
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        s = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for share_mem in ("Don't share", "via pool()", "via graph_pool_handle()"):
*da0073e9SAndroid Build Coastguard Worker            a = torch.ones((size,), device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            g0 = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker            g1 = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker            g2 = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            s.wait_stream(torch.cuda.current_stream())
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.stream(s):
*da0073e9SAndroid Build Coastguard Worker                g0_args = (
*da0073e9SAndroid Build Coastguard Worker                    (torch.cuda.graph_pool_handle(),)
*da0073e9SAndroid Build Coastguard Worker                    if share_mem == "via graph_pool_handle()"
*da0073e9SAndroid Build Coastguard Worker                    else ()
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                g0.capture_begin(*g0_args)
*da0073e9SAndroid Build Coastguard Worker                b = a.clone()
*da0073e9SAndroid Build Coastguard Worker                c = b + 1
*da0073e9SAndroid Build Coastguard Worker                d = b + 2
*da0073e9SAndroid Build Coastguard Worker                g0.capture_end()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                args = (g0.pool(),) if share_mem == "via pool()" else g0_args
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                g1.capture_begin(*args)
*da0073e9SAndroid Build Coastguard Worker                e = c + 3
*da0073e9SAndroid Build Coastguard Worker                del c
*da0073e9SAndroid Build Coastguard Worker                g1.capture_end()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                g2.capture_begin(*args)
*da0073e9SAndroid Build Coastguard Worker                f = d + 4
*da0073e9SAndroid Build Coastguard Worker                g2.capture_end()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.current_stream().wait_stream(s)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Tests that replaying in capture order is valid
*da0073e9SAndroid Build Coastguard Worker            g0.replay()
*da0073e9SAndroid Build Coastguard Worker            g1.replay()
*da0073e9SAndroid Build Coastguard Worker            g2.replay()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(e.sum().item(), size * 5)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(f.sum().item(), size * 7)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Tests that replaying as g0, g2, g1 is only valid if they don't share a pool
*da0073e9SAndroid Build Coastguard Worker            g0.replay()
*da0073e9SAndroid Build Coastguard Worker            g2.replay()
*da0073e9SAndroid Build Coastguard Worker            g1.replay()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            expect_corruption = (not TEST_CUDAMALLOCASYNC) and (
*da0073e9SAndroid Build Coastguard Worker                share_mem != "Don't share"
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            # If we used the native allocator and shared mempools, g2's capture should have reused c's memory for f.
*da0073e9SAndroid Build Coastguard Worker            # We replayed g2 then g1, so we expect g1's captured "e = c + 3" mistakenly filled e with "f's vals + 3".
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker                e.sum().item(), size * (7 + 3) if expect_corruption else size * 5
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(f.sum().item(), size * 7)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            del a, b, d, e, f, g0, g1, g2
*da0073e9SAndroid Build Coastguard Worker            # Tensors used across streams (a, e, f) were held until just now, so no need to call record_stream on them.
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        (not TEST_CUDA_GRAPH) or TEST_CUDAMALLOCASYNC,
*da0073e9SAndroid Build Coastguard Worker        "CUDA >= 11.0 or ROCM >= 5.3 required for graphs",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_graph_memory_stats_and_use_result_after_destroy_graph(self):
*da0073e9SAndroid Build Coastguard Worker        kSmallSize = 1048576
*da0073e9SAndroid Build Coastguard Worker        kSmallBuffer = 2097152
*da0073e9SAndroid Build Coastguard Worker        kLargeBuffer = 20971520
*da0073e9SAndroid Build Coastguard Worker        kMinLargeAlloc = 10485760
*da0073e9SAndroid Build Coastguard Worker        kRoundLarge = 2097152
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        elem = 4
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # this was annoying to write but stresses the expectations pretty rigorously
*da0073e9SAndroid Build Coastguard Worker        cases = (
*da0073e9SAndroid Build Coastguard Worker            (512 // elem, 1, kSmallBuffer, kSmallBuffer, "small_pool"),
*da0073e9SAndroid Build Coastguard Worker            (kSmallSize // elem, 2, 2 * kSmallBuffer, kSmallBuffer, "small_pool"),
*da0073e9SAndroid Build Coastguard Worker            ((kSmallSize + 512) // elem, 1, kLargeBuffer, kLargeBuffer, "large_pool"),
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                (kMinLargeAlloc - 512) // elem,
*da0073e9SAndroid Build Coastguard Worker                2,
*da0073e9SAndroid Build Coastguard Worker                2 * kLargeBuffer,
*da0073e9SAndroid Build Coastguard Worker                kLargeBuffer,
*da0073e9SAndroid Build Coastguard Worker                "large_pool",
*da0073e9SAndroid Build Coastguard Worker            ),
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                (kMinLargeAlloc + 512) // elem,
*da0073e9SAndroid Build Coastguard Worker                3,
*da0073e9SAndroid Build Coastguard Worker                3
*da0073e9SAndroid Build Coastguard Worker                * (
*da0073e9SAndroid Build Coastguard Worker                    kRoundLarge
*da0073e9SAndroid Build Coastguard Worker                    * ((kMinLargeAlloc + 512 + kRoundLarge - 1) // kRoundLarge)
*da0073e9SAndroid Build Coastguard Worker                ),
*da0073e9SAndroid Build Coastguard Worker                kRoundLarge * ((kMinLargeAlloc + 512 + kRoundLarge - 1) // kRoundLarge),
*da0073e9SAndroid Build Coastguard Worker                "large_pool",
*da0073e9SAndroid Build Coastguard Worker            ),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        stats_to_check = ("segment.", "reserved_bytes.", "active.", "active_bytes.")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        gc.collect()
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        s = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for (
*da0073e9SAndroid Build Coastguard Worker            numel,
*da0073e9SAndroid Build Coastguard Worker            delta_cudaMallocs,
*da0073e9SAndroid Build Coastguard Worker            delta_cudaMalloc_bytes,
*da0073e9SAndroid Build Coastguard Worker            delta_cudaMalloc_bytes_post_del_g,
*da0073e9SAndroid Build Coastguard Worker            pool_string,
*da0073e9SAndroid Build Coastguard Worker        ) in cases:
*da0073e9SAndroid Build Coastguard Worker            if pool_string == "small_pool":
*da0073e9SAndroid Build Coastguard Worker                delta_active_blocks = 3  # one from "b" plus a sneaky two from CUDAGraph's one-element rng seed and offset holders
*da0073e9SAndroid Build Coastguard Worker                delta_active_bytes = (
*da0073e9SAndroid Build Coastguard Worker                    numel * elem + 1024
*da0073e9SAndroid Build Coastguard Worker                )  # + 1024 for CUDAGraph's rng seed and offset holders each
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                delta_active_blocks = 1  # We only check the large pool, which isn't affected by rng offset holder
*da0073e9SAndroid Build Coastguard Worker                delta_active_bytes = numel * elem
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            g = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker            s.wait_stream(torch.cuda.current_stream())
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.stream(s):
*da0073e9SAndroid Build Coastguard Worker                # Allocation stat estimates assume input is created on the same stream as capture_begin()
*da0073e9SAndroid Build Coastguard Worker                # (in other words, the same stream silo as the rng offset holder, which is not allocated from the
*da0073e9SAndroid Build Coastguard Worker                # capture's private pool).
*da0073e9SAndroid Build Coastguard Worker                a = torch.ones((numel,), device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                precapture_stats = torch.cuda.memory_stats()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                g.capture_begin()
*da0073e9SAndroid Build Coastguard Worker                b = a.clone()
*da0073e9SAndroid Build Coastguard Worker                for _ in range(5):
*da0073e9SAndroid Build Coastguard Worker                    b = b.clone() + 1
*da0073e9SAndroid Build Coastguard Worker                g.capture_end()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.current_stream().wait_stream(s)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            gc.collect()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            postcapture_stats = torch.cuda.memory_stats()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            expecteds = (
*da0073e9SAndroid Build Coastguard Worker                delta_cudaMallocs,
*da0073e9SAndroid Build Coastguard Worker                delta_cudaMalloc_bytes,
*da0073e9SAndroid Build Coastguard Worker                delta_active_blocks,
*da0073e9SAndroid Build Coastguard Worker                delta_active_bytes,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            # Double checks replay and stats before and after a call to empty_cache
*da0073e9SAndroid Build Coastguard Worker            for i in range(2):
*da0073e9SAndroid Build Coastguard Worker                for stat, expected in zip(stats_to_check, expecteds):
*da0073e9SAndroid Build Coastguard Worker                    stat = stat + pool_string + ".current"
*da0073e9SAndroid Build Coastguard Worker                    current = postcapture_stats[stat] - precapture_stats[stat]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                    # There will only ever be one expandable segment in each of the small and large pools. The way the
*da0073e9SAndroid Build Coastguard Worker                    # bookeeping is done in the allocator means that we never increment the number of segments.
*da0073e9SAndroid Build Coastguard Worker                    if self.expandable_segments and "segment" in stat:
*da0073e9SAndroid Build Coastguard Worker                        expected = 0
*da0073e9SAndroid Build Coastguard Worker                    # These two cases hit an edge case where the PyTorch allocator won't immediately unmap part of an
*da0073e9SAndroid Build Coastguard Worker                    # expandable segment (and as a result reduce the number of reserved bytes) if the block to unmap is
*da0073e9SAndroid Build Coastguard Worker                    # smaller than the page size
*da0073e9SAndroid Build Coastguard Worker                    if (
*da0073e9SAndroid Build Coastguard Worker                        self.expandable_segments
*da0073e9SAndroid Build Coastguard Worker                        and "reserved" in stat
*da0073e9SAndroid Build Coastguard Worker                        and (numel == cases[3][0] or numel == cases[4][0])
*da0073e9SAndroid Build Coastguard Worker                    ):
*da0073e9SAndroid Build Coastguard Worker                        expected = 2 * kLargeBuffer
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker                        current,
*da0073e9SAndroid Build Coastguard Worker                        expected,
*da0073e9SAndroid Build Coastguard Worker                        "Pre to post capture delta of "
*da0073e9SAndroid Build Coastguard Worker                        + stat
*da0073e9SAndroid Build Coastguard Worker                        + f" = {current}, expected = {expected}, numel = {numel}",
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                g.replay()
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(b.sum().item(), 6 * numel)
*da0073e9SAndroid Build Coastguard Worker                if i == 0:
*da0073e9SAndroid Build Coastguard Worker                    torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            del g
*da0073e9SAndroid Build Coastguard Worker            gc.collect()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker            postdel_stats = torch.cuda.memory_stats()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Uses graph result b after graph has been deleted
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(b.sum().item(), 6 * numel)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # b should be the only live reference remaining from the graph's private pool
*da0073e9SAndroid Build Coastguard Worker            expecteds = (1, delta_cudaMalloc_bytes_post_del_g, 1, numel * elem)
*da0073e9SAndroid Build Coastguard Worker            for stat, expected in zip(stats_to_check, expecteds):
*da0073e9SAndroid Build Coastguard Worker                stat = stat + pool_string + ".current"
*da0073e9SAndroid Build Coastguard Worker                current = postdel_stats[stat] - precapture_stats[stat]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # There will only ever be one expandable segment in each of the small and large pools. The way the
*da0073e9SAndroid Build Coastguard Worker                # bookeeping is done in the allocator means that we never increment the number of segments.
*da0073e9SAndroid Build Coastguard Worker                if self.expandable_segments and "segment" in stat:
*da0073e9SAndroid Build Coastguard Worker                    expected = 0
*da0073e9SAndroid Build Coastguard Worker                # These two cases hit an edge case where the PyTorch allocator won't immediately unmap part of an
*da0073e9SAndroid Build Coastguard Worker                # expandable segment (and as a result reduce the number of reserved bytes) if the block to unmap is
*da0073e9SAndroid Build Coastguard Worker                # smaller than the page size
*da0073e9SAndroid Build Coastguard Worker                if (
*da0073e9SAndroid Build Coastguard Worker                    self.expandable_segments
*da0073e9SAndroid Build Coastguard Worker                    and "reserved" in stat
*da0073e9SAndroid Build Coastguard Worker                    and numel == cases[3][0]
*da0073e9SAndroid Build Coastguard Worker                ):
*da0073e9SAndroid Build Coastguard Worker                    expected = 2 * kLargeBuffer
*da0073e9SAndroid Build Coastguard Worker                if (
*da0073e9SAndroid Build Coastguard Worker                    self.expandable_segments
*da0073e9SAndroid Build Coastguard Worker                    and "reserved" in stat
*da0073e9SAndroid Build Coastguard Worker                    and numel == cases[4][0]
*da0073e9SAndroid Build Coastguard Worker                ):
*da0073e9SAndroid Build Coastguard Worker                    expected = kLargeBuffer
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker                    current,
*da0073e9SAndroid Build Coastguard Worker                    expected,
*da0073e9SAndroid Build Coastguard Worker                    "Pre capture to post graph delete delta of "
*da0073e9SAndroid Build Coastguard Worker                    + stat
*da0073e9SAndroid Build Coastguard Worker                    + f" = {current}, expected = {expected}, numel = {numel}",
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # del a, b before the next case is essential, otherwise overwriting a and b in the next case
*da0073e9SAndroid Build Coastguard Worker            # can throw off its allocation/deallocation counts.
*da0073e9SAndroid Build Coastguard Worker            del a, b
*da0073e9SAndroid Build Coastguard Worker            # Tensors used across streams (a and b) were held until just now, so no need to call record_stream on them.
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_graph_record_stream(self):
*da0073e9SAndroid Build Coastguard Worker        # Makes sure graph capture defers attempting to reclaim allocations used across streams. See
*da0073e9SAndroid Build Coastguard Worker        # "Q. Why skip process_events if a capture might be underway?" in c10/cuda/CUDACachingAllocator.cpp
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        potential_problem = torch.zeros((3,), device="cuda")
*da0073e9SAndroid Build Coastguard Worker        a = torch.zeros((3,), device="cuda")
*da0073e9SAndroid Build Coastguard Worker        s0 = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker        s1 = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker        s2 = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker        g = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(s0):
*da0073e9SAndroid Build Coastguard Worker            potential_problem.record_stream(s0)
*da0073e9SAndroid Build Coastguard Worker            torch.cuda._sleep(TestCuda.FIFTY_MIL_CYCLES)
*da0073e9SAndroid Build Coastguard Worker            potential_problem.fill_(1.0)
*da0073e9SAndroid Build Coastguard Worker        del potential_problem
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(s1):
*da0073e9SAndroid Build Coastguard Worker            g.capture_begin()
*da0073e9SAndroid Build Coastguard Worker            # potential_problem's allocation should still be outstanding. if DeviceCachingAllocator::malloc
*da0073e9SAndroid Build Coastguard Worker            # mistakenly calls process_events, it will trigger cudaEventQueries on potential_problem's end-of-life
*da0073e9SAndroid Build Coastguard Worker            # event, which will cause the capture to error.
*da0073e9SAndroid Build Coastguard Worker            b = a.clone()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Let's also see what happens if we record_stream on a tensor during capture.
*da0073e9SAndroid Build Coastguard Worker            s2.wait_stream(s1)
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.stream(s2):
*da0073e9SAndroid Build Coastguard Worker                b.fill_(1.0)
*da0073e9SAndroid Build Coastguard Worker                b.record_stream(s2)  # dummy record_stream
*da0073e9SAndroid Build Coastguard Worker                del b
*da0073e9SAndroid Build Coastguard Worker            s1.wait_stream(s2)
*da0073e9SAndroid Build Coastguard Worker            g.capture_end()
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # dummy allocation triggers process_events, Hopefully successfully processes b's end-of-life event.
*da0073e9SAndroid Build Coastguard Worker        c = torch.zeros((3,), device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skipIfRocm
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    # If this test is the first in the process to try cudnn rnns with dropout, it'll initialize
*da0073e9SAndroid Build Coastguard Worker    # DropoutState's long-lived internal buffer. Calling code perceives this (correct) behavior
*da0073e9SAndroid Build Coastguard Worker    # as a memory leak unless we skip the leak check.
*da0073e9SAndroid Build Coastguard Worker    @skipCUDAMemoryLeakCheckIf(True)
*da0073e9SAndroid Build Coastguard Worker    @serialTest()
*da0073e9SAndroid Build Coastguard Worker    def test_graph_cudnn_dropout(self):
*da0073e9SAndroid Build Coastguard Worker        # Tests the interaction of cuda graph capture with DropoutState's syncs in ATen/native/cudnn/RNN.cpp.
*da0073e9SAndroid Build Coastguard Worker        # In particular, if user runs a sequence of captured and noncaptured cudnn rnns, DropoutState should
*da0073e9SAndroid Build Coastguard Worker        # avoid syncing noncapturing streams with captured events or vice versa.
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        model = torch.nn.LSTM(512, 512, 2, dropout=0.5).cuda()
*da0073e9SAndroid Build Coastguard Worker        x = torch.ones(100, 192, 512, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        y = model(x)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        g = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker        s = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker        s.wait_stream(torch.cuda.current_stream())
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(s):
*da0073e9SAndroid Build Coastguard Worker            g.capture_begin()
*da0073e9SAndroid Build Coastguard Worker            y = model(x)
*da0073e9SAndroid Build Coastguard Worker            g.capture_end()
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.current_stream().wait_stream(s)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        g.replay()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        y = model(x)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @parametrize(
*da0073e9SAndroid Build Coastguard Worker        "with_amp,cache_enabled,allow_unused_input",
*da0073e9SAndroid Build Coastguard Worker        [
*da0073e9SAndroid Build Coastguard Worker            subtest((False, False, True), decorators=[skipIfRocm]),
*da0073e9SAndroid Build Coastguard Worker            subtest((True, False, True), decorators=[skipIfRocm]),
*da0073e9SAndroid Build Coastguard Worker            subtest((True, True, True), decorators=[unittest.expectedFailure]),
*da0073e9SAndroid Build Coastguard Worker            subtest((False, False, False), decorators=[unittest.expectedFailure]),
*da0073e9SAndroid Build Coastguard Worker        ],
*da0073e9SAndroid Build Coastguard Worker        name_fn=lambda x, y, z: "{}{}{}".format(
*da0073e9SAndroid Build Coastguard Worker            {True: "with_amp", False: "without_amp"}[x],
*da0073e9SAndroid Build Coastguard Worker            {True: "_cache_enabled", False: "_cache_disabled"}[y] if x else "",
*da0073e9SAndroid Build Coastguard Worker            {True: "_allow_unused_input", False: "_not_allow_unused_input"}[z],
*da0073e9SAndroid Build Coastguard Worker        ),
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @serialTest()
*da0073e9SAndroid Build Coastguard Worker    def test_graph_make_graphed_callables(
*da0073e9SAndroid Build Coastguard Worker        self, with_amp, cache_enabled, allow_unused_input
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        torch.manual_seed(5)
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.manual_seed(5)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        N, D_in, H, D_out = 640, 4096, 2048, 1024
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        class MLP1(torch.nn.Module):
*da0073e9SAndroid Build Coastguard Worker            def __init__(self, D_in: int, H: int, D_out: int):
*da0073e9SAndroid Build Coastguard Worker                super().__init__()
*da0073e9SAndroid Build Coastguard Worker                self.net_1 = torch.nn.Sequential(
*da0073e9SAndroid Build Coastguard Worker                    torch.nn.Linear(D_in, H), torch.nn.Dropout(p=0.1)
*da0073e9SAndroid Build Coastguard Worker                ).cuda()
*da0073e9SAndroid Build Coastguard Worker                self.net_2 = torch.nn.Sequential(
*da0073e9SAndroid Build Coastguard Worker                    torch.nn.Linear(H, D_out), torch.nn.Dropout(p=0.2)
*da0073e9SAndroid Build Coastguard Worker                ).cuda()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def forward(self, input_dict: dict):
*da0073e9SAndroid Build Coastguard Worker                x = input_dict["x"]
*da0073e9SAndroid Build Coastguard Worker                return self.net_2(self.net_1(x))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        class MLP2(torch.nn.Module):
*da0073e9SAndroid Build Coastguard Worker            def __init__(self, D_in: int, H: int, D_out: int):
*da0073e9SAndroid Build Coastguard Worker                super().__init__()
*da0073e9SAndroid Build Coastguard Worker                self.net_1 = torch.nn.Sequential(
*da0073e9SAndroid Build Coastguard Worker                    torch.nn.Linear(D_in, H), torch.nn.Dropout(p=0.1)
*da0073e9SAndroid Build Coastguard Worker                ).cuda()
*da0073e9SAndroid Build Coastguard Worker                self.net_2 = torch.nn.Sequential(
*da0073e9SAndroid Build Coastguard Worker                    torch.nn.Linear(H, D_out), torch.nn.Dropout(p=0.2)
*da0073e9SAndroid Build Coastguard Worker                ).cuda()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def forward(self, x):
*da0073e9SAndroid Build Coastguard Worker                return self.net_2(self.net_1(x))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        class ParameterlessModule(torch.nn.Module):
*da0073e9SAndroid Build Coastguard Worker            def forward(self, x):
*da0073e9SAndroid Build Coastguard Worker                idx = (
*da0073e9SAndroid Build Coastguard Worker                    torch.arange(x.size(0), device=x.device)
*da0073e9SAndroid Build Coastguard Worker                    .view(-1, 1)
*da0073e9SAndroid Build Coastguard Worker                    .repeat(1, x.size(1))
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                return {"output": torch.gather(x, 0, idx)}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        models = []
*da0073e9SAndroid Build Coastguard Worker        for _ in range(2):
*da0073e9SAndroid Build Coastguard Worker            model_section1 = MLP1(D_in, H, H).cuda()
*da0073e9SAndroid Build Coastguard Worker            model_section2 = MLP2(H, H, D_out).cuda()
*da0073e9SAndroid Build Coastguard Worker            model_section3 = ParameterlessModule().cuda()
*da0073e9SAndroid Build Coastguard Worker            models.append(
*da0073e9SAndroid Build Coastguard Worker                torch.nn.Sequential(model_section1, model_section2, model_section3)
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        model_graphed = models[0]
*da0073e9SAndroid Build Coastguard Worker        model_control = models[1]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        model_graphed.load_state_dict(model_control.state_dict())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        opt_graphed = torch.optim.SGD(model_graphed.parameters(), lr=0.1)
*da0073e9SAndroid Build Coastguard Worker        opt_control = torch.optim.SGD(model_control.parameters(), lr=0.1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(N, D_in, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        h = torch.randn(N, H, device="cuda", requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        h2 = torch.randn(N, D_out, device="cuda", requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        unused_input = torch.randn(N, H, device="cuda", requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        y_pred = torch.randn(N, D_out, device="cuda", requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        y = torch.randn(N, D_out, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        loss_fn_control = torch.nn.functional.mse_loss
*da0073e9SAndroid Build Coastguard Worker        relu_control = torch.nn.functional.relu
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # This is a good stress test. It graphs four callables: two Modules and two python functions.
*da0073e9SAndroid Build Coastguard Worker        with torch.amp.autocast(
*da0073e9SAndroid Build Coastguard Worker            device_type="cuda", enabled=with_amp, cache_enabled=cache_enabled
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                model_graphed[0],
*da0073e9SAndroid Build Coastguard Worker                model_graphed[1],
*da0073e9SAndroid Build Coastguard Worker                model_graphed[2],
*da0073e9SAndroid Build Coastguard Worker                relu_graphed,
*da0073e9SAndroid Build Coastguard Worker                loss_fn_graphed,
*da0073e9SAndroid Build Coastguard Worker            ) = torch.cuda.make_graphed_callables(
*da0073e9SAndroid Build Coastguard Worker                (
*da0073e9SAndroid Build Coastguard Worker                    model_graphed[0],
*da0073e9SAndroid Build Coastguard Worker                    model_graphed[1],
*da0073e9SAndroid Build Coastguard Worker                    model_graphed[2],
*da0073e9SAndroid Build Coastguard Worker                    relu_control,
*da0073e9SAndroid Build Coastguard Worker                    loss_fn_control,
*da0073e9SAndroid Build Coastguard Worker                ),
*da0073e9SAndroid Build Coastguard Worker                (
*da0073e9SAndroid Build Coastguard Worker                    ({"x": x, "unused_input": unused_input},),
*da0073e9SAndroid Build Coastguard Worker                    (h,),
*da0073e9SAndroid Build Coastguard Worker                    (h2,),
*da0073e9SAndroid Build Coastguard Worker                    (y_pred,),
*da0073e9SAndroid Build Coastguard Worker                    (y_pred, y),
*da0073e9SAndroid Build Coastguard Worker                ),
*da0073e9SAndroid Build Coastguard Worker                allow_unused_input=allow_unused_input,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        real_inputs = [torch.rand_like(x) for _ in range(10)]
*da0073e9SAndroid Build Coastguard Worker        real_targets = [torch.rand_like(y) for _ in range(10)]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for m, opt, relu, loss_fn in zip(
*da0073e9SAndroid Build Coastguard Worker            (model_graphed, model_control),
*da0073e9SAndroid Build Coastguard Worker            (opt_graphed, opt_control),
*da0073e9SAndroid Build Coastguard Worker            (relu_graphed, relu_control),
*da0073e9SAndroid Build Coastguard Worker            (loss_fn_graphed, loss_fn_control),
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            # Resets RNC states before iterations for graphed and ungraphed models,
*da0073e9SAndroid Build Coastguard Worker            # so dropout math should be bitwise identical for both.
*da0073e9SAndroid Build Coastguard Worker            torch.manual_seed(5)
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.manual_seed(5)
*da0073e9SAndroid Build Coastguard Worker            for data, target in zip(real_inputs, real_targets):
*da0073e9SAndroid Build Coastguard Worker                opt.zero_grad(set_to_none=True)
*da0073e9SAndroid Build Coastguard Worker                with torch.amp.autocast(
*da0073e9SAndroid Build Coastguard Worker                    device_type="cuda", enabled=with_amp, cache_enabled=cache_enabled
*da0073e9SAndroid Build Coastguard Worker                ):
*da0073e9SAndroid Build Coastguard Worker                    y_pred = m({"x": data, "unused_input": unused_input})["output"]
*da0073e9SAndroid Build Coastguard Worker                    y_pred = relu(y_pred)
*da0073e9SAndroid Build Coastguard Worker                    loss = loss_fn(y_pred, target)
*da0073e9SAndroid Build Coastguard Worker                    loss.backward()
*da0073e9SAndroid Build Coastguard Worker                opt.step()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for p, pc in zip(model_graphed.parameters(), model_control.parameters()):
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(p, pc)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # We graphed the models in training mode. Eval should still run ungraphed.
*da0073e9SAndroid Build Coastguard Worker        model_graphed.eval()
*da0073e9SAndroid Build Coastguard Worker        model_control.eval()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            model_graphed({"x": real_inputs[0]}), model_control({"x": real_inputs[0]})
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @parametrize(
*da0073e9SAndroid Build Coastguard Worker        "with_amp,cache_enabled,allow_unused_input",
*da0073e9SAndroid Build Coastguard Worker        [
*da0073e9SAndroid Build Coastguard Worker            subtest((False, False, True), decorators=[skipIfRocm]),
*da0073e9SAndroid Build Coastguard Worker            subtest((True, False, True), decorators=[skipIfRocm]),
*da0073e9SAndroid Build Coastguard Worker            subtest((True, True, True), decorators=[unittest.expectedFailure]),
*da0073e9SAndroid Build Coastguard Worker            subtest((False, False, False), decorators=[skipIfRocm]),
*da0073e9SAndroid Build Coastguard Worker        ],
*da0073e9SAndroid Build Coastguard Worker        name_fn=lambda x, y, z: "{}{}{}".format(
*da0073e9SAndroid Build Coastguard Worker            {True: "with_amp", False: "without_amp"}[x],
*da0073e9SAndroid Build Coastguard Worker            {True: "_cache_enabled", False: "_cache_disabled"}[y] if x else "",
*da0073e9SAndroid Build Coastguard Worker            {True: "_allow_unused_input", False: "_not_allow_unused_input"}[z],
*da0073e9SAndroid Build Coastguard Worker        ),
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @serialTest()
*da0073e9SAndroid Build Coastguard Worker    def test_graph_make_graphed_callables_parameterless_nograd_module(
*da0073e9SAndroid Build Coastguard Worker        self, with_amp, cache_enabled, allow_unused_input
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        torch.manual_seed(5)
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.manual_seed(5)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        N, D_in, H, D_out = 640, 4096, 2048, 1024
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        class ParameterlessModule(torch.nn.Module):
*da0073e9SAndroid Build Coastguard Worker            def forward(self, input_dict: dict):
*da0073e9SAndroid Build Coastguard Worker                x = input_dict["x"]
*da0073e9SAndroid Build Coastguard Worker                idx = (
*da0073e9SAndroid Build Coastguard Worker                    torch.arange(x.size(0), device=x.device)
*da0073e9SAndroid Build Coastguard Worker                    .view(-1, 1)
*da0073e9SAndroid Build Coastguard Worker                    .repeat(1, x.size(1))
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                return {"output": torch.gather(x, 0, idx)}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        models = []
*da0073e9SAndroid Build Coastguard Worker        for _ in range(2):
*da0073e9SAndroid Build Coastguard Worker            model_section1 = ParameterlessModule().cuda()
*da0073e9SAndroid Build Coastguard Worker            models.append(torch.nn.Sequential(model_section1))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        model_graphed = models[0]
*da0073e9SAndroid Build Coastguard Worker        model_control = models[1]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        model_graphed.load_state_dict(model_control.state_dict())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(N, D_in, device="cuda", requires_grad=False)
*da0073e9SAndroid Build Coastguard Worker        unused_input = torch.randn(N, H, device="cuda", requires_grad=False)
*da0073e9SAndroid Build Coastguard Worker        y_pred = torch.randn(N, D_in, device="cuda", requires_grad=False)
*da0073e9SAndroid Build Coastguard Worker        y = torch.randn(N, D_in, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # This is a good stress test. It graphs four callables: two Modules and two python functions.
*da0073e9SAndroid Build Coastguard Worker        with torch.amp.autocast(
*da0073e9SAndroid Build Coastguard Worker            device_type="cuda", enabled=with_amp, cache_enabled=cache_enabled
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            model_graphed[0] = torch.cuda.make_graphed_callables(
*da0073e9SAndroid Build Coastguard Worker                model_graphed[0],
*da0073e9SAndroid Build Coastguard Worker                ({"x": x, "unused_input": unused_input},),
*da0073e9SAndroid Build Coastguard Worker                allow_unused_input=allow_unused_input,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        real_inputs = [torch.rand_like(x, requires_grad=True) for _ in range(10)]
*da0073e9SAndroid Build Coastguard Worker        real_targets = [torch.rand_like(y) for _ in range(10)]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for m in (model_graphed, model_control):
*da0073e9SAndroid Build Coastguard Worker            # Resets RNC states before iterations for graphed and ungraphed models,
*da0073e9SAndroid Build Coastguard Worker            # so dropout math should be bitwise identical for both.
*da0073e9SAndroid Build Coastguard Worker            torch.manual_seed(5)
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.manual_seed(5)
*da0073e9SAndroid Build Coastguard Worker            for data, _ in zip(real_inputs, real_targets):
*da0073e9SAndroid Build Coastguard Worker                with torch.amp.autocast(
*da0073e9SAndroid Build Coastguard Worker                    device_type="cuda", enabled=with_amp, cache_enabled=cache_enabled
*da0073e9SAndroid Build Coastguard Worker                ):
*da0073e9SAndroid Build Coastguard Worker                    out = m({"x": data, "unused_input": unused_input})["output"]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # We graphed the models in training mode. Eval should still run ungraphed.
*da0073e9SAndroid Build Coastguard Worker        model_graphed.eval()
*da0073e9SAndroid Build Coastguard Worker        model_control.eval()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            model_graphed({"x": real_inputs[0]}), model_control({"x": real_inputs[0]})
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_graph_make_graphed_callables_same_pool(self):
*da0073e9SAndroid Build Coastguard Worker        torch.manual_seed(5)
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.manual_seed(5)
*da0073e9SAndroid Build Coastguard Worker        models = []
*da0073e9SAndroid Build Coastguard Worker        num_models = 3
*da0073e9SAndroid Build Coastguard Worker        for _ in range(num_models):
*da0073e9SAndroid Build Coastguard Worker            models.append(
*da0073e9SAndroid Build Coastguard Worker                torch.nn.Sequential(
*da0073e9SAndroid Build Coastguard Worker                    torch.nn.Linear(32, 128),
*da0073e9SAndroid Build Coastguard Worker                    torch.nn.ReLU(),
*da0073e9SAndroid Build Coastguard Worker                    torch.nn.Linear(128, 128),
*da0073e9SAndroid Build Coastguard Worker                ).cuda()
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker        # we will reuse the same pool for all graph captures
*da0073e9SAndroid Build Coastguard Worker        mempool = torch.cuda.graph_pool_handle()
*da0073e9SAndroid Build Coastguard Worker        graphed_models = []
*da0073e9SAndroid Build Coastguard Worker        for model in models:
*da0073e9SAndroid Build Coastguard Worker            x = torch.randn([64, 32], device="cuda")
*da0073e9SAndroid Build Coastguard Worker            graphed_model = deepcopy(model)
*da0073e9SAndroid Build Coastguard Worker            graphed_model = torch.cuda.make_graphed_callables(
*da0073e9SAndroid Build Coastguard Worker                graphed_model, (x,), pool=mempool
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            graphed_models.append(graphed_model)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for model, graphed_model in zip(models, graphed_models):
*da0073e9SAndroid Build Coastguard Worker            x = torch.randn([64, 32], device="cuda")
*da0073e9SAndroid Build Coastguard Worker            y = model(x)
*da0073e9SAndroid Build Coastguard Worker            yg = graphed_model(x)
*da0073e9SAndroid Build Coastguard Worker            l = y.norm()
*da0073e9SAndroid Build Coastguard Worker            lg = yg.norm()
*da0073e9SAndroid Build Coastguard Worker            l.backward()
*da0073e9SAndroid Build Coastguard Worker            lg.backward()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(y, yg)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(l, lg)
*da0073e9SAndroid Build Coastguard Worker            for p, pg in zip(model.parameters(), graphed_model.parameters()):
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(p, pg)
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(p.grad, pg.grad)
*da0073e9SAndroid Build Coastguard Worker                self.assertNotEqual(p.data_ptr(), pg.data_ptr())
*da0073e9SAndroid Build Coastguard Worker                self.assertNotEqual(p.grad.data_ptr(), pg.grad.data_ptr())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _test_graphed_optimizer(
*da0073e9SAndroid Build Coastguard Worker        self, steps_warmup, steps_train, optimizer_ctor, kwargs
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        for actually_do_graphs in (True, False):
*da0073e9SAndroid Build Coastguard Worker            params = [torch.randn((i + 5, i + 5), device="cuda") for i in range(2)] + [
*da0073e9SAndroid Build Coastguard Worker                torch.randn((), device="cuda")
*da0073e9SAndroid Build Coastguard Worker            ]
*da0073e9SAndroid Build Coastguard Worker            params_control = [p.clone().requires_grad_() for p in params]
*da0073e9SAndroid Build Coastguard Worker            params_graphed = [p.clone().requires_grad_() for p in params]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            grads = [
*da0073e9SAndroid Build Coastguard Worker                [torch.randn_like(p) for p in params]
*da0073e9SAndroid Build Coastguard Worker                for _ in range(steps_warmup + steps_train)
*da0073e9SAndroid Build Coastguard Worker            ]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Control (capturable=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            opt = optimizer_ctor(params_control, capturable=False, **kwargs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            for i in range(steps_warmup + steps_train):
*da0073e9SAndroid Build Coastguard Worker                for j, p in enumerate(params_control):
*da0073e9SAndroid Build Coastguard Worker                    p.grad = grads[i][j]
*da0073e9SAndroid Build Coastguard Worker                opt.step()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # capturable=True
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            opt = optimizer_ctor(params_graphed, capturable=True, **kwargs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            for i in range(steps_warmup):
*da0073e9SAndroid Build Coastguard Worker                for j, p in enumerate(params_graphed):
*da0073e9SAndroid Build Coastguard Worker                    p.grad = grads[i][j]
*da0073e9SAndroid Build Coastguard Worker                opt.step()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if actually_do_graphs:
*da0073e9SAndroid Build Coastguard Worker                g = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker                with torch.cuda.graph(g):
*da0073e9SAndroid Build Coastguard Worker                    opt.step()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            for i in range(steps_train):
*da0073e9SAndroid Build Coastguard Worker                if actually_do_graphs:
*da0073e9SAndroid Build Coastguard Worker                    for j, p in enumerate(params_graphed):
*da0073e9SAndroid Build Coastguard Worker                        p.grad.copy_(grads[i + steps_warmup][j])
*da0073e9SAndroid Build Coastguard Worker                    g.replay()
*da0073e9SAndroid Build Coastguard Worker                else:
*da0073e9SAndroid Build Coastguard Worker                    # Passing capturable=True to the constructor and running without graphs should still be
*da0073e9SAndroid Build Coastguard Worker                    # numerically correct, even if it's not ideal for performance.
*da0073e9SAndroid Build Coastguard Worker                    for j, p in enumerate(params_graphed):
*da0073e9SAndroid Build Coastguard Worker                        p.grad = grads[i + steps_warmup][j]
*da0073e9SAndroid Build Coastguard Worker                    opt.step()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            for p_control, p_graphed in zip(params_control, params_graphed):
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(p_control, p_graphed)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_graph_optims_with_explicitly_capturable_param_groups(self):
*da0073e9SAndroid Build Coastguard Worker        # mimicking `_test_graphed_optimizer` maladroitly to pass two param_groups to optimizer.__init__
*da0073e9SAndroid Build Coastguard Worker        n_warmup, n_replay = 3, 2
*da0073e9SAndroid Build Coastguard Worker        for optimizer, second_param_group_capturable in product(
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                torch.optim.Adam,
*da0073e9SAndroid Build Coastguard Worker                torch.optim.AdamW,
*da0073e9SAndroid Build Coastguard Worker                torch.optim.ASGD,
*da0073e9SAndroid Build Coastguard Worker                torch.optim.Adamax,
*da0073e9SAndroid Build Coastguard Worker                torch.optim.NAdam,
*da0073e9SAndroid Build Coastguard Worker                torch.optim.RAdam,
*da0073e9SAndroid Build Coastguard Worker                torch.optim.Adadelta,
*da0073e9SAndroid Build Coastguard Worker                torch.optim.RMSprop,
*da0073e9SAndroid Build Coastguard Worker                torch.optim.Rprop,
*da0073e9SAndroid Build Coastguard Worker            ),
*da0073e9SAndroid Build Coastguard Worker            (True, False),
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            ref_p1, param1 = (
*da0073e9SAndroid Build Coastguard Worker                torch.nn.Parameter(torch.ones(1, device="cuda")) for _ in range(2)
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            ref_p2, param2 = (
*da0073e9SAndroid Build Coastguard Worker                torch.nn.Parameter(torch.ones(1, device="cuda")) for _ in range(2)
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            grads1, grads2 = (
*da0073e9SAndroid Build Coastguard Worker                [torch.randn_like(param1) for _ in range(n_warmup + n_replay)]
*da0073e9SAndroid Build Coastguard Worker                for _ in range(2)
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            ref_grads1, ref_grads2 = (
*da0073e9SAndroid Build Coastguard Worker                [t.clone() for t in tensors] for tensors in (grads1, grads2)
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            params = [
*da0073e9SAndroid Build Coastguard Worker                {"params": [param1], "capturable": True},
*da0073e9SAndroid Build Coastguard Worker                {"params": [param2], "capturable": second_param_group_capturable},
*da0073e9SAndroid Build Coastguard Worker            ]
*da0073e9SAndroid Build Coastguard Worker            opt = optimizer(params)
*da0073e9SAndroid Build Coastguard Worker            opt_ = optimizer(
*da0073e9SAndroid Build Coastguard Worker                [
*da0073e9SAndroid Build Coastguard Worker                    {"params": [ref_p1], "capturable": False},
*da0073e9SAndroid Build Coastguard Worker                    {"params": [ref_p2], "capturable": False},
*da0073e9SAndroid Build Coastguard Worker                ]
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            for i in range(n_warmup + n_replay):
*da0073e9SAndroid Build Coastguard Worker                ref_p1.grad = ref_grads1[i]
*da0073e9SAndroid Build Coastguard Worker                ref_p2.grad = ref_grads2[i]
*da0073e9SAndroid Build Coastguard Worker                opt_.step()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            for i in range(n_warmup):
*da0073e9SAndroid Build Coastguard Worker                param1.grad = grads1[i]
*da0073e9SAndroid Build Coastguard Worker                param2.grad = grads2[i]
*da0073e9SAndroid Build Coastguard Worker                opt.step()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            g = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker            if not second_param_group_capturable:
*da0073e9SAndroid Build Coastguard Worker                with self.assertRaisesRegex(RuntimeError, "Attempting CUDA graph"):
*da0073e9SAndroid Build Coastguard Worker                    with torch.cuda.graph(g):
*da0073e9SAndroid Build Coastguard Worker                        opt.step()
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                with torch.cuda.graph(g):
*da0073e9SAndroid Build Coastguard Worker                    opt.step()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                for i in range(n_replay):
*da0073e9SAndroid Build Coastguard Worker                    param1.grad.copy_(grads1[n_warmup + i])
*da0073e9SAndroid Build Coastguard Worker                    param2.grad.copy_(grads2[n_warmup + i])
*da0073e9SAndroid Build Coastguard Worker                    g.replay()
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(ref_p1, param1)
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(ref_p2, param2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_cuda_graph_error_options(self):
*da0073e9SAndroid Build Coastguard Worker        def fn():
*da0073e9SAndroid Build Coastguard Worker            x = torch.zeros([2000], device="cuda")
*da0073e9SAndroid Build Coastguard Worker            y = x + x + x
*da0073e9SAndroid Build Coastguard Worker            return y
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        mem = None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def raw_malloc():
*da0073e9SAndroid Build Coastguard Worker            global mem
*da0073e9SAndroid Build Coastguard Worker            mem = None
*da0073e9SAndroid Build Coastguard Worker            stream = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                with torch.cuda.stream(stream):
*da0073e9SAndroid Build Coastguard Worker                    mem = torch.cuda.caching_allocator_alloc(1024)
*da0073e9SAndroid Build Coastguard Worker            except BaseException:
*da0073e9SAndroid Build Coastguard Worker                if mem is None:
*da0073e9SAndroid Build Coastguard Worker                    return
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.caching_allocator_delete(mem)
*da0073e9SAndroid Build Coastguard Worker                mem = None
*da0073e9SAndroid Build Coastguard Worker                return None
*da0073e9SAndroid Build Coastguard Worker            except BaseException:
*da0073e9SAndroid Build Coastguard Worker                pass
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def throws_on_cuda_event(capture_error_mode):
*da0073e9SAndroid Build Coastguard Worker            graph = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker            stream = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker            stream.wait_stream(torch.cuda.current_stream())
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.stream(stream):
*da0073e9SAndroid Build Coastguard Worker                fn()
*da0073e9SAndroid Build Coastguard Worker            stream.synchronize()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.current_stream().wait_stream(stream)
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                with torch.cuda.graph(
*da0073e9SAndroid Build Coastguard Worker                    graph, stream=stream, capture_error_mode=capture_error_mode
*da0073e9SAndroid Build Coastguard Worker                ):
*da0073e9SAndroid Build Coastguard Worker                    out = fn()
*da0073e9SAndroid Build Coastguard Worker                    thread = threading.Thread(target=raw_malloc)
*da0073e9SAndroid Build Coastguard Worker                    thread.start()
*da0073e9SAndroid Build Coastguard Worker                    thread.join()
*da0073e9SAndroid Build Coastguard Worker            except Exception:
*da0073e9SAndroid Build Coastguard Worker                if mem is not None:
*da0073e9SAndroid Build Coastguard Worker                    torch.cuda.caching_allocator_delete(mem)
*da0073e9SAndroid Build Coastguard Worker                return True
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            return False
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertFalse(throws_on_cuda_event("thread_local"))
*da0073e9SAndroid Build Coastguard Worker        self.assertFalse(throws_on_cuda_event("relaxed"))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Exception would Corrupt Process and make other tests fail
*da0073e9SAndroid Build Coastguard Worker        # self.assertTrue(throws_on_cuda_event("global"))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_cuda_graph_allocator_propagates_stream(self):
*da0073e9SAndroid Build Coastguard Worker        segments = torch.cuda.memory_snapshot()
*da0073e9SAndroid Build Coastguard Worker        existing_pools = {s["segment_pool_id"] for s in segments}
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(10240000, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        y = torch.rand_like(x)
*da0073e9SAndroid Build Coastguard Worker        g = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker        s0 = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker        s1 = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker        s0.wait_stream(torch.cuda.current_stream())
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(s0):
*da0073e9SAndroid Build Coastguard Worker            g.capture_begin()
*da0073e9SAndroid Build Coastguard Worker            z = x + y
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(s1):
*da0073e9SAndroid Build Coastguard Worker            s1.wait_stream(s0)
*da0073e9SAndroid Build Coastguard Worker            w = z + y
*da0073e9SAndroid Build Coastguard Worker        s0.wait_stream(s1)
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(s0):
*da0073e9SAndroid Build Coastguard Worker            g.capture_end()
*da0073e9SAndroid Build Coastguard Worker        segments = torch.cuda.memory_snapshot()
*da0073e9SAndroid Build Coastguard Worker        x = [
*da0073e9SAndroid Build Coastguard Worker            s["segment_pool_id"]
*da0073e9SAndroid Build Coastguard Worker            for s in segments
*da0073e9SAndroid Build Coastguard Worker            if s["segment_pool_id"] not in existing_pools
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(len(x), 2)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x[0], x[1])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_batch_norm_gather_stats(self):
*da0073e9SAndroid Build Coastguard Worker        input = torch.randn(1, 3, 3, 3, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        mean, invstd = torch.batch_norm_gather_stats(
*da0073e9SAndroid Build Coastguard Worker            input,
*da0073e9SAndroid Build Coastguard Worker            mean=torch.ones(2, 3, device="cuda"),
*da0073e9SAndroid Build Coastguard Worker            invstd=torch.ones(2, 3, device="cuda"),
*da0073e9SAndroid Build Coastguard Worker            running_mean=None,
*da0073e9SAndroid Build Coastguard Worker            running_var=None,
*da0073e9SAndroid Build Coastguard Worker            momentum=0.1,
*da0073e9SAndroid Build Coastguard Worker            eps=1e-5,
*da0073e9SAndroid Build Coastguard Worker            count=2,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(mean, torch.ones(3, device="cuda"))
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(invstd, torch.ones(3, device="cuda"))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_matmul_memory_use(self):
*da0073e9SAndroid Build Coastguard Worker        def get_max_used():
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker            val = torch.cuda.max_memory_allocated()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.reset_peak_memory_stats()
*da0073e9SAndroid Build Coastguard Worker            return val
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        a = torch.rand(1, 32, 32, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        b = torch.rand(24, 32, 1, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        get_max_used()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch.matmul(a, b)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        matmul_mem = get_max_used()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        a = a.expand(24, 32, 32)
*da0073e9SAndroid Build Coastguard Worker        torch.matmul(a, b)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        matmul_expand_mem = get_max_used()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch.bmm(a, b)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        bmm_mem = get_max_used()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(matmul_expand_mem, matmul_mem)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(bmm_mem, matmul_mem)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_WITH_ROCM, "ROCm-only test")
*da0073e9SAndroid Build Coastguard Worker    def test_rocm_backward_pass_guard(self):
*da0073e9SAndroid Build Coastguard Worker        # The test exercises a ROCm-specific feature.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        class MyFunction(torch.autograd.Function):
*da0073e9SAndroid Build Coastguard Worker            @staticmethod
*da0073e9SAndroid Build Coastguard Worker            def forward(ctx, tensor, constant):
*da0073e9SAndroid Build Coastguard Worker                self.assertFalse(torch._C._rocm_is_backward_pass())
*da0073e9SAndroid Build Coastguard Worker                ctx.constant = constant
*da0073e9SAndroid Build Coastguard Worker                return tensor * constant
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            @staticmethod
*da0073e9SAndroid Build Coastguard Worker            def backward(ctx, grad_output):
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(torch._C._rocm_is_backward_pass())
*da0073e9SAndroid Build Coastguard Worker                return grad_output * ctx.constant, None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        class MyModule(torch.nn.Module):
*da0073e9SAndroid Build Coastguard Worker            def __init__(self) -> None:
*da0073e9SAndroid Build Coastguard Worker                super().__init__()
*da0073e9SAndroid Build Coastguard Worker                self.a = torch.nn.Parameter(torch.randn(()))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def forward(self, x):
*da0073e9SAndroid Build Coastguard Worker                return MyFunction.apply(x, self.a)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        model = MyModule()
*da0073e9SAndroid Build Coastguard Worker        criterion = torch.nn.MSELoss(reduction="sum")
*da0073e9SAndroid Build Coastguard Worker        optimizer = torch.optim.SGD(model.parameters(), lr=1e-6)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(5, 5)
*da0073e9SAndroid Build Coastguard Worker        result = model(x)
*da0073e9SAndroid Build Coastguard Worker        loss = criterion(result, x)
*da0073e9SAndroid Build Coastguard Worker        optimizer.zero_grad()
*da0073e9SAndroid Build Coastguard Worker        loss.backward()
*da0073e9SAndroid Build Coastguard Worker        optimizer.step()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_matmul_device_mismatch(self):
*da0073e9SAndroid Build Coastguard Worker        cpu = torch.rand((10, 10))
*da0073e9SAndroid Build Coastguard Worker        cuda = cpu.cuda()
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(
*da0073e9SAndroid Build Coastguard Worker            RuntimeError, "Expected all tensors to be on the same device"
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            cpu @ cuda
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(
*da0073e9SAndroid Build Coastguard Worker            RuntimeError, "Expected all tensors to be on the same device"
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            cuda @ cpu
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for s, m1, m2 in product((cpu, cuda), repeat=3):
*da0073e9SAndroid Build Coastguard Worker            if s.device == m1.device == m2.device:
*da0073e9SAndroid Build Coastguard Worker                torch.addmm(s, m1, m2)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                with self.assertRaisesRegex(
*da0073e9SAndroid Build Coastguard Worker                    RuntimeError, "Expected all tensors to be on the same device"
*da0073e9SAndroid Build Coastguard Worker                ):
*da0073e9SAndroid Build Coastguard Worker                    torch.addmm(s, m1, m2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(TEST_MULTIGPU, "Testing on one GPU is sufficient")
*da0073e9SAndroid Build Coastguard Worker    def test_lazy_init(self):
*da0073e9SAndroid Build Coastguard Worker        """Validate that no CUDA calls are made during `import torch` call"""
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def check_output(script: str) -> str:
*da0073e9SAndroid Build Coastguard Worker            return (
*da0073e9SAndroid Build Coastguard Worker                subprocess.check_output([sys.executable, "-c", script])
*da0073e9SAndroid Build Coastguard Worker                .decode("ascii")
*da0073e9SAndroid Build Coastguard Worker                .strip()
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        VISIBLE_DEVICES = (
*da0073e9SAndroid Build Coastguard Worker            "HIP_VISIBLE_DEVICES" if TEST_WITH_ROCM else "CUDA_VISIBLE_DEVICES"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        test_script = f"import os; import torch;os.environ['{VISIBLE_DEVICES}']='32';print(torch.cuda.device_count())"
*da0073e9SAndroid Build Coastguard Worker        rc = check_output(test_script)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(rc, "0")
*da0073e9SAndroid Build Coastguard Worker        if not TEST_WITH_ROCM:
*da0073e9SAndroid Build Coastguard Worker            # Check that `cuInit` was not called during the import
*da0073e9SAndroid Build Coastguard Worker            # By using ctypes and calling cuDeviceCountGet() and expect CUDA_ERROR_NOT_INITIALIZED == 3
*da0073e9SAndroid Build Coastguard Worker            # See https://github.com/pytorch/pytorch/issues/116276 for more details
*da0073e9SAndroid Build Coastguard Worker            libcuda_name = "libcuda.so.1" if not IS_WINDOWS else "nvcuda.dll"
*da0073e9SAndroid Build Coastguard Worker            cuda_driver_api_call = (
*da0073e9SAndroid Build Coastguard Worker                f"ctypes.CDLL('{libcuda_name}').cuDeviceGetCount(ctypes.byref(x))"
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            rc = check_output(
*da0073e9SAndroid Build Coastguard Worker                f"import torch; import ctypes;x=ctypes.c_int(-1);print({cuda_driver_api_call})"
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(rc, "3")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_WITH_ROCM, "not relevant for CUDA testing")
*da0073e9SAndroid Build Coastguard Worker    def test_hip_device_count(self):
*da0073e9SAndroid Build Coastguard Worker        """Validate device_count works with both CUDA/HIP visible devices"""
*da0073e9SAndroid Build Coastguard Worker        test_script = """\
*da0073e9SAndroid Build Coastguard Workerimport torch
*da0073e9SAndroid Build Coastguard Workerimport os
*da0073e9SAndroid Build Coastguard Workerprint(f"{torch.cuda.device_count()}")
*da0073e9SAndroid Build Coastguard Worker"""
*da0073e9SAndroid Build Coastguard Worker        custom_envs = [
*da0073e9SAndroid Build Coastguard Worker            {"CUDA_VISIBLE_DEVICES": "0", "HIP_VISIBLE_DEVICES": None},
*da0073e9SAndroid Build Coastguard Worker            {"CUDA_VISIBLE_DEVICES": None, "HIP_VISIBLE_DEVICES": "0"},
*da0073e9SAndroid Build Coastguard Worker            {"CUDA_VISIBLE_DEVICES": "0,1,2,3", "HIP_VISIBLE_DEVICES": "0"},
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for env_config in custom_envs:
*da0073e9SAndroid Build Coastguard Worker            env = os.environ.copy()
*da0073e9SAndroid Build Coastguard Worker            for key, value in env_config.items():
*da0073e9SAndroid Build Coastguard Worker                if value is None:
*da0073e9SAndroid Build Coastguard Worker                    env.pop(key, None)
*da0073e9SAndroid Build Coastguard Worker                else:
*da0073e9SAndroid Build Coastguard Worker                    env[key] = value
*da0073e9SAndroid Build Coastguard Worker            r = (
*da0073e9SAndroid Build Coastguard Worker                subprocess.check_output([sys.executable, "-c", test_script], env=env)
*da0073e9SAndroid Build Coastguard Worker                .decode("ascii")
*da0073e9SAndroid Build Coastguard Worker                .strip()
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual("1", r)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_MULTIGPU, "requires multiple devices")
*da0073e9SAndroid Build Coastguard Worker    def test_device_count_not_cached_pre_init(self):
*da0073e9SAndroid Build Coastguard Worker        visible_devices = (
*da0073e9SAndroid Build Coastguard Worker            "HIP_VISIBLE_DEVICES" if torch.version.hip else "CUDA_VISIBLE_DEVICES"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        test_script = f"""\
*da0073e9SAndroid Build Coastguard Workerimport torch
*da0073e9SAndroid Build Coastguard Workerimport os
*da0073e9SAndroid Build Coastguard Workerr1 = torch.cuda.device_count()
*da0073e9SAndroid Build Coastguard Workeros.environ['{visible_devices}'] = '0'
*da0073e9SAndroid Build Coastguard Workerr2 = torch.cuda.device_count()
*da0073e9SAndroid Build Coastguard Workertorch.empty(10, device='cuda')
*da0073e9SAndroid Build Coastguard Workerprint(f"{{r1}}, {{r2}}")
*da0073e9SAndroid Build Coastguard Worker"""
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        r = (
*da0073e9SAndroid Build Coastguard Worker            subprocess.check_output([sys.executable, "-c", test_script])
*da0073e9SAndroid Build Coastguard Worker            .decode("ascii")
*da0073e9SAndroid Build Coastguard Worker            .strip()
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x = torch.cuda.device_count()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(f"{x}, 1", r)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skip("Disabling as USE_CUFILE=0 by default in builds")
*da0073e9SAndroid Build Coastguard Worker    def test_gds_fails_in_ci(self):
*da0073e9SAndroid Build Coastguard Worker        if IS_WINDOWS or TEST_WITH_ROCM:
*da0073e9SAndroid Build Coastguard Worker            error_msg = "is not supported on this platform"
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            error_msg = "cuFileHandleRegister failed"
*da0073e9SAndroid Build Coastguard Worker        with TemporaryFileName() as f:
*da0073e9SAndroid Build Coastguard Worker            with self.assertRaisesRegex(RuntimeError, error_msg):
*da0073e9SAndroid Build Coastguard Worker                file = torch.cuda.gds._GdsFile(f, os.O_CREAT | os.O_RDWR)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker@unittest.skipIf(not TEST_CUDA, "CUDA not available, skipping tests")
*da0073e9SAndroid Build Coastguard Worker@torch.testing._internal.common_utils.markDynamoStrictTest
*da0073e9SAndroid Build Coastguard Workerclass TestCudaMallocAsync(TestCase):
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        TEST_CUDAMALLOCASYNC, "setContextRecorder not supported by CUDAMallocAsync"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_memory_snapshot(self):
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory.empty_cache()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory._record_memory_history("state", stacks="python")
*da0073e9SAndroid Build Coastguard Worker            # make x the second block in a segment
*da0073e9SAndroid Build Coastguard Worker            torch.rand(2 * 311, 411, device="cuda")
*da0073e9SAndroid Build Coastguard Worker            unused = torch.rand(310, 410, device="cuda")
*da0073e9SAndroid Build Coastguard Worker            x = torch.rand(311, 411, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # create a bunch of tensors that all will tile into the
*da0073e9SAndroid Build Coastguard Worker            # same segment to  exercise the history merging code
*da0073e9SAndroid Build Coastguard Worker            # 512B is the minimum block size,
*da0073e9SAndroid Build Coastguard Worker            # so we allocate all the tensors to this size to make sure
*da0073e9SAndroid Build Coastguard Worker            # they tile evenly
*da0073e9SAndroid Build Coastguard Worker            tensors = [torch.rand(128, device="cuda") for _ in range(1000)]
*da0073e9SAndroid Build Coastguard Worker            while tensors:
*da0073e9SAndroid Build Coastguard Worker                del tensors[randint(0, len(tensors) - 1)]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # exercise the history trimming code
*da0073e9SAndroid Build Coastguard Worker            torch.rand(128 * 5, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            ss = torch.cuda.memory._snapshot()
*da0073e9SAndroid Build Coastguard Worker            found_it = False
*da0073e9SAndroid Build Coastguard Worker            for seg in ss["segments"]:
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue("frames" in seg)
*da0073e9SAndroid Build Coastguard Worker                for b in seg["blocks"]:
*da0073e9SAndroid Build Coastguard Worker                    if b["requested_size"] == 311 * 411 * 4:
*da0073e9SAndroid Build Coastguard Worker                        self.assertTrue("test_cuda" in b["frames"][0]["filename"])
*da0073e9SAndroid Build Coastguard Worker                        found_it = True
*da0073e9SAndroid Build Coastguard Worker                        self.assertEqual(x.untyped_storage().data_ptr(), b["address"])
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(found_it)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if not IS_WINDOWS:
*da0073e9SAndroid Build Coastguard Worker                with tempfile.NamedTemporaryFile() as f:
*da0073e9SAndroid Build Coastguard Worker                    torch.cuda.memory._save_segment_usage(f.name)
*da0073e9SAndroid Build Coastguard Worker                    with open(f.name) as f2:
*da0073e9SAndroid Build Coastguard Worker                        self.assertTrue("test_cuda.py" in f2.read())
*da0073e9SAndroid Build Coastguard Worker            del unused
*da0073e9SAndroid Build Coastguard Worker            del x
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker            ss = torch.cuda.memory._snapshot()
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(
*da0073e9SAndroid Build Coastguard Worker                ss["device_traces"][0][-1]["action"]
*da0073e9SAndroid Build Coastguard Worker                in ("segment_free", "segment_unmap")
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        finally:
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory._record_memory_history(None)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(IS_ARM64 or not IS_LINUX, "x86 linux only cpp unwinding")
*da0073e9SAndroid Build Coastguard Worker    def test_direct_traceback(self):
*da0073e9SAndroid Build Coastguard Worker        from torch._C._profiler import gather_traceback, symbolize_tracebacks
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        c = gather_traceback(True, True, True)
*da0073e9SAndroid Build Coastguard Worker        (r,) = symbolize_tracebacks([c])
*da0073e9SAndroid Build Coastguard Worker        r = str(r)
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue("test_cuda.py" in r)
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue("unwind" in r)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        TEST_CUDAMALLOCASYNC, "setContextRecorder not supported by CUDAMallocAsync"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(IS_ARM64 or not IS_LINUX, "cpp contexts are x86 linux only")
*da0073e9SAndroid Build Coastguard Worker    def test_memory_snapshot_with_cpp(self):
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory.empty_cache()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory._record_memory_history("state", stacks="all")
*da0073e9SAndroid Build Coastguard Worker            x = torch.rand(311, 411, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            ss = torch.cuda.memory._snapshot()["segments"]
*da0073e9SAndroid Build Coastguard Worker            found_it = False
*da0073e9SAndroid Build Coastguard Worker            for seg in ss:
*da0073e9SAndroid Build Coastguard Worker                for b in seg["blocks"]:
*da0073e9SAndroid Build Coastguard Worker                    if b["requested_size"] == 311 * 411 * 4:
*da0073e9SAndroid Build Coastguard Worker                        self.assertTrue("::rand" in str(b["frames"]))
*da0073e9SAndroid Build Coastguard Worker                        found_it = True
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(found_it)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        finally:
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory._record_memory_history(None)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skipIfRocm
*da0073e9SAndroid Build Coastguard Worker    def test_memory_profiler_viz(self):
*da0073e9SAndroid Build Coastguard Worker        with torch.profiler.profile(
*da0073e9SAndroid Build Coastguard Worker            with_stack=True, profile_memory=True, record_shapes=True
*da0073e9SAndroid Build Coastguard Worker        ) as prof:
*da0073e9SAndroid Build Coastguard Worker            x = torch.rand(128, 128, device="cuda")
*da0073e9SAndroid Build Coastguard Worker            x * x + x * x
*da0073e9SAndroid Build Coastguard Worker        plot = profile_plot(prof)
*da0073e9SAndroid Build Coastguard Worker        plot = json.dumps(_profile_to_snapshot(prof))
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue("test_cuda.py" in plot)
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue("test_memory_profiler_viz" in plot)
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue("category" in plot)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        TEST_CUDAMALLOCASYNC, "setContextRecorder not supported by CUDAMallocAsync"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(IS_ARM64 or not IS_LINUX, "cpp contexts are x86 linux only")
*da0073e9SAndroid Build Coastguard Worker    def test_cycles(self):
*da0073e9SAndroid Build Coastguard Worker        fired = False
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def observer(html):
*da0073e9SAndroid Build Coastguard Worker            nonlocal fired
*da0073e9SAndroid Build Coastguard Worker            fired = True
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue("torch.Tensor" in html)
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue("test_cuda" in html)
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue("cell_contents" in html)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        disarm = observe_tensor_cycles(observer)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def noop():
*da0073e9SAndroid Build Coastguard Worker            pass
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def create():
*da0073e9SAndroid Build Coastguard Worker                x = torch.empty(3, 4, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                def foo(p):
*da0073e9SAndroid Build Coastguard Worker                    if p:
*da0073e9SAndroid Build Coastguard Worker                        return foo(not p)
*da0073e9SAndroid Build Coastguard Worker                    else:
*da0073e9SAndroid Build Coastguard Worker                        return x
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                return foo
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            create()
*da0073e9SAndroid Build Coastguard Worker            gc.collect()
*da0073e9SAndroid Build Coastguard Worker            # the callback has to run outside of the collect
*da0073e9SAndroid Build Coastguard Worker            # call so it doesn't actual fire until the next
*da0073e9SAndroid Build Coastguard Worker            # method call after a gc.collect
*da0073e9SAndroid Build Coastguard Worker            noop()
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(fired)
*da0073e9SAndroid Build Coastguard Worker        finally:
*da0073e9SAndroid Build Coastguard Worker            disarm()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        TEST_CUDAMALLOCASYNC, "setContextRecorder not supported by CUDAMallocAsync"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(IS_ARM64 or not IS_LINUX, "cpp contexts are x86 linux only")
*da0073e9SAndroid Build Coastguard Worker    def test_memory_plots(self):
*da0073e9SAndroid Build Coastguard Worker        for context, stacks in (
*da0073e9SAndroid Build Coastguard Worker            ("all", "all" if IS_LINUX else "python"),
*da0073e9SAndroid Build Coastguard Worker            ("all", "python"),
*da0073e9SAndroid Build Coastguard Worker            (None, "python"),
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.memory.empty_cache()
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.memory._record_memory_history(
*da0073e9SAndroid Build Coastguard Worker                    "all", context=context, stacks=stacks
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                def run():
*da0073e9SAndroid Build Coastguard Worker                    x = torch.rand(128, 128, device="cuda")
*da0073e9SAndroid Build Coastguard Worker                    x * x + x * x
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                run()
*da0073e9SAndroid Build Coastguard Worker                cpp = stacks == "all"
*da0073e9SAndroid Build Coastguard Worker                record_context = context is not None
*da0073e9SAndroid Build Coastguard Worker                ss = torch.cuda.memory._snapshot()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                tplot = trace_plot(ss)
*da0073e9SAndroid Build Coastguard Worker                splot = segment_plot(ss)
*da0073e9SAndroid Build Coastguard Worker                text = json.dumps(ss)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(record_context == ("test_memory_plots" in text))
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(cpp == ("::rand" in text))
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(str(128 * 128 * 4) in text)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            finally:
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.memory._record_memory_history(None)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        TEST_CUDAMALLOCASYNC, "setContextRecorder not supported by CUDAMallocAsync"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(IS_ARM64 or not IS_LINUX, "cpp contexts are x86 linux only")
*da0073e9SAndroid Build Coastguard Worker    def test_memory_plots_free_stack(self):
*da0073e9SAndroid Build Coastguard Worker        for context in ["alloc", "all", "state"]:
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.memory.empty_cache()
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.memory._record_memory_history(context=context)
*da0073e9SAndroid Build Coastguard Worker                x = None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                def thealloc():
*da0073e9SAndroid Build Coastguard Worker                    nonlocal x
*da0073e9SAndroid Build Coastguard Worker                    x = torch.rand(3, 4, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                def thefree():
*da0073e9SAndroid Build Coastguard Worker                    nonlocal x
*da0073e9SAndroid Build Coastguard Worker                    del x
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                thealloc()
*da0073e9SAndroid Build Coastguard Worker                thefree()
*da0073e9SAndroid Build Coastguard Worker                ss = json.dumps(torch.cuda.memory._snapshot())
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(("thefree" in ss) == (context == "all"))
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(("thealloc" in ss) == (context != "state"))
*da0073e9SAndroid Build Coastguard Worker            finally:
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.memory._record_memory_history(None)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        TEST_CUDAMALLOCASYNC, "setContextRecorder not supported by CUDAMallocAsync"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(IS_ARM64 or not IS_LINUX, "cpp contexts are x86 linux only")
*da0073e9SAndroid Build Coastguard Worker    def test_memory_plots_history_context(self):
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory.empty_cache()
*da0073e9SAndroid Build Coastguard Worker            x = None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def should_capture1():
*da0073e9SAndroid Build Coastguard Worker                nonlocal x
*da0073e9SAndroid Build Coastguard Worker                x = torch.rand(4, 4, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def should_not_capture():
*da0073e9SAndroid Build Coastguard Worker                nonlocal x
*da0073e9SAndroid Build Coastguard Worker                x = torch.rand(3, 4, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def should_capture2():
*da0073e9SAndroid Build Coastguard Worker                nonlocal x
*da0073e9SAndroid Build Coastguard Worker                x = torch.rand(4, 4, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Recording with context and python call stacks should capture the call stack.
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory._record_memory_history(context="all", stacks="python")
*da0073e9SAndroid Build Coastguard Worker            should_capture1()
*da0073e9SAndroid Build Coastguard Worker            # Recording with context=None should not capture the call stack.
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory._record_memory_history(context=None)
*da0073e9SAndroid Build Coastguard Worker            should_not_capture()
*da0073e9SAndroid Build Coastguard Worker            # Recording with context and python call stacks should capture the call stack.
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory._record_memory_history(context="all", stacks="python")
*da0073e9SAndroid Build Coastguard Worker            should_capture2()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            ss = json.dumps(torch.cuda.memory._snapshot())
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue("should_capture1" in ss)
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue("should_not_capture" not in ss)
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue("should_capture2" in ss)
*da0073e9SAndroid Build Coastguard Worker        finally:
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory._record_memory_history(None)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        TEST_CUDAMALLOCASYNC, "setContextRecorder not supported by CUDAMallocAsync"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(IS_ARM64 or not IS_LINUX, "cpp contexts are x86 linux only")
*da0073e9SAndroid Build Coastguard Worker    def test_memory_plots_free_segment_stack(self):
*da0073e9SAndroid Build Coastguard Worker        for context in ["alloc", "all", "state"]:
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.memory.empty_cache()
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.memory._record_memory_history(context=context)
*da0073e9SAndroid Build Coastguard Worker                x = torch.rand(3, 4, device="cuda")
*da0073e9SAndroid Build Coastguard Worker                del x
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.memory.empty_cache()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                ss = json.dumps(torch.cuda.memory._snapshot())
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(("empty_cache" in ss) == (context == "all"))
*da0073e9SAndroid Build Coastguard Worker            finally:
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.memory._record_memory_history(None)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        TEST_CUDAMALLOCASYNC, "setContextRecorder not supported by CUDAMallocAsync"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_memory_snapshot_script(self):
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory.empty_cache()
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory._record_memory_history("state", stacks="python")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            @torch.jit.script
*da0073e9SAndroid Build Coastguard Worker            def foo():
*da0073e9SAndroid Build Coastguard Worker                return torch.rand(311, 411, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            x = foo()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            ss = torch.cuda.memory._snapshot()["segments"]
*da0073e9SAndroid Build Coastguard Worker            found_it = False
*da0073e9SAndroid Build Coastguard Worker            for seg in ss:
*da0073e9SAndroid Build Coastguard Worker                for b in seg["blocks"]:
*da0073e9SAndroid Build Coastguard Worker                    if b["requested_size"] == 311 * 411 * 4:
*da0073e9SAndroid Build Coastguard Worker                        self.assertTrue(b["frames"][0]["name"] == "foo")
*da0073e9SAndroid Build Coastguard Worker                        found_it = True
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(found_it)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        finally:
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory._record_memory_history(None)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_max_split_expandable(self):
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.memory.empty_cache()
*da0073e9SAndroid Build Coastguard Worker        mb = 1024 * 1024
*da0073e9SAndroid Build Coastguard Worker        _, all_memory = torch.cuda.memory.mem_get_info()
*da0073e9SAndroid Build Coastguard Worker        total_allowed = 120 * mb
*da0073e9SAndroid Build Coastguard Worker        fraction_allowed = total_allowed / all_memory
*da0073e9SAndroid Build Coastguard Worker        assert int(fraction_allowed * all_memory) == total_allowed
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.memory.set_per_process_memory_fraction(fraction_allowed)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def alloc(n):
*da0073e9SAndroid Build Coastguard Worker            return torch.ones(n * mb, dtype=torch.int8, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.memory._set_allocator_settings(
*da0073e9SAndroid Build Coastguard Worker            "expandable_segments:False,max_split_size_mb:40"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        a = alloc(40)
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.memory._set_allocator_settings(
*da0073e9SAndroid Build Coastguard Worker            "expandable_segments:True,max_split_size_mb:40"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        b = alloc(40)
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.memory._set_allocator_settings(
*da0073e9SAndroid Build Coastguard Worker            "expandable_segments:False,max_split_size_mb:40"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        c = alloc(40)
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaises(torch.OutOfMemoryError):
*da0073e9SAndroid Build Coastguard Worker            alloc(40)
*da0073e9SAndroid Build Coastguard Worker        del a, b, c
*da0073e9SAndroid Build Coastguard Worker        # force release_cached_blocks to run with some expandable segments in the free list
*da0073e9SAndroid Build Coastguard Worker        alloc(120)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_garbage_collect_expandable(self):
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.memory.empty_cache()
*da0073e9SAndroid Build Coastguard Worker        mb = 1024 * 1024
*da0073e9SAndroid Build Coastguard Worker        _, all_memory = torch.cuda.memory.mem_get_info()
*da0073e9SAndroid Build Coastguard Worker        total_allowed = 120 * mb
*da0073e9SAndroid Build Coastguard Worker        fraction_allowed = total_allowed / all_memory
*da0073e9SAndroid Build Coastguard Worker        assert int(fraction_allowed * all_memory) == total_allowed
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.memory.set_per_process_memory_fraction(fraction_allowed)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def alloc(n):
*da0073e9SAndroid Build Coastguard Worker            return torch.ones(n * mb, dtype=torch.int8, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.memory._set_allocator_settings(
*da0073e9SAndroid Build Coastguard Worker            "expandable_segments:False,garbage_collection_threshold:0.5"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        a = alloc(40)
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.memory._set_allocator_settings(
*da0073e9SAndroid Build Coastguard Worker            "expandable_segments:True,garbage_collection_threshold:0.5"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        b = alloc(40)
*da0073e9SAndroid Build Coastguard Worker        del a, b
*da0073e9SAndroid Build Coastguard Worker        # causes GC to run. The expandable segment block will be split
*da0073e9SAndroid Build Coastguard Worker        # so GC would not attempt to free it anyway, but this at least makes sure
*da0073e9SAndroid Build Coastguard Worker        # expandable_segment blocks can be in the free list when this is called.
*da0073e9SAndroid Build Coastguard Worker        alloc(80)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_allocator_settings(self):
*da0073e9SAndroid Build Coastguard Worker        def power2_div(size, div_factor):
*da0073e9SAndroid Build Coastguard Worker            pow2 = 1
*da0073e9SAndroid Build Coastguard Worker            while pow2 < size:
*da0073e9SAndroid Build Coastguard Worker                pow2 = pow2 * 2
*da0073e9SAndroid Build Coastguard Worker            if pow2 == size:
*da0073e9SAndroid Build Coastguard Worker                return pow2
*da0073e9SAndroid Build Coastguard Worker            step = pow2 / 2 / div_factor
*da0073e9SAndroid Build Coastguard Worker            ret = pow2 / 2
*da0073e9SAndroid Build Coastguard Worker            while ret < size:
*da0073e9SAndroid Build Coastguard Worker                ret = ret + step
*da0073e9SAndroid Build Coastguard Worker            return ret
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.memory.empty_cache()
*da0073e9SAndroid Build Coastguard Worker        key_allocated = (
*da0073e9SAndroid Build Coastguard Worker            "active_bytes.all.allocated"
*da0073e9SAndroid Build Coastguard Worker            if not TEST_CUDAMALLOCASYNC
*da0073e9SAndroid Build Coastguard Worker            else "allocated_bytes.all.current"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        key_requested = "requested_bytes.all.allocated"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        nelems = 21 * 1024 * 1024
*da0073e9SAndroid Build Coastguard Worker        nbytes = 4 * nelems  # floats are 4 bytes
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        nelems_big = 100 * 1024 * 1024
*da0073e9SAndroid Build Coastguard Worker        nbytes_big = 4 * nelems_big  # floats are 4 bytes
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        start_mem = torch.cuda.memory_stats()[key_allocated]
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.memory._set_allocator_settings("")
*da0073e9SAndroid Build Coastguard Worker        x = torch.rand(nelems, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # test roundup_power2_divisions single value syntax
*da0073e9SAndroid Build Coastguard Worker        reg_mem = torch.cuda.memory_stats()[key_allocated]
*da0073e9SAndroid Build Coastguard Worker        start_requested = torch.cuda.memory_stats()[key_requested]
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.memory._set_allocator_settings("roundup_power2_divisions:4")
*da0073e9SAndroid Build Coastguard Worker        y = torch.rand(nelems, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        pow2_div4_mem = torch.cuda.memory_stats()[key_allocated]
*da0073e9SAndroid Build Coastguard Worker        current_requested = torch.cuda.memory_stats()[key_requested]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(reg_mem - start_mem == nbytes)
*da0073e9SAndroid Build Coastguard Worker        if not TEST_CUDAMALLOCASYNC:
*da0073e9SAndroid Build Coastguard Worker            # not supported with the cudaMallocAsync backend
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(pow2_div4_mem - reg_mem == power2_div(nbytes, 4))
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(current_requested - start_requested == nbytes)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.memory._set_allocator_settings("garbage_collection_threshold:0.5")
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.memory._set_allocator_settings(
*da0073e9SAndroid Build Coastguard Worker            "garbage_collection_threshold:0.5,max_split_size_mb:40"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # should have reset the power2 divisions now
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.memory.empty_cache()
*da0073e9SAndroid Build Coastguard Worker        start_mem = torch.cuda.memory_stats()[key_allocated]
*da0073e9SAndroid Build Coastguard Worker        z = torch.rand(nelems, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        reg_mem = torch.cuda.memory_stats()[key_allocated]
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(reg_mem - start_mem == nbytes)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # roundup_power2_divisions knob array syntax
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.memory.empty_cache()
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.memory._set_allocator_settings(
*da0073e9SAndroid Build Coastguard Worker            "garbage_collection_threshold:0.5,roundup_power2_divisions:[64:8,128:2,256:2,512:2,1024:1,>:1]"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        start_mem = torch.cuda.memory_stats()[key_allocated]
*da0073e9SAndroid Build Coastguard Worker        w = torch.rand(nelems, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        pow2_div8_mem = torch.cuda.memory_stats()[key_allocated]
*da0073e9SAndroid Build Coastguard Worker        if not TEST_CUDAMALLOCASYNC:
*da0073e9SAndroid Build Coastguard Worker            # not supported with the cudaMallocAsync backend
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(pow2_div8_mem - start_mem == power2_div(nbytes, 8))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.memory.empty_cache()
*da0073e9SAndroid Build Coastguard Worker        start_mem = torch.cuda.memory_stats()[key_allocated]
*da0073e9SAndroid Build Coastguard Worker        v = torch.rand(nelems_big, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        pow2_div2_mem = torch.cuda.memory_stats()[key_allocated]
*da0073e9SAndroid Build Coastguard Worker        if not TEST_CUDAMALLOCASYNC:
*da0073e9SAndroid Build Coastguard Worker            # not supported with the cudaMallocAsync backend
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(pow2_div2_mem - start_mem == power2_div(nbytes_big, 2))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.memory.empty_cache()
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.memory._set_allocator_settings("release_lock_on_cudamalloc:True")
*da0073e9SAndroid Build Coastguard Worker        start_mem = torch.cuda.memory_stats()[key_allocated]
*da0073e9SAndroid Build Coastguard Worker        w = torch.rand(nelems, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        reg_mem = torch.cuda.memory_stats()[key_allocated]
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(reg_mem - start_mem == nbytes)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaises(RuntimeError):
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory._set_allocator_settings("foo:1,bar:2")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaises(RuntimeError):
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory._set_allocator_settings(
*da0073e9SAndroid Build Coastguard Worker                "garbage_collection_threshold:1.2"
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaises(RuntimeError):
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory._set_allocator_settings("max_split_size_mb:2")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaises(RuntimeError):
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory._set_allocator_settings("release_lock_on_cudamalloc:none")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaises(RuntimeError):
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory._set_allocator_settings(
*da0073e9SAndroid Build Coastguard Worker                "pinned_use_cuda_host_register:none"
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaises(RuntimeError):
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory._set_allocator_settings(
*da0073e9SAndroid Build Coastguard Worker                "pinned_num_register_threads:none"
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaises(RuntimeError):
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory._set_allocator_settings(
*da0073e9SAndroid Build Coastguard Worker                "pinned_num_register_threads:1024"
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @parametrize("max_split_size_mb_setting", [False, True])
*da0073e9SAndroid Build Coastguard Worker    def test_raises_oom(self, max_split_size_mb_setting):
*da0073e9SAndroid Build Coastguard Worker        if max_split_size_mb_setting:
*da0073e9SAndroid Build Coastguard Worker            # CudaCachingAllocator does early return when searching available blocks
*da0073e9SAndroid Build Coastguard Worker            # if max_split_size_mb is not set
*da0073e9SAndroid Build Coastguard Worker            # Setting this triggers more parts of the code
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory._set_allocator_settings("max_split_size_mb:1024")
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory.empty_cache()
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaises(torch.cuda.OutOfMemoryError):
*da0073e9SAndroid Build Coastguard Worker            torch.empty(1024 * 1024 * 1024 * 1024, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not (IS_LINUX and os.uname().machine == "x86_64"), "cpp traces only on linux"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        TEST_CUDAMALLOCASYNC, "setContextRecorder not supported by CUDAMallocAsync"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_cpp_memory_snapshot_pickle(self):
*da0073e9SAndroid Build Coastguard Worker        from torch.utils.cpp_extension import load_inline
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        source = """
*da0073e9SAndroid Build Coastguard Worker        #include <torch/csrc/cuda/memory_snapshot.h>
*da0073e9SAndroid Build Coastguard Worker        py::object do_snapshot() {
*da0073e9SAndroid Build Coastguard Worker            std::string data = torch::cuda::_memory_snapshot_pickled();
*da0073e9SAndroid Build Coastguard Worker            return py::bytes(data);
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker        void record(bool e, bool ctx) {
*da0073e9SAndroid Build Coastguard Worker            torch::cuda::_record_memory_history(e, ctx, 10, ctx, ctx);
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        m = load_inline(
*da0073e9SAndroid Build Coastguard Worker            name="snapshot", cpp_sources=[source], functions=["do_snapshot", "record"]
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        for ctx in (False, True):
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                m.record(True, ctx)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                @torch.jit.script
*da0073e9SAndroid Build Coastguard Worker                def the_script_fn():
*da0073e9SAndroid Build Coastguard Worker                    return torch.rand(311, 411, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                def run():
*da0073e9SAndroid Build Coastguard Worker                    t = the_script_fn()
*da0073e9SAndroid Build Coastguard Worker                    return pickle.loads(m.do_snapshot())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                mem = run()
*da0073e9SAndroid Build Coastguard Worker                found = False
*da0073e9SAndroid Build Coastguard Worker                for s in mem["segments"]:
*da0073e9SAndroid Build Coastguard Worker                    for b in s["blocks"]:
*da0073e9SAndroid Build Coastguard Worker                        if b["state"] == "active_allocated":
*da0073e9SAndroid Build Coastguard Worker                            if b["requested_size"] == 311 * 411 * 4:
*da0073e9SAndroid Build Coastguard Worker                                if ctx:
*da0073e9SAndroid Build Coastguard Worker                                    frame_text = str(b["frames"])
*da0073e9SAndroid Build Coastguard Worker                                    # C++ frame
*da0073e9SAndroid Build Coastguard Worker                                    self.assertTrue("::rand" in frame_text)
*da0073e9SAndroid Build Coastguard Worker                                    # script frame
*da0073e9SAndroid Build Coastguard Worker                                    self.assertTrue("the_script_fn" in frame_text)
*da0073e9SAndroid Build Coastguard Worker                                    # python frame
*da0073e9SAndroid Build Coastguard Worker                                    self.assertTrue("case.py" in frame_text)
*da0073e9SAndroid Build Coastguard Worker                                found = True
*da0073e9SAndroid Build Coastguard Worker                last_action = mem["device_traces"][0][-1]
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(last_action["action"] == "alloc")
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(last_action["size"] == 311 * 411 * 4)
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(found)
*da0073e9SAndroid Build Coastguard Worker            finally:
*da0073e9SAndroid Build Coastguard Worker                m.record(False, False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(TEST_CUDAMALLOCASYNC, "temporarily disabled")
*da0073e9SAndroid Build Coastguard Worker    def test_notifies_oom(self):
*da0073e9SAndroid Build Coastguard Worker        x = False
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def cb(device, alloc, device_alloc, device_free):
*da0073e9SAndroid Build Coastguard Worker            nonlocal x
*da0073e9SAndroid Build Coastguard Worker            x = True
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch._C._cuda_attach_out_of_memory_observer(cb)
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaises(torch.cuda.OutOfMemoryError):
*da0073e9SAndroid Build Coastguard Worker            torch.empty(1024 * 1024 * 1024 * 1024, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(x)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_allocator_fuzz(self):
*da0073e9SAndroid Build Coastguard Worker        # fuzz
*da0073e9SAndroid Build Coastguard Worker        state = random.getstate()
*da0073e9SAndroid Build Coastguard Worker        random.seed(123)
*da0073e9SAndroid Build Coastguard Worker        N = 10000
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            mem = []
*da0073e9SAndroid Build Coastguard Worker            total = 0
*da0073e9SAndroid Build Coastguard Worker            c = 0
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def alloc():
*da0073e9SAndroid Build Coastguard Worker                nonlocal total, c
*da0073e9SAndroid Build Coastguard Worker                b = random.randrange(2 * 1024 * 1024 // 4, 20 * 1024 * 1024 // 4)
*da0073e9SAndroid Build Coastguard Worker                mem.append((c, torch.full((b,), c, dtype=torch.int32, device="cuda")))
*da0073e9SAndroid Build Coastguard Worker                c += 1
*da0073e9SAndroid Build Coastguard Worker                total += b
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def free():
*da0073e9SAndroid Build Coastguard Worker                nonlocal total
*da0073e9SAndroid Build Coastguard Worker                idx = random.randrange(0, len(mem))
*da0073e9SAndroid Build Coastguard Worker                v, x = mem.pop(idx)
*da0073e9SAndroid Build Coastguard Worker                assert torch.all(v == x)
*da0073e9SAndroid Build Coastguard Worker                total -= x.numel()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            choices = [alloc, free, torch.cuda.memory.empty_cache]
*da0073e9SAndroid Build Coastguard Worker            for i in range(N):
*da0073e9SAndroid Build Coastguard Worker                while total >= 1024 * 1024 * 1024 / (4 * 10):
*da0073e9SAndroid Build Coastguard Worker                    free()
*da0073e9SAndroid Build Coastguard Worker                (action,) = random.choices(choices, weights=[1, 1 if mem else 0, 0.1])
*da0073e9SAndroid Build Coastguard Worker                action()
*da0073e9SAndroid Build Coastguard Worker        finally:
*da0073e9SAndroid Build Coastguard Worker            random.setstate(state)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(TEST_PYNVML, "pynvml is not available")
*da0073e9SAndroid Build Coastguard Worker    def test_nvml_get_handler(self):
*da0073e9SAndroid Build Coastguard Worker        if not torch.version.hip:
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(torch.cuda._get_pynvml_handler() is not None)
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(torch.cuda._get_amdsmi_handler() is not None)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(TEST_PYNVML, "pynvml is not available")
*da0073e9SAndroid Build Coastguard Worker    def test_temperature(self):
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(0 <= torch.cuda.temperature() <= 150)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(TEST_PYNVML, "pynvml is not available")
*da0073e9SAndroid Build Coastguard Worker    def test_power_draw(self):
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(torch.cuda.power_draw() >= 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(TEST_PYNVML, "pynvml is not available")
*da0073e9SAndroid Build Coastguard Worker    def test_clock_speed(self):
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(torch.cuda.clock_rate() >= 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerMIN_BLOCK_SIZE = 512
*da0073e9SAndroid Build Coastguard WorkerSMALL_SIZE = 1048576
*da0073e9SAndroid Build Coastguard WorkerSMALL_BUFFER = 2097152
*da0073e9SAndroid Build Coastguard WorkerLARGE_BUFFER = 20971520
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef get_cudagraph_segments(pool_id):
*da0073e9SAndroid Build Coastguard Worker    segments = torch.cuda.memory_snapshot()
*da0073e9SAndroid Build Coastguard Worker    return [segment for segment in segments if segment["segment_pool_id"] == pool_id]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef get_all_cudagraph_segments():
*da0073e9SAndroid Build Coastguard Worker    segments = torch.cuda.memory_snapshot()
*da0073e9SAndroid Build Coastguard Worker    return [segment for segment in segments if segment["segment_pool_id"] != (0, 0)]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef cudagraphify(fn, inputs, pool=None):
*da0073e9SAndroid Build Coastguard Worker    if not TEST_CUDA_GRAPH:
*da0073e9SAndroid Build Coastguard Worker        raise unittest.SkipTest("cuda graph test is skipped")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker    stream = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker    stream.wait_stream(torch.cuda.current_stream())
*da0073e9SAndroid Build Coastguard Worker    with torch.cuda.stream(stream):
*da0073e9SAndroid Build Coastguard Worker        fn(*inputs)
*da0073e9SAndroid Build Coastguard Worker    stream.synchronize()
*da0073e9SAndroid Build Coastguard Worker    torch.cuda.current_stream().wait_stream(stream)
*da0073e9SAndroid Build Coastguard Worker    torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    graph = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker    with torch.cuda.graph(graph, stream=stream, pool=pool):
*da0073e9SAndroid Build Coastguard Worker        static_outputs = fn(*inputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return graph, static_outputs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef int8_cuda(size):
*da0073e9SAndroid Build Coastguard Worker    return torch.ones([size], device="cuda", dtype=torch.uint8)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef live_blocks(pool_id):
*da0073e9SAndroid Build Coastguard Worker    blocks = 0
*da0073e9SAndroid Build Coastguard Worker    seg = get_cudagraph_segments(pool_id)
*da0073e9SAndroid Build Coastguard Worker    for segment in get_cudagraph_segments(pool_id):
*da0073e9SAndroid Build Coastguard Worker        for block in segment["blocks"]:
*da0073e9SAndroid Build Coastguard Worker            blocks += block["state"] == "active_allocated"
*da0073e9SAndroid Build Coastguard Worker    return blocks
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef tensor_metadata(x):
*da0073e9SAndroid Build Coastguard Worker    return {
*da0073e9SAndroid Build Coastguard Worker        "nbytes": x.untyped_storage().nbytes(),
*da0073e9SAndroid Build Coastguard Worker        "data_ptr": x.untyped_storage().data_ptr(),
*da0073e9SAndroid Build Coastguard Worker        "size": x.shape,
*da0073e9SAndroid Build Coastguard Worker        "stride": x.stride(),
*da0073e9SAndroid Build Coastguard Worker        "dtype": x.dtype,
*da0073e9SAndroid Build Coastguard Worker        "device": x.device,
*da0073e9SAndroid Build Coastguard Worker        "storage_offset": x.storage_offset(),
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef reconstruct_from_tensor_metadata(metadata):
*da0073e9SAndroid Build Coastguard Worker    s = torch._C._construct_storage_from_data_pointer(
*da0073e9SAndroid Build Coastguard Worker        metadata["data_ptr"], metadata["device"], metadata["nbytes"]
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    t = torch.empty([0], device=metadata["device"], dtype=metadata["dtype"])
*da0073e9SAndroid Build Coastguard Worker    t.set_(
*da0073e9SAndroid Build Coastguard Worker        source=s,
*da0073e9SAndroid Build Coastguard Worker        storage_offset=metadata["storage_offset"],
*da0073e9SAndroid Build Coastguard Worker        size=metadata["size"],
*da0073e9SAndroid Build Coastguard Worker        stride=metadata["stride"],
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    return t
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker@unittest.skipIf(not TEST_CUDA or TEST_CUDAMALLOCASYNC or TEST_WITH_ROCM, "NYI")
*da0073e9SAndroid Build Coastguard Worker@torch.testing._internal.common_utils.markDynamoStrictTest
*da0073e9SAndroid Build Coastguard Workerclass TestBlockStateAbsorption(TestCase):
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def expandable_segments(self):
*da0073e9SAndroid Build Coastguard Worker        return EXPANDABLE_SEGMENTS
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def checkCheckpointedBlock(self, before_block, after_block):
*da0073e9SAndroid Build Coastguard Worker        for field in ("size", "state"):
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(before_block[field], after_block[field])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def checkCheckpointedState(self, before_segments, after_segments):
*da0073e9SAndroid Build Coastguard Worker        # after may contain additional segments, but all of the segments in before
*da0073e9SAndroid Build Coastguard Worker        # should be exactly equivalent to after
*da0073e9SAndroid Build Coastguard Worker        after_ptr_to_segment = {
*da0073e9SAndroid Build Coastguard Worker            segment["address"]: segment for segment in after_segments
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for before_segment in before_segments:
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(before_segment["address"] in after_ptr_to_segment)
*da0073e9SAndroid Build Coastguard Worker            after_segment = after_ptr_to_segment[before_segment["address"]]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            for field in (
*da0073e9SAndroid Build Coastguard Worker                "device",
*da0073e9SAndroid Build Coastguard Worker                "total_size",
*da0073e9SAndroid Build Coastguard Worker                "allocated_size",
*da0073e9SAndroid Build Coastguard Worker                "active_size",
*da0073e9SAndroid Build Coastguard Worker                "segment_type",
*da0073e9SAndroid Build Coastguard Worker                "segment_pool_id",
*da0073e9SAndroid Build Coastguard Worker            ):
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(before_segment[field], after_segment[field])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker                len(before_segment["blocks"]), len(after_segment["blocks"])
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            for before_block, after_block in zip(
*da0073e9SAndroid Build Coastguard Worker                before_segment["blocks"], after_segment["blocks"]
*da0073e9SAndroid Build Coastguard Worker            ):
*da0073e9SAndroid Build Coastguard Worker                self.checkCheckpointedBlock(before_block, after_block)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @staticmethod
*da0073e9SAndroid Build Coastguard Worker    def setCheckpointPoolState(
*da0073e9SAndroid Build Coastguard Worker        device, state, stale_storages_ptr, storages_deleters=None
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        stale_storages_ptr = [t.untyped_storage()._cdata for t in stale_storages_ptr]
*da0073e9SAndroid Build Coastguard Worker        storages_deleters = (
*da0073e9SAndroid Build Coastguard Worker            []
*da0073e9SAndroid Build Coastguard Worker            if not storages_deleters
*da0073e9SAndroid Build Coastguard Worker            else [t.untyped_storage()._cdata for t in storages_deleters]
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        torch._C._cuda_setCheckpointPoolState(
*da0073e9SAndroid Build Coastguard Worker            device, state, stale_storages_ptr, storages_deleters
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def checkFunction(self, fn, inputs, pool=None):
*da0073e9SAndroid Build Coastguard Worker        graph, outputs = cudagraphify(fn, inputs, pool=pool)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        pool_id = graph.pool()
*da0073e9SAndroid Build Coastguard Worker        device = outputs[0].device.index
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        segments_before_checkpoint = get_cudagraph_segments(pool_id)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        state = torch._C._cuda_getCheckpointState(device, pool_id)
*da0073e9SAndroid Build Coastguard Worker        self.setCheckpointPoolState(device, state, [], [])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.checkCheckpointedState(
*da0073e9SAndroid Build Coastguard Worker            segments_before_checkpoint, get_cudagraph_segments(pool_id)
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def setUp(self):
*da0073e9SAndroid Build Coastguard Worker        super().setUp()
*da0073e9SAndroid Build Coastguard Worker        self.segment_length = len(get_all_cudagraph_segments())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def tearDown(self):
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker        gc.collect()
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(len(get_all_cudagraph_segments()), self.segment_length)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        super().tearDown()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_simple(self):
*da0073e9SAndroid Build Coastguard Worker        def foo():
*da0073e9SAndroid Build Coastguard Worker            x = torch.zeros([SMALL_SIZE * 8], device="cuda", dtype=torch.uint8)
*da0073e9SAndroid Build Coastguard Worker            x = x + x
*da0073e9SAndroid Build Coastguard Worker            x1 = int8_cuda(SMALL_SIZE) + int8_cuda(SMALL_SIZE) + int8_cuda(SMALL_SIZE)
*da0073e9SAndroid Build Coastguard Worker            y = int8_cuda(SMALL_SIZE) + x1
*da0073e9SAndroid Build Coastguard Worker            z = int8_cuda(SMALL_SIZE)
*da0073e9SAndroid Build Coastguard Worker            return x, y, z
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.checkFunction(foo, [])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_allocated_in_middle_of_segment(self):
*da0073e9SAndroid Build Coastguard Worker        def foo():
*da0073e9SAndroid Build Coastguard Worker            small_buffers = [int8_cuda(MIN_BLOCK_SIZE) for _ in range(11)]
*da0073e9SAndroid Build Coastguard Worker            return small_buffers[5].add_(2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.checkFunction(foo, [])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_multiple_middle_allocations(self):
*da0073e9SAndroid Build Coastguard Worker        def foo():
*da0073e9SAndroid Build Coastguard Worker            small_buffers = [int8_cuda(MIN_BLOCK_SIZE) for _ in range(11)]
*da0073e9SAndroid Build Coastguard Worker            return small_buffers[5], small_buffers[8]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.checkFunction(foo, [])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_middle_allocations_contiguous(self):
*da0073e9SAndroid Build Coastguard Worker        def foo():
*da0073e9SAndroid Build Coastguard Worker            small_buffers = [int8_cuda(MIN_BLOCK_SIZE) for _ in range(11)]
*da0073e9SAndroid Build Coastguard Worker            return small_buffers[5], small_buffers[6]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.checkFunction(foo, [])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_additional_free_following_checkpoint(self):
*da0073e9SAndroid Build Coastguard Worker        def foo():
*da0073e9SAndroid Build Coastguard Worker            return (int8_cuda(MIN_BLOCK_SIZE),)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def foo2():
*da0073e9SAndroid Build Coastguard Worker            return (int8_cuda(MIN_BLOCK_SIZE),)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        graph, outputs = cudagraphify(foo, [])
*da0073e9SAndroid Build Coastguard Worker        pool_id = graph.pool()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        segments_before_checkpoint = get_cudagraph_segments(pool_id)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        state = torch._C._cuda_getCheckpointState(outputs[0].device.index, pool_id)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        graph2, outputs2 = cudagraphify(foo2, [], pool=graph.pool())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.setCheckpointPoolState(outputs[0].device.index, state, outputs2, [])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        del outputs2
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.checkCheckpointedState(
*da0073e9SAndroid Build Coastguard Worker            segments_before_checkpoint, get_cudagraph_segments(pool_id)
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # TODO: re-enable
*da0073e9SAndroid Build Coastguard Worker    # def test_additional_free_error(self):
*da0073e9SAndroid Build Coastguard Worker    #     def foo():
*da0073e9SAndroid Build Coastguard Worker    #         return int8_cuda(MIN_BLOCK_SIZE),
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    #     def foo2():
*da0073e9SAndroid Build Coastguard Worker    #         return int8_cuda(MIN_BLOCK_SIZE),
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    #     graph, outputs = cudagraphify(foo, [])
*da0073e9SAndroid Build Coastguard Worker    #     pool_id = graph.pool()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    #     segments_before_checkpoint = get_cudagraph_segments(pool_id)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    #     state = torch._C._cuda_getCheckpointState(outputs[0].device.index, pool_id)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # graph2, outputs2 = cudagraphify(foo2, [], pool=graph.pool())
*da0073e9SAndroid Build Coastguard Worker    # with self.assertRaisesRegex(Exception, "being manually freed must be passed"):
*da0073e9SAndroid Build Coastguard Worker    #     self.setCheckpointPoolState(outputs[0].device.index, state, [], [])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_tensor_dies_after_checkpoint(self):
*da0073e9SAndroid Build Coastguard Worker        def foo():
*da0073e9SAndroid Build Coastguard Worker            return int8_cuda(MIN_BLOCK_SIZE), int8_cuda(MIN_BLOCK_SIZE)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        graph, outputs = cudagraphify(foo, [])
*da0073e9SAndroid Build Coastguard Worker        pool_id = graph.pool()
*da0073e9SAndroid Build Coastguard Worker        device = outputs[0].device.index
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        segments_before_checkpoint = get_cudagraph_segments(pool_id)
*da0073e9SAndroid Build Coastguard Worker        state = torch._C._cuda_getCheckpointState(outputs[0].device.index, pool_id)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        output_data_ptrs = [output.data_ptr() for output in outputs]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        del outputs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.setCheckpointPoolState(device, state, [], [])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(live_blocks(pool_id), 2)
*da0073e9SAndroid Build Coastguard Worker        torch._C._cuda_cudaCachingAllocator_raw_delete(output_data_ptrs[0])
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(live_blocks(pool_id), 1)
*da0073e9SAndroid Build Coastguard Worker        torch._C._cuda_cudaCachingAllocator_raw_delete(output_data_ptrs[1])
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(live_blocks(pool_id), 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_assigning_back_deleter_fns_to_tensor(self):
*da0073e9SAndroid Build Coastguard Worker        def foo(x):
*da0073e9SAndroid Build Coastguard Worker            return (
*da0073e9SAndroid Build Coastguard Worker                int8_cuda(SMALL_BUFFER) + x,
*da0073e9SAndroid Build Coastguard Worker                int8_cuda(SMALL_BUFFER) + x,
*da0073e9SAndroid Build Coastguard Worker                int8_cuda(LARGE_BUFFER) + x,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        inp = torch.tensor([1], device="cuda")
*da0073e9SAndroid Build Coastguard Worker        graph, outputs = cudagraphify(foo, [inp])
*da0073e9SAndroid Build Coastguard Worker        pool_id = graph.pool()
*da0073e9SAndroid Build Coastguard Worker        graph.replay()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        device = outputs[0].device.index
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for i in range(len(outputs)):
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(outputs[i].mean(dtype=torch.float) == 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        state = torch._C._cuda_getCheckpointState(outputs[0].device.index, pool_id)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        output_ptrs = [output.untyped_storage().data_ptr() for output in outputs]
*da0073e9SAndroid Build Coastguard Worker        ten_metadata = [tensor_metadata(t) for t in outputs]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(live_blocks(pool_id), 3)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        del outputs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(live_blocks(pool_id), 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        reconstructed_tensors = [
*da0073e9SAndroid Build Coastguard Worker            reconstruct_from_tensor_metadata(metadata) for metadata in ten_metadata
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for i in range(len(reconstructed_tensors)):
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(reconstructed_tensors[i].mean(dtype=torch.float) == 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        inp.add_(1)
*da0073e9SAndroid Build Coastguard Worker        graph.replay()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for i in range(len(reconstructed_tensors)):
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(reconstructed_tensors[i].mean(dtype=torch.float) == 3)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.setCheckpointPoolState(
*da0073e9SAndroid Build Coastguard Worker            device, state, [], [reconstructed_tensors[0], reconstructed_tensors[1]]
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(live_blocks(pool_id), 3)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        reconstructed_tensors[0] = None
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(live_blocks(pool_id), 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        reconstructed_tensors[1] = None
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(live_blocks(pool_id), 1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # should not change, we did not pass it in to swap data ptrs
*da0073e9SAndroid Build Coastguard Worker        reconstructed_tensors[2] = None
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(live_blocks(pool_id), 1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch._C._cuda_cudaCachingAllocator_raw_delete(output_ptrs[2])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(live_blocks(pool_id), 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skipIfNoTorchVision
*da0073e9SAndroid Build Coastguard Worker    def test_resnet(self):
*da0073e9SAndroid Build Coastguard Worker        import torchvision
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        m = torchvision.models.resnet50()
*da0073e9SAndroid Build Coastguard Worker        m.eval()
*da0073e9SAndroid Build Coastguard Worker        m = m.cuda()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        inp = torch.rand([1, 3, 255, 255], device="cuda")
*da0073e9SAndroid Build Coastguard Worker        self.checkFunction(m, [inp])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_check_pool_live_allocations(self):
*da0073e9SAndroid Build Coastguard Worker        def foo():
*da0073e9SAndroid Build Coastguard Worker            return torch.ones([4], device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        pool = torch.cuda.graph_pool_handle()
*da0073e9SAndroid Build Coastguard Worker        graph, outputs = cudagraphify(foo, [], pool=pool)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        index = outputs[0].device.index
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def check(live_dps):
*da0073e9SAndroid Build Coastguard Worker            return torch._C._cuda_checkPoolLiveAllocations(index, pool, live_dps)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(check({outputs[0].data_ptr()}))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertFalse(check({outputs[0].data_ptr(), 0}))
*da0073e9SAndroid Build Coastguard Worker        self.assertFalse(check(set()))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        del outputs
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(check(set()))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_allocate_in_thread_to_pool(self):
*da0073e9SAndroid Build Coastguard Worker        def foo():
*da0073e9SAndroid Build Coastguard Worker            return torch.rand([4], device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        pool = torch.cuda.graph_pool_handle()
*da0073e9SAndroid Build Coastguard Worker        graph, outputs = cudagraphify(foo, [], pool=pool)
*da0073e9SAndroid Build Coastguard Worker        device = outputs[0].device.index
*da0073e9SAndroid Build Coastguard Worker        del outputs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        @contextlib.contextmanager
*da0073e9SAndroid Build Coastguard Worker        def _use_cuda_memory_pool_manager(device, mem_pool):
*da0073e9SAndroid Build Coastguard Worker            """
*da0073e9SAndroid Build Coastguard Worker            Context manager to use cuda graph pool for new allocations. If you use this manager
*da0073e9SAndroid Build Coastguard Worker            all cudagraph tensors in use should be reflected in the allocator or they will be overwritten.
*da0073e9SAndroid Build Coastguard Worker            existing_graph should already have been used in a capture, and the mem_pool must already exist.
*da0073e9SAndroid Build Coastguard Worker            """
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker            stream = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker            stream.wait_stream(torch.cuda.current_stream())
*da0073e9SAndroid Build Coastguard Worker            stream_context = torch.cuda.stream(stream)
*da0073e9SAndroid Build Coastguard Worker            stream_context.__enter__()
*da0073e9SAndroid Build Coastguard Worker            torch._C._cuda_beginAllocateCurrentStreamToPool(device, mem_pool)
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                yield
*da0073e9SAndroid Build Coastguard Worker            finally:
*da0073e9SAndroid Build Coastguard Worker                torch._C._cuda_endAllocateCurrentStreamToPool(device, mem_pool)
*da0073e9SAndroid Build Coastguard Worker                torch._C._cuda_releasePool(device, mem_pool)
*da0073e9SAndroid Build Coastguard Worker                stream_context.__exit__(None, None, None)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        segments = get_cudagraph_segments(pool)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(len(get_cudagraph_segments(pool)), 1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def use_pool():
*da0073e9SAndroid Build Coastguard Worker            def alloc_three():
*da0073e9SAndroid Build Coastguard Worker                a = int8_cuda(LARGE_BUFFER)
*da0073e9SAndroid Build Coastguard Worker                b = int8_cuda(LARGE_BUFFER)
*da0073e9SAndroid Build Coastguard Worker                c = a + b
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            with _use_cuda_memory_pool_manager(device, pool):
*da0073e9SAndroid Build Coastguard Worker                # three allocations
*da0073e9SAndroid Build Coastguard Worker                for _ in range(10):
*da0073e9SAndroid Build Coastguard Worker                    alloc_three()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # three more allocations not in pool
*da0073e9SAndroid Build Coastguard Worker            alloc_three()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def no_pool():
*da0073e9SAndroid Build Coastguard Worker            # two allocations
*da0073e9SAndroid Build Coastguard Worker            for _ in range(10):
*da0073e9SAndroid Build Coastguard Worker                a = int8_cuda(LARGE_BUFFER)
*da0073e9SAndroid Build Coastguard Worker                b = int8_cuda(LARGE_BUFFER)
*da0073e9SAndroid Build Coastguard Worker                del a, b
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        graph_thread = threading.Thread(target=use_pool)
*da0073e9SAndroid Build Coastguard Worker        no_graph_thread = threading.Thread(target=no_pool)
*da0073e9SAndroid Build Coastguard Worker        graph_thread.start()
*da0073e9SAndroid Build Coastguard Worker        no_graph_thread.start()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        graph_thread.join()
*da0073e9SAndroid Build Coastguard Worker        no_graph_thread.join()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            len(get_cudagraph_segments(pool)), 2 if self.expandable_segments else 4
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        del graph
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker        gc.collect()
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(len(get_cudagraph_segments(pool)), 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_no_triton_on_import(self):
*da0073e9SAndroid Build Coastguard Worker        """Test that Trition is not imported on first GPU use"""
*da0073e9SAndroid Build Coastguard Worker        script = "import sys; import torch; torch.rand(2, device='cuda'); print('triton' in sys.modules)"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        rc = (
*da0073e9SAndroid Build Coastguard Worker            subprocess.check_output(
*da0073e9SAndroid Build Coastguard Worker                [sys.executable, "-c", script],
*da0073e9SAndroid Build Coastguard Worker                # On Windows, opening the subprocess with the default CWD makes `import torch`
*da0073e9SAndroid Build Coastguard Worker                # fail, so just set CWD to this script's directory
*da0073e9SAndroid Build Coastguard Worker                cwd=os.path.dirname(os.path.realpath(__file__)),
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            .strip()
*da0073e9SAndroid Build Coastguard Worker            .decode("ascii")
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(rc, "False", "Triton was imported when importing torch!")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker@unittest.skipIf(not TEST_CUDA, "CUDA not available, skipping tests")
*da0073e9SAndroid Build Coastguard Workerclass TestMemPool(TestCase):
*da0073e9SAndroid Build Coastguard Worker    def test_mempool_id(self):
*da0073e9SAndroid Build Coastguard Worker        pool1 = torch.cuda.graph_pool_handle()
*da0073e9SAndroid Build Coastguard Worker        pool2 = torch.cuda.MemPool().id
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # first value of id in a user created pool is always zero
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(pool1[0] == 0, pool2[0] == 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # each call to torch.cuda.graph_pool_handle() or torch.cuda.MemPool()
*da0073e9SAndroid Build Coastguard Worker        # increments the id
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(abs(pool2[1] - pool1[1]) > 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_mempool_with_allocator(self):
*da0073e9SAndroid Build Coastguard Worker        pool = torch.cuda.MemPool()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # MemPool doesn't have an allocator by default
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(pool.allocator, None)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        from torch.utils.cpp_extension import load_inline
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        dummy_allocator_source = """
*da0073e9SAndroid Build Coastguard Worker        #include <torch/extension.h>
*da0073e9SAndroid Build Coastguard Worker        #include <ATen/cuda/Exceptions.h>
*da0073e9SAndroid Build Coastguard Worker        #include <cuda_runtime_api.h>
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        extern "C" {
*da0073e9SAndroid Build Coastguard Worker          C10_EXPORT int called_dummy_alloc = 0;
*da0073e9SAndroid Build Coastguard Worker          C10_EXPORT int called_dummy_free = 0;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker          // Note that windows needs __declspec(dllexport): https://stackoverflow.com/a/24575865
*da0073e9SAndroid Build Coastguard Worker          C10_EXPORT void* dummy_alloc(size_t size, int device, void* stream) {
*da0073e9SAndroid Build Coastguard Worker            called_dummy_alloc = 123;
*da0073e9SAndroid Build Coastguard Worker            void* ptr;
*da0073e9SAndroid Build Coastguard Worker            C10_CUDA_CHECK(cudaMallocManaged(&ptr, size));
*da0073e9SAndroid Build Coastguard Worker            return ptr;
*da0073e9SAndroid Build Coastguard Worker          }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker          C10_EXPORT void dummy_free(void* ptr, size_t size, int device, void* stream) {
*da0073e9SAndroid Build Coastguard Worker            called_dummy_free = 321;
*da0073e9SAndroid Build Coastguard Worker            C10_CUDA_CHECK(cudaFree(ptr));
*da0073e9SAndroid Build Coastguard Worker          }
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        dummy_allocator_libname = "dummy_allocator"
*da0073e9SAndroid Build Coastguard Worker        dummy_allocator = load_inline(
*da0073e9SAndroid Build Coastguard Worker            name=dummy_allocator_libname,
*da0073e9SAndroid Build Coastguard Worker            cpp_sources=dummy_allocator_source,
*da0073e9SAndroid Build Coastguard Worker            is_python_module=False,
*da0073e9SAndroid Build Coastguard Worker            keep_intermediates=False,
*da0073e9SAndroid Build Coastguard Worker            verbose=True,
*da0073e9SAndroid Build Coastguard Worker            with_cuda=True,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        allocator = torch.cuda.memory.CUDAPluggableAllocator(
*da0073e9SAndroid Build Coastguard Worker            dummy_allocator,
*da0073e9SAndroid Build Coastguard Worker            "dummy_alloc",
*da0073e9SAndroid Build Coastguard Worker            "dummy_free",
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        pool = torch.cuda.MemPool(allocator.allocator())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # pool should point to the same allocator as the one passed into it
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(allocator.allocator(), pool.allocator)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # no allocations happened yet, so called_dummy_alloc should be 0
*da0073e9SAndroid Build Coastguard Worker        alloc_lib = ctypes.CDLL(dummy_allocator)
*da0073e9SAndroid Build Coastguard Worker        called_dummy_alloc = ctypes.c_int.in_dll(alloc_lib, "called_dummy_alloc")
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(called_dummy_alloc.value, 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.use_mem_pool(pool):
*da0073e9SAndroid Build Coastguard Worker            out = torch.randn(1, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # called_dummy_alloc should be 123 if dummy_alloc was used to allocate
*da0073e9SAndroid Build Coastguard Worker        # out tensor
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(called_dummy_alloc.value, 123)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_mempool_context(self):
*da0073e9SAndroid Build Coastguard Worker        active_pool = torch.cuda.MemPoolContext.active_pool()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # there is no active pool if none was made active
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(active_pool, None)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        pool = torch.cuda.MemPool()
*da0073e9SAndroid Build Coastguard Worker        ctx = torch.cuda.MemPoolContext(pool)
*da0073e9SAndroid Build Coastguard Worker        active_pool = torch.cuda.MemPoolContext.active_pool()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # pool was made active
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(active_pool, pool)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        del ctx
*da0073e9SAndroid Build Coastguard Worker        active_pool = torch.cuda.MemPoolContext.active_pool()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # ctx was deleted, so active pool is the previous one
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(active_pool, None)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_mempool_multithread(self):
*da0073e9SAndroid Build Coastguard Worker        pool_ids = []
*da0073e9SAndroid Build Coastguard Worker        active_pool_ids = []
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def create_mempool_and_make_active():
*da0073e9SAndroid Build Coastguard Worker            pool = torch.cuda.MemPool()
*da0073e9SAndroid Build Coastguard Worker            pool_ids.extend([pool.id])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            ctx = torch.cuda.MemPoolContext(pool)
*da0073e9SAndroid Build Coastguard Worker            active_pool = torch.cuda.MemPoolContext.active_pool()
*da0073e9SAndroid Build Coastguard Worker            active_pool_ids.extend([active_pool.id])
*da0073e9SAndroid Build Coastguard Worker            del ctx
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        num_threads = 4
*da0073e9SAndroid Build Coastguard Worker        threads = [
*da0073e9SAndroid Build Coastguard Worker            threading.Thread(target=create_mempool_and_make_active)
*da0073e9SAndroid Build Coastguard Worker            for t in range(num_threads)
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker        for thread in threads:
*da0073e9SAndroid Build Coastguard Worker            thread.start()
*da0073e9SAndroid Build Coastguard Worker        for thread in threads:
*da0073e9SAndroid Build Coastguard Worker            thread.join()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # each thread should create a unique mempool, since
*da0073e9SAndroid Build Coastguard Worker        # mempool id creation is atomic
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(len(set(pool_ids)), 4)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # each thread should have different active mempool, since
*da0073e9SAndroid Build Coastguard Worker        # the pointer to the mempool is thread local
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(len(set(active_pool_ids)), 4)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker@unittest.skipIf(not TEST_CUDA, "CUDA not available, skipping tests")
*da0073e9SAndroid Build Coastguard Worker@torch.testing._internal.common_utils.markDynamoStrictTest
*da0073e9SAndroid Build Coastguard Workerclass TestCudaOptims(TestCase):
*da0073e9SAndroid Build Coastguard Worker    # These tests will be instantiate with instantiate_device_type_tests
*da0073e9SAndroid Build Coastguard Worker    # to apply the new OptimizerInfo structure.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >=5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @optims(
*da0073e9SAndroid Build Coastguard Worker        [optim for optim in optim_db if optim.has_capturable_arg],
*da0073e9SAndroid Build Coastguard Worker        dtypes=[torch.float32],
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_graph_optims(self, device, dtype, optim_info):
*da0073e9SAndroid Build Coastguard Worker        optim_cls = optim_info.optim_cls
*da0073e9SAndroid Build Coastguard Worker        all_optim_inputs = _get_optim_inputs_including_global_cliquey_kwargs(
*da0073e9SAndroid Build Coastguard Worker            device, dtype, optim_info, skip=("differentiable",)
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        steps_warmup = 3
*da0073e9SAndroid Build Coastguard Worker        steps_train = 2
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for optim_input in all_optim_inputs:
*da0073e9SAndroid Build Coastguard Worker            kwargs = optim_input.kwargs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # lr as a Tensor is not supported when capturable=False and foreach=True for torch.optim.adam
*da0073e9SAndroid Build Coastguard Worker            # and torch.optim.adamw
*da0073e9SAndroid Build Coastguard Worker            kwargs["lr"] = 0.1
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            for actually_do_graphs in (True, False):
*da0073e9SAndroid Build Coastguard Worker                params = [
*da0073e9SAndroid Build Coastguard Worker                    torch.randn((i + 5, i + 5), device=device) for i in range(2)
*da0073e9SAndroid Build Coastguard Worker                ] + [torch.randn((), device=device)]
*da0073e9SAndroid Build Coastguard Worker                params_control = [p.clone().requires_grad_() for p in params]
*da0073e9SAndroid Build Coastguard Worker                params_graphed = [p.clone().requires_grad_() for p in params]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                grads = [
*da0073e9SAndroid Build Coastguard Worker                    [torch.randn_like(p) for p in params]
*da0073e9SAndroid Build Coastguard Worker                    for _ in range(steps_warmup + steps_train)
*da0073e9SAndroid Build Coastguard Worker                ]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # Control (capturable=False)
*da0073e9SAndroid Build Coastguard Worker                kwargs["capturable"] = False
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                opt = optim_cls(params_control, **kwargs)
*da0073e9SAndroid Build Coastguard Worker                for i in range(steps_warmup + steps_train):
*da0073e9SAndroid Build Coastguard Worker                    for j, p in enumerate(params_control):
*da0073e9SAndroid Build Coastguard Worker                        p.grad = grads[i][j]
*da0073e9SAndroid Build Coastguard Worker                    opt.step()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # capturable=True
*da0073e9SAndroid Build Coastguard Worker                kwargs["capturable"] = True
*da0073e9SAndroid Build Coastguard Worker                opt = optim_cls(params_graphed, **kwargs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                for i in range(steps_warmup):
*da0073e9SAndroid Build Coastguard Worker                    for j, p in enumerate(params_graphed):
*da0073e9SAndroid Build Coastguard Worker                        p.grad = grads[i][j]
*da0073e9SAndroid Build Coastguard Worker                    opt.step()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                if actually_do_graphs:
*da0073e9SAndroid Build Coastguard Worker                    g = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker                    with torch.cuda.graph(g):
*da0073e9SAndroid Build Coastguard Worker                        opt.step()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                for i in range(steps_train):
*da0073e9SAndroid Build Coastguard Worker                    if actually_do_graphs:
*da0073e9SAndroid Build Coastguard Worker                        for j, p in enumerate(params_graphed):
*da0073e9SAndroid Build Coastguard Worker                            p.grad.copy_(grads[i + steps_warmup][j])
*da0073e9SAndroid Build Coastguard Worker                        g.replay()
*da0073e9SAndroid Build Coastguard Worker                    else:
*da0073e9SAndroid Build Coastguard Worker                        # Passing capturable=True to the constructor and running without graphs should still be
*da0073e9SAndroid Build Coastguard Worker                        # numerically correct, even if it's not ideal for performance.
*da0073e9SAndroid Build Coastguard Worker                        for j, p in enumerate(params_graphed):
*da0073e9SAndroid Build Coastguard Worker                            p.grad = grads[i + steps_warmup][j]
*da0073e9SAndroid Build Coastguard Worker                        opt.step()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                for p_control, p_graphed in zip(params_control, params_graphed):
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(p_control, p_graphed)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @optims(
*da0073e9SAndroid Build Coastguard Worker        [
*da0073e9SAndroid Build Coastguard Worker            optim
*da0073e9SAndroid Build Coastguard Worker            for optim in optim_db
*da0073e9SAndroid Build Coastguard Worker            if "fused" in optim.supported_impls and "cuda" in optim.supports_fused_on
*da0073e9SAndroid Build Coastguard Worker        ],
*da0073e9SAndroid Build Coastguard Worker        dtypes=[torch.float32],
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_graph_scaling_fused_optimizers(self, device, dtype, optim_info):
*da0073e9SAndroid Build Coastguard Worker        optim_cls = optim_info.optim_cls
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        steps_warmup = 3
*da0073e9SAndroid Build Coastguard Worker        steps_train = 2
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        optim_inputs = optim_info.optim_inputs_func(device=device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for optim_input in optim_inputs:
*da0073e9SAndroid Build Coastguard Worker            kwargs = optim_input.kwargs
*da0073e9SAndroid Build Coastguard Worker            kwargs["fused"] = True
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            for actually_do_graphs in (
*da0073e9SAndroid Build Coastguard Worker                (True, False) if optim_info.has_capturable_arg else (True,)
*da0073e9SAndroid Build Coastguard Worker            ):
*da0073e9SAndroid Build Coastguard Worker                params = [torch.randn((i + 5, i + 5), device=device) for i in range(2)]
*da0073e9SAndroid Build Coastguard Worker                params_control = [p.clone().requires_grad_() for p in params]
*da0073e9SAndroid Build Coastguard Worker                params_graphed = [p.clone().requires_grad_() for p in params]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # `GradScaler` in-place updates gradients thus it's necessary to duplicate gradients.
*da0073e9SAndroid Build Coastguard Worker                grads = [
*da0073e9SAndroid Build Coastguard Worker                    [torch.randn_like(p) for p in params]
*da0073e9SAndroid Build Coastguard Worker                    for _ in range(steps_warmup + steps_train)
*da0073e9SAndroid Build Coastguard Worker                ]
*da0073e9SAndroid Build Coastguard Worker                with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker                    grads_control = [[g.clone() for g in gs] for gs in grads]
*da0073e9SAndroid Build Coastguard Worker                    grads_graphed = [[g.clone() for g in gs] for gs in grads]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # Gradient Scaler
*da0073e9SAndroid Build Coastguard Worker                scaler_for_control = torch.cuda.amp.GradScaler(init_scale=128.0)
*da0073e9SAndroid Build Coastguard Worker                with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker                    scaler_for_control._lazy_init_scale_growth_tracker(device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                scaler_for_graphed = torch.cuda.amp.GradScaler()
*da0073e9SAndroid Build Coastguard Worker                scaler_for_graphed.load_state_dict(scaler_for_control.state_dict())
*da0073e9SAndroid Build Coastguard Worker                with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker                    scaler_for_graphed._lazy_init_scale_growth_tracker(device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # Control (capturable=False)
*da0073e9SAndroid Build Coastguard Worker                if optim_info.has_capturable_arg:
*da0073e9SAndroid Build Coastguard Worker                    kwargs["capturable"] = False
*da0073e9SAndroid Build Coastguard Worker                opt = optim_cls(params_control, **kwargs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                for i in range(steps_warmup + steps_train):
*da0073e9SAndroid Build Coastguard Worker                    for j, p in enumerate(params_control):
*da0073e9SAndroid Build Coastguard Worker                        p.grad = grads_control[i][j]
*da0073e9SAndroid Build Coastguard Worker                    scaler_for_control.step(opt)
*da0073e9SAndroid Build Coastguard Worker                    scaler_for_control.update()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # capturable=True
*da0073e9SAndroid Build Coastguard Worker                if optim_info.has_capturable_arg:
*da0073e9SAndroid Build Coastguard Worker                    kwargs["capturable"] = True
*da0073e9SAndroid Build Coastguard Worker                opt = optim_cls(params_graphed, **kwargs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                for i in range(steps_warmup):
*da0073e9SAndroid Build Coastguard Worker                    for j, p in enumerate(params_graphed):
*da0073e9SAndroid Build Coastguard Worker                        p.grad = grads_graphed[i][j]
*da0073e9SAndroid Build Coastguard Worker                    scaler_for_graphed.step(opt)
*da0073e9SAndroid Build Coastguard Worker                    scaler_for_graphed.update()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                if actually_do_graphs:
*da0073e9SAndroid Build Coastguard Worker                    g = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker                    with torch.cuda.graph(g):
*da0073e9SAndroid Build Coastguard Worker                        scaler_for_graphed.step(opt)
*da0073e9SAndroid Build Coastguard Worker                        scaler_for_graphed.update()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                for i in range(steps_train):
*da0073e9SAndroid Build Coastguard Worker                    if actually_do_graphs:
*da0073e9SAndroid Build Coastguard Worker                        for j, p in enumerate(params_graphed):
*da0073e9SAndroid Build Coastguard Worker                            p.grad.copy_(grads_graphed[i + steps_warmup][j])
*da0073e9SAndroid Build Coastguard Worker                        g.replay()
*da0073e9SAndroid Build Coastguard Worker                    else:
*da0073e9SAndroid Build Coastguard Worker                        # Passing capturable=True to the constructor and running without graphs should still be
*da0073e9SAndroid Build Coastguard Worker                        # numerically correct, even if it's not ideal for performance.
*da0073e9SAndroid Build Coastguard Worker                        for j, p in enumerate(params_graphed):
*da0073e9SAndroid Build Coastguard Worker                            p.grad = grads_graphed[i + steps_warmup][j]
*da0073e9SAndroid Build Coastguard Worker                        scaler_for_graphed.step(opt)
*da0073e9SAndroid Build Coastguard Worker                        scaler_for_graphed.update()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                for p_control, p_graphed in zip(params_control, params_graphed):
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(p_control, p_graphed)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyNativeDeviceTypes
*da0073e9SAndroid Build Coastguard Worker    @optims(
*da0073e9SAndroid Build Coastguard Worker        [optim for optim in optim_db if "fused" in optim.supported_impls],
*da0073e9SAndroid Build Coastguard Worker        dtypes=[torch.float32],
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_grad_scaling_autocast_fused_optimizers(self, device, dtype, optim_info):
*da0073e9SAndroid Build Coastguard Worker        device = device.split(":")[0]
*da0073e9SAndroid Build Coastguard Worker        if device not in optim_info.supports_fused_on:
*da0073e9SAndroid Build Coastguard Worker            self.skipTest(
*da0073e9SAndroid Build Coastguard Worker                f"{device} is not supported for fused on {optim_info.optim_cls.__name__}"
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker        optim_inputs = optim_info.optim_inputs_func(device=device)
*da0073e9SAndroid Build Coastguard Worker        optim_cls = optim_info.optim_cls
*da0073e9SAndroid Build Coastguard Worker        for optim_input in optim_inputs:
*da0073e9SAndroid Build Coastguard Worker            for _separate_unscale in (True, False):
*da0073e9SAndroid Build Coastguard Worker                kwargs = optim_input.kwargs
*da0073e9SAndroid Build Coastguard Worker                kwargs["fused"] = True
*da0073e9SAndroid Build Coastguard Worker                torch.manual_seed(20)
*da0073e9SAndroid Build Coastguard Worker                (
*da0073e9SAndroid Build Coastguard Worker                    mod_control,
*da0073e9SAndroid Build Coastguard Worker                    mod_scaling,
*da0073e9SAndroid Build Coastguard Worker                    opt_control,
*da0073e9SAndroid Build Coastguard Worker                    opt_scaling,
*da0073e9SAndroid Build Coastguard Worker                    data,
*da0073e9SAndroid Build Coastguard Worker                    loss_fn,
*da0073e9SAndroid Build Coastguard Worker                    _,
*da0073e9SAndroid Build Coastguard Worker                ) = _create_scaling_case(
*da0073e9SAndroid Build Coastguard Worker                    optimizer_ctor=optim_cls, optimizer_kwargs=kwargs, device=device
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                optimizer_kwargs = deepcopy(kwargs)
*da0073e9SAndroid Build Coastguard Worker                optimizer_kwargs["fused"] = False
*da0073e9SAndroid Build Coastguard Worker                if "lr" not in kwargs:
*da0073e9SAndroid Build Coastguard Worker                    # _create_scaling_case will set lr = 1.0 if optimizer_kwargs do not set lr
*da0073e9SAndroid Build Coastguard Worker                    optimizer_kwargs["lr"] = 1.0
*da0073e9SAndroid Build Coastguard Worker                opt_control = optim_cls(mod_control.parameters(), **optimizer_kwargs)
*da0073e9SAndroid Build Coastguard Worker                scaler_scaling = torch.amp.GradScaler(device, init_scale=128.0)
*da0073e9SAndroid Build Coastguard Worker                scaler_control = torch.amp.GradScaler(device, init_scale=128.0)
*da0073e9SAndroid Build Coastguard Worker                tracker = TensorTracker()
*da0073e9SAndroid Build Coastguard Worker                for input, target in data:
*da0073e9SAndroid Build Coastguard Worker                    opt_control.zero_grad()
*da0073e9SAndroid Build Coastguard Worker                    with torch.autocast(device_type=device, dtype=torch.half):
*da0073e9SAndroid Build Coastguard Worker                        output_control = mod_control(input)
*da0073e9SAndroid Build Coastguard Worker                        loss_control = loss_fn(output_control, target)
*da0073e9SAndroid Build Coastguard Worker                    scaler_control.scale(loss_control).backward()
*da0073e9SAndroid Build Coastguard Worker                    scaler_control.step(opt_control)
*da0073e9SAndroid Build Coastguard Worker                    scaler_control.update()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                    opt_scaling.zero_grad()
*da0073e9SAndroid Build Coastguard Worker                    with torch.autocast(device_type=device, dtype=torch.half):
*da0073e9SAndroid Build Coastguard Worker                        output_scaling = mod_scaling(input)
*da0073e9SAndroid Build Coastguard Worker                        loss_scaling = loss_fn(output_scaling, target)
*da0073e9SAndroid Build Coastguard Worker                    scaler_scaling.scale(loss_scaling).backward()
*da0073e9SAndroid Build Coastguard Worker                    if _separate_unscale:
*da0073e9SAndroid Build Coastguard Worker                        scaler_scaling.unscale_(opt_scaling)
*da0073e9SAndroid Build Coastguard Worker                    scaler_scaling.step(opt_scaling)
*da0073e9SAndroid Build Coastguard Worker                    scaler_scaling.update()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                    tracker.add(loss_control)
*da0073e9SAndroid Build Coastguard Worker                    tracker.pop_check_set(loss_scaling, self)
*da0073e9SAndroid Build Coastguard Worker                    for param_control, param_scaling in zip(
*da0073e9SAndroid Build Coastguard Worker                        mod_control.parameters(), mod_scaling.parameters()
*da0073e9SAndroid Build Coastguard Worker                    ):
*da0073e9SAndroid Build Coastguard Worker                        tracker.add(param_control.grad)
*da0073e9SAndroid Build Coastguard Worker                        tracker.pop_check_set(param_scaling.grad, self)
*da0073e9SAndroid Build Coastguard Worker                        tracker.add(param_control)
*da0073e9SAndroid Build Coastguard Worker                        tracker.pop_check_set(param_scaling, self)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                        state_control, state_scaling = (
*da0073e9SAndroid Build Coastguard Worker                            opt_control.state[param_control],
*da0073e9SAndroid Build Coastguard Worker                            opt_scaling.state[param_scaling],
*da0073e9SAndroid Build Coastguard Worker                        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                        for k in state_control:
*da0073e9SAndroid Build Coastguard Worker                            actual = state_scaling[k]
*da0073e9SAndroid Build Coastguard Worker                            if k == "step":
*da0073e9SAndroid Build Coastguard Worker                                actual = actual.squeeze()
*da0073e9SAndroid Build Coastguard Worker                            tracker.add(state_control[k])
*da0073e9SAndroid Build Coastguard Worker                            tracker.pop_check_set(actual, self)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @parametrize("in_place_unscale", [False, True])
*da0073e9SAndroid Build Coastguard Worker    @optims(
*da0073e9SAndroid Build Coastguard Worker        [optim for optim in optim_db if "cuda" in optim.supports_fused_on],
*da0073e9SAndroid Build Coastguard Worker        dtypes=[torch.float32],
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_grad_scaler_with_preset_grad_scale(
*da0073e9SAndroid Build Coastguard Worker        self, device, dtype, optim_info, in_place_unscale
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        weight = torch.ones((5, 5), device="cuda", requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        weight.grad = torch.full_like(weight, fill_value=15)
*da0073e9SAndroid Build Coastguard Worker        opt = optim_info.optim_cls([weight], lr=0.1, fused=True)
*da0073e9SAndroid Build Coastguard Worker        scaler = torch.amp.GradScaler(init_scale=5)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # simulate scaling a loss
*da0073e9SAndroid Build Coastguard Worker        scaler.scale(torch.ones(5))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if in_place_unscale:
*da0073e9SAndroid Build Coastguard Worker            scaler.unscale_(opt)
*da0073e9SAndroid Build Coastguard Worker            # the gradient should have been divided in-place
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(weight.grad, torch.full_like(weight, fill_value=3))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # the user sets a `grad_scale` value which should be fused with the optimizer step
*da0073e9SAndroid Build Coastguard Worker        opt.grad_scale = torch.Tensor([3]).cuda()
*da0073e9SAndroid Build Coastguard Worker        scaler.step(opt)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # check that the user's grad_scale was respected (i.e. the gradient was divided by 5 * 3)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(weight.grad, torch.full_like(weight, fill_value=1))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not TEST_CUDA_GRAPH, "CUDA >= 11.0 or ROCM >= 5.3 required for graphs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @parametrize("foreach, fused", [(False, False), (True, False), (False, True)])
*da0073e9SAndroid Build Coastguard Worker    @optims(
*da0073e9SAndroid Build Coastguard Worker        [
*da0073e9SAndroid Build Coastguard Worker            optim
*da0073e9SAndroid Build Coastguard Worker            for optim in optim_db
*da0073e9SAndroid Build Coastguard Worker            if "foreach" in optim.supported_impls and "cuda" in optim.supports_fused_on
*da0073e9SAndroid Build Coastguard Worker        ],
*da0073e9SAndroid Build Coastguard Worker        dtypes=[torch.float32],
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_graph_grad_scaling(self, device, dtype, optim_info, foreach, fused):
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        scaler = torch.amp.GradScaler(device="cuda", init_scale=4.0)
*da0073e9SAndroid Build Coastguard Worker        g = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker        s = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        weight = torch.ones((100,), device="cuda", requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        opt = optim_info.optim_cls([weight], lr=0.1, foreach=foreach, fused=fused)
*da0073e9SAndroid Build Coastguard Worker        static_input = torch.ones_like(weight)
*da0073e9SAndroid Build Coastguard Worker        static_grad = torch.ones_like(weight)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # warmup
*da0073e9SAndroid Build Coastguard Worker        s = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker        s.wait_stream(torch.cuda.current_stream())
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(s):
*da0073e9SAndroid Build Coastguard Worker            loss = (weight.half() * static_input).sum()
*da0073e9SAndroid Build Coastguard Worker            scaler.scale(loss).backward()
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.current_stream().wait_stream(s)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        opt.zero_grad(set_to_none=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # capture
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(s):
*da0073e9SAndroid Build Coastguard Worker            g.capture_begin()
*da0073e9SAndroid Build Coastguard Worker            loss = (weight.half() * static_input).sum()
*da0073e9SAndroid Build Coastguard Worker            scaler.scale(loss).backward()
*da0073e9SAndroid Build Coastguard Worker            g.capture_end()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        input_vals = [5, 20000, 5, 40000]
*da0073e9SAndroid Build Coastguard Worker        # If the scale gets updated properly, these are the scale, growth tracker,
*da0073e9SAndroid Build Coastguard Worker        # and grad values we expect.
*da0073e9SAndroid Build Coastguard Worker        expected_scales = [4, 2, 2, 1]
*da0073e9SAndroid Build Coastguard Worker        expected_growth_trackers = [1, 0, 1, 0]
*da0073e9SAndroid Build Coastguard Worker        expected_grad_vals = [5 * 4, float("inf"), 5 * 2, float("inf")]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for data, scale, growth_tracker, grad_val in zip(
*da0073e9SAndroid Build Coastguard Worker            input_vals, expected_scales, expected_growth_trackers, expected_grad_vals
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            static_input.fill_(data)
*da0073e9SAndroid Build Coastguard Worker            g.replay()
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(weight.grad, torch.full_like(weight.grad, grad_val))
*da0073e9SAndroid Build Coastguard Worker            scaler.step(opt)
*da0073e9SAndroid Build Coastguard Worker            scaler.update()
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(scaler._scale, scale)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(scaler._growth_tracker, growth_tracker)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker@unittest.skipIf(not TEST_CUDA, "CUDA not available, skipping tests")
*da0073e9SAndroid Build Coastguard Workerclass TestGDS(TestCase):
*da0073e9SAndroid Build Coastguard Worker    def _get_tmp_dir_fs_type(self):
*da0073e9SAndroid Build Coastguard Worker        my_path = os.path.realpath("/tmp")
*da0073e9SAndroid Build Coastguard Worker        root_type = ""
*da0073e9SAndroid Build Coastguard Worker        for part in psutil.disk_partitions():
*da0073e9SAndroid Build Coastguard Worker            if part.mountpoint == "/":
*da0073e9SAndroid Build Coastguard Worker                root_type = part.fstype
*da0073e9SAndroid Build Coastguard Worker                continue
*da0073e9SAndroid Build Coastguard Worker            if part.mountpoint == my_path:
*da0073e9SAndroid Build Coastguard Worker                return part.fstype
*da0073e9SAndroid Build Coastguard Worker        return root_type
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skip("Disabling as USE_CUFILE=0 by default in builds")
*da0073e9SAndroid Build Coastguard Worker    def test_gds_read_write_tensors(self):
*da0073e9SAndroid Build Coastguard Worker        if self._get_tmp_dir_fs_type() not in ("ext4", "xfs"):
*da0073e9SAndroid Build Coastguard Worker            self.skipTest("GPUDirect Storage requires ext4/xfs for local filesystem")
*da0073e9SAndroid Build Coastguard Worker        src1 = torch.randn(1024, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        src2 = torch.randn(2, 1024, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.gds._gds_register_buffer(src1.untyped_storage())
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.gds._gds_register_buffer(src2.untyped_storage())
*da0073e9SAndroid Build Coastguard Worker        dest1 = torch.empty(1024, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        dest2 = torch.empty(2, 1024, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        with TemporaryFileName() as f:
*da0073e9SAndroid Build Coastguard Worker            file = torch.cuda.gds._GdsFile(f, os.O_CREAT | os.O_RDWR)
*da0073e9SAndroid Build Coastguard Worker            file.save_storage(src1.untyped_storage(), offset=0)
*da0073e9SAndroid Build Coastguard Worker            file.save_storage(src2.untyped_storage(), offset=src1.nbytes)
*da0073e9SAndroid Build Coastguard Worker            file.load_storage(dest1.untyped_storage(), offset=0)
*da0073e9SAndroid Build Coastguard Worker            file.load_storage(dest2.untyped_storage(), offset=src1.nbytes)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(src1, dest1)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(src2, dest2)
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.gds._gds_deregister_buffer(src1.untyped_storage())
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.gds._gds_deregister_buffer(src2.untyped_storage())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker@unittest.skipIf(not TEST_CUDA, "CUDA not available, skipping tests")
*da0073e9SAndroid Build Coastguard Workerclass TestCudaAutocast(TestAutocast):
*da0073e9SAndroid Build Coastguard Worker    def setUp(self):
*da0073e9SAndroid Build Coastguard Worker        super().setUp()
*da0073e9SAndroid Build Coastguard Worker        self.autocast_lists = AutocastTestLists(torch.device("cuda:0"))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def tearDown(self):
*da0073e9SAndroid Build Coastguard Worker        del self.autocast_lists
*da0073e9SAndroid Build Coastguard Worker        super().tearDown()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_CUDNN, "CUDNN not available")
*da0073e9SAndroid Build Coastguard Worker    def test_autocast_torch_fp16(self):
*da0073e9SAndroid Build Coastguard Worker        with torch.backends.cudnn.flags(enabled=True, deterministic=True):
*da0073e9SAndroid Build Coastguard Worker            for op_with_args in self.autocast_lists.torch_fp16:
*da0073e9SAndroid Build Coastguard Worker                skip_test = False
*da0073e9SAndroid Build Coastguard Worker                op, args = op_with_args[0], op_with_args[1]
*da0073e9SAndroid Build Coastguard Worker                if len(op_with_args) == 3:
*da0073e9SAndroid Build Coastguard Worker                    skip_test = op_with_args[2]  # TEST_WITH_ROCM
*da0073e9SAndroid Build Coastguard Worker                if not skip_test:
*da0073e9SAndroid Build Coastguard Worker                    self._run_autocast_outofplace(
*da0073e9SAndroid Build Coastguard Worker                        op, args, torch.float16, device="cuda", amp_dtype=torch.float16
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_CUDNN, "CUDNN not available")
*da0073e9SAndroid Build Coastguard Worker    def test_autocast_torch_bf16(self):
*da0073e9SAndroid Build Coastguard Worker        with torch.backends.cudnn.flags(enabled=True, deterministic=True):
*da0073e9SAndroid Build Coastguard Worker            for op_with_args in self.autocast_lists.torch_fp16:
*da0073e9SAndroid Build Coastguard Worker                skip_test = False
*da0073e9SAndroid Build Coastguard Worker                op, args = op_with_args[0], op_with_args[1]
*da0073e9SAndroid Build Coastguard Worker                if len(op_with_args) == 3:
*da0073e9SAndroid Build Coastguard Worker                    skip_test = op_with_args[2]  # TEST_WITH_ROCM
*da0073e9SAndroid Build Coastguard Worker                should_error_from_cudnn = "cudnn" in op and (
*da0073e9SAndroid Build Coastguard Worker                    "TORCH_CUDNN_V8_API_DISABLED" in os.environ
*da0073e9SAndroid Build Coastguard Worker                    and int(os.environ["TORCH_CUDNN_V8_API_DISABLED"])
*da0073e9SAndroid Build Coastguard Worker                    or torch.cuda.get_device_capability() < (8, 0)
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                should_error_from_not_implemented = should_error_from_cudnn
*da0073e9SAndroid Build Coastguard Worker                if not skip_test:
*da0073e9SAndroid Build Coastguard Worker                    if should_error_from_not_implemented:
*da0073e9SAndroid Build Coastguard Worker                        with self.assertRaises(
*da0073e9SAndroid Build Coastguard Worker                            RuntimeError,
*da0073e9SAndroid Build Coastguard Worker                            msg=str(op) + " should not be supported for bfloat16!",
*da0073e9SAndroid Build Coastguard Worker                        ):
*da0073e9SAndroid Build Coastguard Worker                            self._run_autocast_outofplace(
*da0073e9SAndroid Build Coastguard Worker                                op, args, torch.bfloat16, device="cuda"
*da0073e9SAndroid Build Coastguard Worker                            )
*da0073e9SAndroid Build Coastguard Worker                    else:
*da0073e9SAndroid Build Coastguard Worker                        if torch.cuda.is_bf16_supported():
*da0073e9SAndroid Build Coastguard Worker                            self._run_autocast_outofplace(
*da0073e9SAndroid Build Coastguard Worker                                op, args, torch.bfloat16, device="cuda"
*da0073e9SAndroid Build Coastguard Worker                            )
*da0073e9SAndroid Build Coastguard Worker                        else:
*da0073e9SAndroid Build Coastguard Worker                            with self.assertRaisesRegex(
*da0073e9SAndroid Build Coastguard Worker                                RuntimeError, "Device does not support bfloat16"
*da0073e9SAndroid Build Coastguard Worker                            ):
*da0073e9SAndroid Build Coastguard Worker                                self._run_autocast_outofplace(
*da0073e9SAndroid Build Coastguard Worker                                    op, args, torch.bfloat16, device="cuda"
*da0073e9SAndroid Build Coastguard Worker                                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_CUDNN, "CUDNN not available")
*da0073e9SAndroid Build Coastguard Worker    def test_autocast_torch_fp32(self):
*da0073e9SAndroid Build Coastguard Worker        for op_with_args in self.autocast_lists.torch_fp32:
*da0073e9SAndroid Build Coastguard Worker            op, args, maybe_kwargs = self.args_maybe_kwargs(op_with_args)
*da0073e9SAndroid Build Coastguard Worker            self._run_autocast_outofplace(
*da0073e9SAndroid Build Coastguard Worker                op,
*da0073e9SAndroid Build Coastguard Worker                args,
*da0073e9SAndroid Build Coastguard Worker                torch.float32,
*da0073e9SAndroid Build Coastguard Worker                device="cuda",
*da0073e9SAndroid Build Coastguard Worker                add_kwargs=maybe_kwargs,
*da0073e9SAndroid Build Coastguard Worker                amp_dtype=torch.float16,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_CUDNN, "CUDNN not available")
*da0073e9SAndroid Build Coastguard Worker    def test_autocast_torch_need_autocast_promote(self):
*da0073e9SAndroid Build Coastguard Worker        for op, args in self.autocast_lists.torch_need_autocast_promote:
*da0073e9SAndroid Build Coastguard Worker            self._run_autocast_outofplace(
*da0073e9SAndroid Build Coastguard Worker                op, args, torch.float32, device="cuda", amp_dtype=torch.float16
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_CUDNN, "CUDNN not available")
*da0073e9SAndroid Build Coastguard Worker    def test_autocast_torch_expect_builtin_promote(self):
*da0073e9SAndroid Build Coastguard Worker        for op, args, out_type in self.autocast_lists.torch_expect_builtin_promote:
*da0073e9SAndroid Build Coastguard Worker            self._run_autocast_outofplace(
*da0073e9SAndroid Build Coastguard Worker                op,
*da0073e9SAndroid Build Coastguard Worker                args,
*da0073e9SAndroid Build Coastguard Worker                torch.float32,
*da0073e9SAndroid Build Coastguard Worker                device="cuda",
*da0073e9SAndroid Build Coastguard Worker                out_type=out_type,
*da0073e9SAndroid Build Coastguard Worker                amp_dtype=torch.float16,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_CUDNN, "CUDNN not available")
*da0073e9SAndroid Build Coastguard Worker    def test_autocast_nn_fp16(self):
*da0073e9SAndroid Build Coastguard Worker        with torch.backends.cudnn.flags(enabled=True, deterministic=True):
*da0073e9SAndroid Build Coastguard Worker            for op, args in self.autocast_lists.nn_fp16:
*da0073e9SAndroid Build Coastguard Worker                self._run_autocast_outofplace(
*da0073e9SAndroid Build Coastguard Worker                    op,
*da0073e9SAndroid Build Coastguard Worker                    args,
*da0073e9SAndroid Build Coastguard Worker                    torch.float16,
*da0073e9SAndroid Build Coastguard Worker                    device="cuda",
*da0073e9SAndroid Build Coastguard Worker                    module=torch._C._nn,
*da0073e9SAndroid Build Coastguard Worker                    amp_dtype=torch.float16,
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_CUDNN, "CUDNN not available")
*da0073e9SAndroid Build Coastguard Worker    def test_autocast_nn_bf16(self):
*da0073e9SAndroid Build Coastguard Worker        with torch.backends.cudnn.flags(enabled=True, deterministic=True):
*da0073e9SAndroid Build Coastguard Worker            for op, args in self.autocast_lists.nn_fp16:
*da0073e9SAndroid Build Coastguard Worker                if torch.cuda.is_bf16_supported():
*da0073e9SAndroid Build Coastguard Worker                    self._run_autocast_outofplace(
*da0073e9SAndroid Build Coastguard Worker                        op, args, torch.bfloat16, device="cuda", module=torch._C._nn
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker                else:
*da0073e9SAndroid Build Coastguard Worker                    with self.assertRaisesRegex(
*da0073e9SAndroid Build Coastguard Worker                        RuntimeError, "Device does not support bfloat16"
*da0073e9SAndroid Build Coastguard Worker                    ):
*da0073e9SAndroid Build Coastguard Worker                        self._run_autocast_outofplace(
*da0073e9SAndroid Build Coastguard Worker                            op, args, torch.bfloat16, device="cuda", module=torch._C._nn
*da0073e9SAndroid Build Coastguard Worker                        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_CUDNN, "CUDNN not available")
*da0073e9SAndroid Build Coastguard Worker    def test_autocast_nn_fp32(self):
*da0073e9SAndroid Build Coastguard Worker        for op, args in self.autocast_lists.nn_fp32:
*da0073e9SAndroid Build Coastguard Worker            self._run_autocast_outofplace(
*da0073e9SAndroid Build Coastguard Worker                op,
*da0073e9SAndroid Build Coastguard Worker                args,
*da0073e9SAndroid Build Coastguard Worker                torch.float32,
*da0073e9SAndroid Build Coastguard Worker                device="cuda",
*da0073e9SAndroid Build Coastguard Worker                module=torch._C._nn,
*da0073e9SAndroid Build Coastguard Worker                amp_dtype=torch.float16,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_CUDNN, "CUDNN not available")
*da0073e9SAndroid Build Coastguard Worker    def test_autocast_linalg_fp16(self):
*da0073e9SAndroid Build Coastguard Worker        with torch.backends.cudnn.flags(enabled=True, deterministic=True):
*da0073e9SAndroid Build Coastguard Worker            for op, args in self.autocast_lists.linalg_fp16:
*da0073e9SAndroid Build Coastguard Worker                self._run_autocast_outofplace(
*da0073e9SAndroid Build Coastguard Worker                    op,
*da0073e9SAndroid Build Coastguard Worker                    args,
*da0073e9SAndroid Build Coastguard Worker                    torch.float16,
*da0073e9SAndroid Build Coastguard Worker                    device="cuda",
*da0073e9SAndroid Build Coastguard Worker                    module=torch._C._linalg,
*da0073e9SAndroid Build Coastguard Worker                    amp_dtype=torch.float16,
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_CUDNN, "CUDNN not available")
*da0073e9SAndroid Build Coastguard Worker    def test_autocast_methods_fp16(self):
*da0073e9SAndroid Build Coastguard Worker        with torch.backends.cudnn.flags(enabled=True, deterministic=True):
*da0073e9SAndroid Build Coastguard Worker            for op, args in self.autocast_lists.methods_fp16:
*da0073e9SAndroid Build Coastguard Worker                self._run_autocast_outofplace(
*da0073e9SAndroid Build Coastguard Worker                    op,
*da0073e9SAndroid Build Coastguard Worker                    args,
*da0073e9SAndroid Build Coastguard Worker                    torch.float16,
*da0073e9SAndroid Build Coastguard Worker                    device="cuda",
*da0073e9SAndroid Build Coastguard Worker                    module=None,
*da0073e9SAndroid Build Coastguard Worker                    amp_dtype=torch.float16,
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_CUDNN, "CUDNN not available")
*da0073e9SAndroid Build Coastguard Worker    def test_autocast_methods_fp32(self):
*da0073e9SAndroid Build Coastguard Worker        for op, args in self.autocast_lists.methods_fp32:
*da0073e9SAndroid Build Coastguard Worker            self._run_autocast_outofplace(
*da0073e9SAndroid Build Coastguard Worker                op,
*da0073e9SAndroid Build Coastguard Worker                args,
*da0073e9SAndroid Build Coastguard Worker                torch.float32,
*da0073e9SAndroid Build Coastguard Worker                device="cuda",
*da0073e9SAndroid Build Coastguard Worker                module=None,
*da0073e9SAndroid Build Coastguard Worker                amp_dtype=torch.float16,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_CUDNN, "CUDNN not available")
*da0073e9SAndroid Build Coastguard Worker    def test_autocast_methods_expect_builtin_promote(self):
*da0073e9SAndroid Build Coastguard Worker        for op, args, out_type in self.autocast_lists.methods_expect_builtin_promote:
*da0073e9SAndroid Build Coastguard Worker            self._run_autocast_outofplace(
*da0073e9SAndroid Build Coastguard Worker                op,
*da0073e9SAndroid Build Coastguard Worker                args,
*da0073e9SAndroid Build Coastguard Worker                torch.float32,
*da0073e9SAndroid Build Coastguard Worker                device="cuda",
*da0073e9SAndroid Build Coastguard Worker                module=None,
*da0073e9SAndroid Build Coastguard Worker                out_type=out_type,
*da0073e9SAndroid Build Coastguard Worker                amp_dtype=torch.float16,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_autocast_banned(self):
*da0073e9SAndroid Build Coastguard Worker        with torch.autocast("cuda"):
*da0073e9SAndroid Build Coastguard Worker            for op, args, module in self.autocast_lists.banned:
*da0073e9SAndroid Build Coastguard Worker                with self.assertRaises(RuntimeError):
*da0073e9SAndroid Build Coastguard Worker                    getattr(module, op)(*args)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_autocast_ignored_types(self):
*da0073e9SAndroid Build Coastguard Worker        with torch.autocast("cuda"):
*da0073e9SAndroid Build Coastguard Worker            for ignore_type in (torch.double, torch.int32):
*da0073e9SAndroid Build Coastguard Worker                a_ignore = torch.ones((8, 8), dtype=ignore_type, device="cuda:0")
*da0073e9SAndroid Build Coastguard Worker                b_ignore = torch.ones((8, 8), dtype=ignore_type, device="cuda:0")
*da0073e9SAndroid Build Coastguard Worker                c_16 = torch.ones((8, 8), dtype=torch.float16, device="cuda:0")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # Tests if CastPolicy::fp16 ops ignore double and int
*da0073e9SAndroid Build Coastguard Worker                # Currently, no ops belonging to this policy support integer inputs.
*da0073e9SAndroid Build Coastguard Worker                if ignore_type is torch.double:
*da0073e9SAndroid Build Coastguard Worker                    with self.assertRaises(RuntimeError):
*da0073e9SAndroid Build Coastguard Worker                        torch.mm(a_ignore, c_16)
*da0073e9SAndroid Build Coastguard Worker                    with torch.autocast("cuda", enabled=False):
*da0073e9SAndroid Build Coastguard Worker                        type_no_autocast = torch.mm(a_ignore, b_ignore).dtype
*da0073e9SAndroid Build Coastguard Worker                    self.assertTrue(
*da0073e9SAndroid Build Coastguard Worker                        torch.mm(a_ignore, b_ignore).dtype is type_no_autocast
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # Tests if CastPolicy::fp32 ops ignore double and int
*da0073e9SAndroid Build Coastguard Worker                with torch.autocast("cuda", enabled=False):
*da0073e9SAndroid Build Coastguard Worker                    type_no_autocast = torch.pow(a_ignore, 2.0).dtype
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(torch.pow(a_ignore, 2.0).dtype is type_no_autocast)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # Tests if CastPolicy::fp32_set_opt_dtype ops ignore double and int
*da0073e9SAndroid Build Coastguard Worker                with torch.autocast("cuda", enabled=False):
*da0073e9SAndroid Build Coastguard Worker                    type_no_autocast = torch.sum(a_ignore).dtype
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(torch.sum(a_ignore).dtype is type_no_autocast)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # Tests if CastPolicy::fp32_append_dtype ops ignore double and int
*da0073e9SAndroid Build Coastguard Worker                # Currently, no ops belonging to this policy support integer inputs.
*da0073e9SAndroid Build Coastguard Worker                if ignore_type is torch.double:
*da0073e9SAndroid Build Coastguard Worker                    with torch.autocast("cuda", enabled=False):
*da0073e9SAndroid Build Coastguard Worker                        type_no_autocast = torch.norm(a_ignore).dtype
*da0073e9SAndroid Build Coastguard Worker                    self.assertTrue(torch.norm(a_ignore).dtype is type_no_autocast)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_autocast_custom_enabled(self):
*da0073e9SAndroid Build Coastguard Worker        class MyMM(torch.autograd.Function):
*da0073e9SAndroid Build Coastguard Worker            @staticmethod
*da0073e9SAndroid Build Coastguard Worker            @torch.amp.custom_fwd(device_type="cuda")
*da0073e9SAndroid Build Coastguard Worker            def forward(ctx, a, b):
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(a.dtype is torch.float32)
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(b.dtype is torch.float32)
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(torch.is_autocast_enabled())
*da0073e9SAndroid Build Coastguard Worker                ctx.save_for_backward(a, b)
*da0073e9SAndroid Build Coastguard Worker                return a.mm(b)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            @staticmethod
*da0073e9SAndroid Build Coastguard Worker            @torch.amp.custom_bwd(device_type="cuda")
*da0073e9SAndroid Build Coastguard Worker            def backward(ctx, grad):
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(torch.is_autocast_enabled())
*da0073e9SAndroid Build Coastguard Worker                a, b = ctx.saved_tensors
*da0073e9SAndroid Build Coastguard Worker                a_grad, b_grad = grad.mm(b.t()), a.t().mm(grad)
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(a_grad.dtype is dtype and b_grad.dtype is dtype)
*da0073e9SAndroid Build Coastguard Worker                return a_grad, b_grad
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        mymm = MyMM.apply
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn((8, 8), device="cuda", dtype=torch.float32, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        y = torch.randn((8, 8), device="cuda", dtype=torch.float32, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        dtypes = (torch.float16, torch.bfloat16) if TEST_BF16 else (torch.float16,)
*da0073e9SAndroid Build Coastguard Worker        for dtype in dtypes:
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.amp.autocast(dtype=dtype):
*da0073e9SAndroid Build Coastguard Worker                output = mymm(x, y)
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(output.dtype is dtype)
*da0073e9SAndroid Build Coastguard Worker                loss = output.sum()
*da0073e9SAndroid Build Coastguard Worker            loss.backward()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_autocast_custom_cast_inputs(self):
*da0073e9SAndroid Build Coastguard Worker        class MyMM(torch.autograd.Function):
*da0073e9SAndroid Build Coastguard Worker            @staticmethod
*da0073e9SAndroid Build Coastguard Worker            @torch.amp.custom_fwd(device_type="cuda", cast_inputs=torch.float32)
*da0073e9SAndroid Build Coastguard Worker            def forward(ctx, a, container, expect_type):
*da0073e9SAndroid Build Coastguard Worker                b = container[1][0]
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(a.dtype is expect_type)
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(b.dtype is expect_type)
*da0073e9SAndroid Build Coastguard Worker                self.assertFalse(torch.is_autocast_enabled())
*da0073e9SAndroid Build Coastguard Worker                ctx.save_for_backward(a, b)
*da0073e9SAndroid Build Coastguard Worker                return a.mm(b)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            @staticmethod
*da0073e9SAndroid Build Coastguard Worker            @torch.amp.custom_bwd(device_type="cuda")
*da0073e9SAndroid Build Coastguard Worker            def backward(ctx, grad):
*da0073e9SAndroid Build Coastguard Worker                self.assertFalse(torch.is_autocast_enabled())
*da0073e9SAndroid Build Coastguard Worker                a, b = ctx.saved_tensors
*da0073e9SAndroid Build Coastguard Worker                return grad.mm(b.t()), None, None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        mymm = MyMM.apply
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn((8, 8), device="cuda", dtype=torch.float16, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        # Puts one input tensor in a nested container.  y's contained Tensor won't receive a gradient,
*da0073e9SAndroid Build Coastguard Worker        # because torch.autograd.Function can't hand gradients back to non-Tensor forward arguments.
*da0073e9SAndroid Build Coastguard Worker        # Sets requires_grad=False explicitly so we don't lie about expecting a gradient.
*da0073e9SAndroid Build Coastguard Worker        y = (
*da0073e9SAndroid Build Coastguard Worker            0,
*da0073e9SAndroid Build Coastguard Worker            {
*da0073e9SAndroid Build Coastguard Worker                0: torch.randn(
*da0073e9SAndroid Build Coastguard Worker                    (8, 8), device="cuda", dtype=torch.float16, requires_grad=False
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            },
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with torch.autocast("cuda"):
*da0073e9SAndroid Build Coastguard Worker            output = mymm(x, y, torch.float32)
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(output.dtype is torch.float32)
*da0073e9SAndroid Build Coastguard Worker            loss = output.sum()
*da0073e9SAndroid Build Coastguard Worker        loss.backward()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Tests if custom_fwd becomes a no-op when mymm runs outside an autocast-enabled region.
*da0073e9SAndroid Build Coastguard Worker        output = mymm(x, y, torch.float16)
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(output.dtype is torch.float16)
*da0073e9SAndroid Build Coastguard Worker        loss = output.sum()
*da0073e9SAndroid Build Coastguard Worker        loss.backward()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_autocast_custom_deprecated_warning(self):
*da0073e9SAndroid Build Coastguard Worker        with warnings.catch_warnings(record=True) as w:
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            class MyMM(torch.autograd.Function):
*da0073e9SAndroid Build Coastguard Worker                @staticmethod
*da0073e9SAndroid Build Coastguard Worker                @torch.cuda.amp.custom_fwd(cast_inputs=torch.float32)
*da0073e9SAndroid Build Coastguard Worker                def forward(ctx, x, y):
*da0073e9SAndroid Build Coastguard Worker                    ctx.save_for_backward(x, y)
*da0073e9SAndroid Build Coastguard Worker                    self.assertFalse(torch.is_autocast_enabled())
*da0073e9SAndroid Build Coastguard Worker                    return x + y
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                @staticmethod
*da0073e9SAndroid Build Coastguard Worker                @torch.cuda.amp.custom_bwd
*da0073e9SAndroid Build Coastguard Worker                def backward(ctx, grad):
*da0073e9SAndroid Build Coastguard Worker                    _, _ = ctx.saved_tensors
*da0073e9SAndroid Build Coastguard Worker                    self.assertFalse(torch.is_autocast_enabled())
*da0073e9SAndroid Build Coastguard Worker                    return grad, grad
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertRegex(
*da0073e9SAndroid Build Coastguard Worker            str(w[0].message), r"`torch.cuda.amp.custom_fwd\(args...\)` is deprecated."
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        self.assertRegex(
*da0073e9SAndroid Build Coastguard Worker            str(w[1].message), r"`torch.cuda.amp.custom_bwd\(args...\)` is deprecated."
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        mymm = MyMM.apply
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(3, 3, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        y = torch.randn(3, 3, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        with torch.amp.autocast("cuda"):
*da0073e9SAndroid Build Coastguard Worker            output = mymm(x, y)
*da0073e9SAndroid Build Coastguard Worker            loss = output.sum()
*da0073e9SAndroid Build Coastguard Worker        loss.backward()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_autocast_cat_jit(self):
*da0073e9SAndroid Build Coastguard Worker        # Reported at https://github.com/pytorch/pytorch/issues/38958
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        class Model(torch.nn.Module):
*da0073e9SAndroid Build Coastguard Worker            def forward(self):
*da0073e9SAndroid Build Coastguard Worker                a = torch.randn(1)
*da0073e9SAndroid Build Coastguard Worker                b = torch.randn(1)
*da0073e9SAndroid Build Coastguard Worker                c = torch.cat((a, b), 0)
*da0073e9SAndroid Build Coastguard Worker                d = torch.stack([c, c], 0)
*da0073e9SAndroid Build Coastguard Worker                return d
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # The JIT here doesn't really matter, we just need to call
*da0073e9SAndroid Build Coastguard Worker        # cat via the boxed API
*da0073e9SAndroid Build Coastguard Worker        model = Model()
*da0073e9SAndroid Build Coastguard Worker        model_jit_script = torch.jit.script(model)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with torch.autocast("cuda", enabled=True):
*da0073e9SAndroid Build Coastguard Worker            model()
*da0073e9SAndroid Build Coastguard Worker            model_jit_script()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # cudnn RNNs require special backend handling (weights are cast to FP16 and reflattened)
*da0073e9SAndroid Build Coastguard Worker    # so they get a dedicated test.
*da0073e9SAndroid Build Coastguard Worker    # Despite the large number of RNN cases it tries, the test takes < 15 seconds on a Titan V (similar to V100).
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_CUDNN, "CUDNN not available")
*da0073e9SAndroid Build Coastguard Worker    def test_autocast_rnn(self):
*da0073e9SAndroid Build Coastguard Worker        with torch.backends.cudnn.flags(enabled=True, deterministic=True):
*da0073e9SAndroid Build Coastguard Worker            # seq, batch, features, hidden size
*da0073e9SAndroid Build Coastguard Worker            clses = ("RNN", "GRU", "LSTM")
*da0073e9SAndroid Build Coastguard Worker            T, B, F, H = 3, 4, 5, 6
*da0073e9SAndroid Build Coastguard Worker            dtypes = (torch.float16, torch.float32)
*da0073e9SAndroid Build Coastguard Worker            input_layouts = ("seq_first", "batch_first", "packed")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            for (
*da0073e9SAndroid Build Coastguard Worker                cls,
*da0073e9SAndroid Build Coastguard Worker                num_layers,
*da0073e9SAndroid Build Coastguard Worker                bias,
*da0073e9SAndroid Build Coastguard Worker                input_layout,
*da0073e9SAndroid Build Coastguard Worker                bidirectional,
*da0073e9SAndroid Build Coastguard Worker                try_nonpreflattened_weights,
*da0073e9SAndroid Build Coastguard Worker                input_dtype,
*da0073e9SAndroid Build Coastguard Worker                hidden_dtype,
*da0073e9SAndroid Build Coastguard Worker                weight_dtype,
*da0073e9SAndroid Build Coastguard Worker            ) in product(
*da0073e9SAndroid Build Coastguard Worker                clses,
*da0073e9SAndroid Build Coastguard Worker                (1, 2),
*da0073e9SAndroid Build Coastguard Worker                (True, False),
*da0073e9SAndroid Build Coastguard Worker                input_layouts,
*da0073e9SAndroid Build Coastguard Worker                (True, False),
*da0073e9SAndroid Build Coastguard Worker                (True, False),
*da0073e9SAndroid Build Coastguard Worker                dtypes,
*da0073e9SAndroid Build Coastguard Worker                dtypes,
*da0073e9SAndroid Build Coastguard Worker                dtypes,
*da0073e9SAndroid Build Coastguard Worker            ):
*da0073e9SAndroid Build Coastguard Worker                if input_layout == "seq_first":
*da0073e9SAndroid Build Coastguard Worker                    batch_first = False
*da0073e9SAndroid Build Coastguard Worker                    x = torch.randn((T, B, F), device="cuda", dtype=input_dtype)
*da0073e9SAndroid Build Coastguard Worker                elif input_layout == "batch_first":
*da0073e9SAndroid Build Coastguard Worker                    batch_first = True
*da0073e9SAndroid Build Coastguard Worker                    x = torch.randn((B, T, F), device="cuda", dtype=input_dtype)
*da0073e9SAndroid Build Coastguard Worker                elif input_layout == "packed":
*da0073e9SAndroid Build Coastguard Worker                    batch_first = False
*da0073e9SAndroid Build Coastguard Worker                    x = torch.nn.utils.rnn.pack_padded_sequence(
*da0073e9SAndroid Build Coastguard Worker                        torch.randn((T, B, F), device="cuda", dtype=input_dtype),
*da0073e9SAndroid Build Coastguard Worker                        lengths=(3, 2, 1, 3),
*da0073e9SAndroid Build Coastguard Worker                        enforce_sorted=False,
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                rnn = (
*da0073e9SAndroid Build Coastguard Worker                    getattr(torch.nn, cls)(
*da0073e9SAndroid Build Coastguard Worker                        F,
*da0073e9SAndroid Build Coastguard Worker                        H,
*da0073e9SAndroid Build Coastguard Worker                        num_layers=num_layers,
*da0073e9SAndroid Build Coastguard Worker                        bidirectional=bidirectional,
*da0073e9SAndroid Build Coastguard Worker                        bias=bias,
*da0073e9SAndroid Build Coastguard Worker                        batch_first=batch_first,
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker                    .cuda()
*da0073e9SAndroid Build Coastguard Worker                    .to(dtype=weight_dtype)
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                if try_nonpreflattened_weights:
*da0073e9SAndroid Build Coastguard Worker                    for p in rnn.parameters():
*da0073e9SAndroid Build Coastguard Worker                        with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker                            p.set_(p.clone())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                h = torch.randn(
*da0073e9SAndroid Build Coastguard Worker                    (num_layers * (2 if bidirectional else 1), B, H),
*da0073e9SAndroid Build Coastguard Worker                    device="cuda",
*da0073e9SAndroid Build Coastguard Worker                    dtype=hidden_dtype,
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                if cls == "LSTM":
*da0073e9SAndroid Build Coastguard Worker                    c = torch.randn(
*da0073e9SAndroid Build Coastguard Worker                        (num_layers * (2 if bidirectional else 1), B, H),
*da0073e9SAndroid Build Coastguard Worker                        device="cuda",
*da0073e9SAndroid Build Coastguard Worker                        dtype=hidden_dtype,
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker                    h = (h, c)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                with torch.autocast("cuda"):
*da0073e9SAndroid Build Coastguard Worker                    out, h_out = rnn(x, h)
*da0073e9SAndroid Build Coastguard Worker                out = out.data if input_layout == "packed" else out
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(out.dtype, torch.float16)
*da0073e9SAndroid Build Coastguard Worker                # Autocast wrapper requires at::_cudnn_rnn is autograd-exposed.  This check can't guarantee
*da0073e9SAndroid Build Coastguard Worker                # at::_cudnn_rnn is autograd-exposed, but if it fires, it indicates some funny business has
*da0073e9SAndroid Build Coastguard Worker                # occurred and we should double check that at::_cudnn_rnn remains autograd-exposed.
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker                    out.grad_fn.name(),
*da0073e9SAndroid Build Coastguard Worker                    "MiopenRnnBackward0" if torch.version.hip else "CudnnRnnBackward0",
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                out.sum().backward()
*da0073e9SAndroid Build Coastguard Worker                grads = [p.grad.clone() for p in rnn.parameters()]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                rnn.zero_grad()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                if cls == "LSTM":
*da0073e9SAndroid Build Coastguard Worker                    out_control, h_out_control = rnn.to(dtype=torch.float16)(
*da0073e9SAndroid Build Coastguard Worker                        x.half(), (h[0].half(), h[1].half())
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker                else:
*da0073e9SAndroid Build Coastguard Worker                    out_control, h_out_control = rnn.to(dtype=torch.float16)(
*da0073e9SAndroid Build Coastguard Worker                        x.half(), h.half()
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker                out_control = (
*da0073e9SAndroid Build Coastguard Worker                    out_control.data if input_layout == "packed" else out_control
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                out_control.sum().backward()
*da0073e9SAndroid Build Coastguard Worker                grads_control = [p.grad.clone() for p in rnn.parameters()]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # Compares with default tolerances, even for FP16 execution.  Barring nondeterminism,
*da0073e9SAndroid Build Coastguard Worker                # autocast and control results should be bitwise identical.
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(out, out_control)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                if cls == "LSTM":
*da0073e9SAndroid Build Coastguard Worker                    self.assertTrue(
*da0073e9SAndroid Build Coastguard Worker                        h_out[0].dtype is torch.float16
*da0073e9SAndroid Build Coastguard Worker                        and h_out[1].dtype is torch.float16
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(h_out[0], h_out_control[0])
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(h_out[1], h_out_control[1])
*da0073e9SAndroid Build Coastguard Worker                else:
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(h_out.dtype, torch.float16)
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(h_out, h_out_control)
*da0073e9SAndroid Build Coastguard Worker                for grad, grad_control in zip(grads, grads_control):
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(grad.half(), grad_control)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_autocast_cache_leak(self):
*da0073e9SAndroid Build Coastguard Worker        # Reported at https://github.com/pytorch/pytorch/issues/48049
*da0073e9SAndroid Build Coastguard Worker        # Test is used to check, if autocast recaches the same parameters
*da0073e9SAndroid Build Coastguard Worker        # when executed in a `torch.no_grad()` block.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        linear = torch.nn.Linear(10, 10).to("cuda")
*da0073e9SAndroid Build Coastguard Worker        data = torch.randn(1, 10, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with torch.autocast("cuda"):
*da0073e9SAndroid Build Coastguard Worker            with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker                out = linear(data)
*da0073e9SAndroid Build Coastguard Worker                first_iter_mem = torch.cuda.memory_allocated()
*da0073e9SAndroid Build Coastguard Worker                for _ in range(3):
*da0073e9SAndroid Build Coastguard Worker                    out = linear(data)
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(first_iter_mem == torch.cuda.memory_allocated())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_autocast_checkpointing(self):
*da0073e9SAndroid Build Coastguard Worker        model = torch.nn.Sequential(
*da0073e9SAndroid Build Coastguard Worker            torch.nn.Linear(8, 8), torch.nn.Linear(8, 8), torch.nn.Linear(8, 8)
*da0073e9SAndroid Build Coastguard Worker        ).cuda()
*da0073e9SAndroid Build Coastguard Worker        input = torch.rand(
*da0073e9SAndroid Build Coastguard Worker            (8, 8), device="cuda", dtype=torch.float16, requires_grad=True
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        for reentrant in (True, False):
*da0073e9SAndroid Build Coastguard Worker            with torch.autocast("cuda"):
*da0073e9SAndroid Build Coastguard Worker                output = checkpoint_sequential(model, 2, input, use_reentrant=reentrant)
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(output.requires_grad)
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(output.dtype is torch.float16)
*da0073e9SAndroid Build Coastguard Worker            output.sum().backward()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_cuda_autocast_deprecated_warning(self):
*da0073e9SAndroid Build Coastguard Worker        with self.assertWarnsRegex(
*da0073e9SAndroid Build Coastguard Worker            FutureWarning,
*da0073e9SAndroid Build Coastguard Worker            r"`torch.cuda.amp.autocast\(args...\)` is deprecated. Please use `torch.amp.autocast\('cuda', args...\)` instead.",
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            with torch.cuda.amp.autocast():
*da0073e9SAndroid Build Coastguard Worker                _ = torch.ones(10)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerinstantiate_parametrized_tests(TestCuda)
*da0073e9SAndroid Build Coastguard Workerinstantiate_parametrized_tests(TestCudaMallocAsync)
*da0073e9SAndroid Build Coastguard Workerinstantiate_device_type_tests(TestCudaOptims, globals())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerif __name__ == "__main__":
*da0073e9SAndroid Build Coastguard Worker    run_tests()