c10/cuda/CUDACachingAllocator.cpp

*da0073e9SAndroid Build Coastguard Worker#include <c10/cuda/CUDACachingAllocator.h>
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker#include <c10/core/impl/GPUTrace.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/cuda/CUDAAllocatorConfig.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/cuda/CUDAException.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/cuda/CUDAFunctions.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/cuda/CUDAGuard.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/util/CallOnce.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/util/Gauge.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/util/ScopeExit.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/util/UniqueVoidPtr.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/util/flat_hash_map.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/util/hash.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/util/llvmMathExtras.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/util/static_tracepoint.h>
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker#if !defined(USE_ROCM) && defined(PYTORCH_C10_DRIVER_API_SUPPORTED)
*da0073e9SAndroid Build Coastguard Worker#include <c10/cuda/driver_api.h>
*da0073e9SAndroid Build Coastguard Worker#include <sys/syscall.h>
*da0073e9SAndroid Build Coastguard Worker#include <sys/types.h>
*da0073e9SAndroid Build Coastguard Worker#include <unistd.h>
*da0073e9SAndroid Build Coastguard Worker#endif
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker#include <c10/util/Exception.h>
*da0073e9SAndroid Build Coastguard Worker#include <cuda_runtime_api.h>
*da0073e9SAndroid Build Coastguard Worker#include <algorithm>
*da0073e9SAndroid Build Coastguard Worker#include <cstddef>
*da0073e9SAndroid Build Coastguard Worker#include <cstdint>
*da0073e9SAndroid Build Coastguard Worker#include <deque>
*da0073e9SAndroid Build Coastguard Worker#include <memory>
*da0073e9SAndroid Build Coastguard Worker#include <mutex>
*da0073e9SAndroid Build Coastguard Worker#include <regex>
*da0073e9SAndroid Build Coastguard Worker#include <set>
*da0073e9SAndroid Build Coastguard Worker#include <utility>
*da0073e9SAndroid Build Coastguard Worker#include <vector>
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTORCH_SDT_DEFINE_SEMAPHORE(malloc)
*da0073e9SAndroid Build Coastguard WorkerTORCH_SDT_DEFINE_SEMAPHORE(free)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workernamespace c10 {
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerC10_DEFINE_REGISTRY(FreeCudaMemoryCallbacksRegistry, FreeMemoryCallback);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workernamespace cuda::CUDACachingAllocator {
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerusing namespace c10::CachingDeviceAllocator;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// Included here as this is externally used in CUDAAllocatorConfig
*da0073e9SAndroid Build Coastguard Workerconst size_t kLargeBuffer =
*da0073e9SAndroid Build Coastguard Worker    20971520; // "large" allocations may be packed in 20 MiB blocks
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workernamespace Native {
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// Yet another caching allocator for CUDA device allocations.
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// - Allocations are associated with a stream. Once freed, blocks can be
*da0073e9SAndroid Build Coastguard Worker//   re-allocated on the same stream, but not on any other stream.
*da0073e9SAndroid Build Coastguard Worker// - The allocator attempts to find the smallest cached block that will fit the
*da0073e9SAndroid Build Coastguard Worker//   requested size. If the block is larger than the requested size, it may be
*da0073e9SAndroid Build Coastguard Worker//   split. If no block is found, the allocator will delegate to cudaMalloc.
*da0073e9SAndroid Build Coastguard Worker// - If the cudaMalloc fails, the allocator will attempt to free one cached
*da0073e9SAndroid Build Coastguard Worker//   block of sufficient size that is not split and retry the allocation.
*da0073e9SAndroid Build Coastguard Worker//   If this also fails, the allocator will attempt to free all cached blocks
*da0073e9SAndroid Build Coastguard Worker//   that are not split and retry the allocation.
*da0073e9SAndroid Build Coastguard Worker// - Large (>1MB) and small allocations are stored in separate pools.
*da0073e9SAndroid Build Coastguard Worker//   Small requests are packed into 2MB buffers. Large requests will use the
*da0073e9SAndroid Build Coastguard Worker//   smallest available free block or allocate a new block using cudaMalloc.
*da0073e9SAndroid Build Coastguard Worker// - To reduce fragmentation, requests between 1MB and 10MB will allocate and
*da0073e9SAndroid Build Coastguard Worker//   split a 20MB block, if no free block of sufficient size is available.
*da0073e9SAndroid Build Coastguard Worker// - To further reduce fragmentation, blocks >= max_split_size are not allowed
*da0073e9SAndroid Build Coastguard Worker//   to be split. These oversize cached blocks will still satisfy requests
*da0073e9SAndroid Build Coastguard Worker//   within 1MB of the oversize cached block size.
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// With this allocator, allocations and frees should logically be considered
*da0073e9SAndroid Build Coastguard Worker// "usages" of the memory segment associated with streams, just like kernel
*da0073e9SAndroid Build Coastguard Worker// launches. The programmer must insert the proper synchronization if memory
*da0073e9SAndroid Build Coastguard Worker// segments are used from multiple streams.
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// The library provides a recordStream() function to help insert the correct
*da0073e9SAndroid Build Coastguard Worker// synchronization when allocations are used on multiple streams. This will
*da0073e9SAndroid Build Coastguard Worker// ensure that the block is not reused before each recorded stream completes
*da0073e9SAndroid Build Coastguard Worker// work.
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker/**
*da0073e9SAndroid Build Coastguard Worker * Note [Interaction with CUDA graph capture]
*da0073e9SAndroid Build Coastguard Worker * ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
*da0073e9SAndroid Build Coastguard Worker * Graph capture performs a dry run of a region of execution, freezing all CUDA
*da0073e9SAndroid Build Coastguard Worker * work (and virtual addresses used during that work) into a "graph." The graph
*da0073e9SAndroid Build Coastguard Worker * may be "replayed" like a single giant kernel, with greatly reduced CPU
*da0073e9SAndroid Build Coastguard Worker * overhead as well as modestly improved GPU performance.
*da0073e9SAndroid Build Coastguard Worker *
*da0073e9SAndroid Build Coastguard Worker * Because capture bakes in memory addresses, the memory used during capture
*da0073e9SAndroid Build Coastguard Worker * must be available for the graph to use during replay. DeviceCachingAllocator
*da0073e9SAndroid Build Coastguard Worker * assigns and frees memory eagerly and dynamically, so if we're not careful
*da0073e9SAndroid Build Coastguard Worker * about managing graphs' memory, at replay time those memory addresses could be
*da0073e9SAndroid Build Coastguard Worker * used by other tensors.
*da0073e9SAndroid Build Coastguard Worker *
*da0073e9SAndroid Build Coastguard Worker * To guarantee a graph's baked in addresses are safe to reuse in replay,
*da0073e9SAndroid Build Coastguard Worker * DeviceAllocator satisfies allocations from a graph-private memory pool during
*da0073e9SAndroid Build Coastguard Worker * capture, and doesn't begin cudaFreeing those addresses until the graph is
*da0073e9SAndroid Build Coastguard Worker * destroyed.
*da0073e9SAndroid Build Coastguard Worker *
*da0073e9SAndroid Build Coastguard Worker * Within the private pool, allocations are freed and reassigned as usual during
*da0073e9SAndroid Build Coastguard Worker * capture. Memory regions will be used in a consistent order during replay. So
*da0073e9SAndroid Build Coastguard Worker * a private pool doesn't use memory more wastefully than the default pools
*da0073e9SAndroid Build Coastguard Worker * during capture, but it does reserve its high-water mark of used memory away
*da0073e9SAndroid Build Coastguard Worker * from the default pools as long as the capture(s) it served survive
*da0073e9SAndroid Build Coastguard Worker * (regardless whether those captures are idle or replaying).
*da0073e9SAndroid Build Coastguard Worker *
*da0073e9SAndroid Build Coastguard Worker * CUDAGraph's requests for private pools are mediated by
*da0073e9SAndroid Build Coastguard Worker * DeviceAllocator::notifyCaptureBegin,
*da0073e9SAndroid Build Coastguard Worker *                  notifyCaptureAboutToEnd,
*da0073e9SAndroid Build Coastguard Worker *                  notifyCaptureEnded,
*da0073e9SAndroid Build Coastguard Worker *                  notifyCaptureDestroy.
*da0073e9SAndroid Build Coastguard Worker */
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerconstexpr size_t kMinBlockSize =
*da0073e9SAndroid Build Coastguard Worker    512; // all sizes are rounded to at least 512 bytes
*da0073e9SAndroid Build Coastguard Workerconstexpr size_t kSmallSize = 1048576; // largest "small" allocation is 1 MiB
*da0073e9SAndroid Build Coastguard Workerconstexpr size_t kSmallBuffer =
*da0073e9SAndroid Build Coastguard Worker    2097152; // "small" allocations are packed in 2 MiB blocks
*da0073e9SAndroid Build Coastguard Workerconstexpr size_t kMinLargeAlloc =
*da0073e9SAndroid Build Coastguard Worker    10485760; // allocations between 1 and 10 MiB may use kLargeBuffer
*da0073e9SAndroid Build Coastguard Workerconstexpr size_t kRoundLarge = 2097152; // round up large allocations to 2 MiB
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerchar SHAREABLE_HANDLE_VERSION = 1;
*da0073e9SAndroid Build Coastguard Workerenum ShareableHandleType : char {
*da0073e9SAndroid Build Coastguard Worker  SHAREABLE_CUDA_MALLOC = 'c',
*da0073e9SAndroid Build Coastguard Worker  SHAREABLE_CUDA_EXPANDABLE_SEGMENT = 'e'
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workernamespace {
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerusing stream_set = ska::flat_hash_set<cuda::CUDAStream>;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workervoid decrease_stat_array(
*da0073e9SAndroid Build Coastguard Worker    StatArray& stat_array,
*da0073e9SAndroid Build Coastguard Worker    size_t amount,
*da0073e9SAndroid Build Coastguard Worker    const StatTypes& stat_types) {
*da0073e9SAndroid Build Coastguard Worker  for_each_selected_stat_type(
*da0073e9SAndroid Build Coastguard Worker      stat_types, [&stat_array, amount](size_t stat_type) {
*da0073e9SAndroid Build Coastguard Worker        stat_array[stat_type].decrease(amount);
*da0073e9SAndroid Build Coastguard Worker      });
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstruct Block;
*da0073e9SAndroid Build Coastguard Workerstruct PrivatePool;
*da0073e9SAndroid Build Coastguard Workertypedef bool (*Comparison)(const Block*, const Block*);
*da0073e9SAndroid Build Coastguard Workerstatic bool BlockComparatorSize(const Block* a, const Block* b);
*da0073e9SAndroid Build Coastguard Workerstatic bool BlockComparatorAddress(const Block* a, const Block* b);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstruct BlockPool {
*da0073e9SAndroid Build Coastguard Worker  BlockPool(bool small, PrivatePool* private_pool = nullptr)
*da0073e9SAndroid Build Coastguard Worker      : blocks(BlockComparatorSize),
*da0073e9SAndroid Build Coastguard Worker        unmapped(BlockComparatorAddress),
*da0073e9SAndroid Build Coastguard Worker        is_small(small),
*da0073e9SAndroid Build Coastguard Worker        owner_PrivatePool(private_pool) {}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Do not insert a Block to blocks directly; use insert_into_blocks(),
*da0073e9SAndroid Build Coastguard Worker  // instead.
*da0073e9SAndroid Build Coastguard Worker  std::set<Block*, Comparison> blocks;
*da0073e9SAndroid Build Coastguard Worker  std::set<Block*, Comparison> unmapped;
*da0073e9SAndroid Build Coastguard Worker  // NOLINTNEXTLINE(cppcoreguidelines-avoid-const-or-ref-data-members)
*da0073e9SAndroid Build Coastguard Worker  const bool is_small;
*da0073e9SAndroid Build Coastguard Worker  PrivatePool* owner_PrivatePool;
*da0073e9SAndroid Build Coastguard Worker  int64_t get_free_blocks_call_count{0};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Add a Block into blocks set with updating gc counter.
*da0073e9SAndroid Build Coastguard Worker  std::pair<std::set<Block*, Comparison>::iterator, bool> insert_into_blocks(
*da0073e9SAndroid Build Coastguard Worker      Block* block);
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstruct ExpandableSegment;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstruct Block {
*da0073e9SAndroid Build Coastguard Worker  c10::DeviceIndex device; // gpu
*da0073e9SAndroid Build Coastguard Worker  cudaStream_t stream; // allocation stream
*da0073e9SAndroid Build Coastguard Worker  stream_set stream_uses; // streams on which the block was used
*da0073e9SAndroid Build Coastguard Worker  size_t size; // block size in bytes
*da0073e9SAndroid Build Coastguard Worker  size_t requested_size; // memory originally requested
*da0073e9SAndroid Build Coastguard Worker  BlockPool* pool{nullptr}; // owning memory pool
*da0073e9SAndroid Build Coastguard Worker  void* ptr{nullptr}; // memory address
*da0073e9SAndroid Build Coastguard Worker  bool allocated{false}; // in-use flag
*da0073e9SAndroid Build Coastguard Worker  bool mapped{true}; // is the virtual address range this Block references
*da0073e9SAndroid Build Coastguard Worker                     // backed by physical pages. Always true when
*da0073e9SAndroid Build Coastguard Worker                     // expandable_segment_ is null. When false
*da0073e9SAndroid Build Coastguard Worker                     // This Block will be aligned to the segment size
*da0073e9SAndroid Build Coastguard Worker                     // of its expandable_segment_.
*da0073e9SAndroid Build Coastguard Worker  Block* prev{nullptr}; // prev block if split from a larger allocation
*da0073e9SAndroid Build Coastguard Worker  Block* next{nullptr}; // next block if split from a larger allocation
*da0073e9SAndroid Build Coastguard Worker  int event_count{0}; // number of outstanding CUDA events
*da0073e9SAndroid Build Coastguard Worker  int64_t gc_count_base{0}; // get_free_blocks_call_count when Block is inserted
*da0073e9SAndroid Build Coastguard Worker  std::shared_ptr<GatheredContext> context_when_allocated;
*da0073e9SAndroid Build Coastguard Worker  // only set for the first block in the segment (when prev == null)
*da0073e9SAndroid Build Coastguard Worker  // this records the frame information when cudaMalloc was called
*da0073e9SAndroid Build Coastguard Worker  // whereas context_when_allocated records the last time we handed this
*da0073e9SAndroid Build Coastguard Worker  // memory out from our cache.
*da0073e9SAndroid Build Coastguard Worker  std::shared_ptr<GatheredContext> context_when_segment_allocated;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  ExpandableSegment* expandable_segment_{nullptr};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  Block(
*da0073e9SAndroid Build Coastguard Worker      c10::DeviceIndex device,
*da0073e9SAndroid Build Coastguard Worker      cudaStream_t stream,
*da0073e9SAndroid Build Coastguard Worker      size_t size,
*da0073e9SAndroid Build Coastguard Worker      BlockPool* pool,
*da0073e9SAndroid Build Coastguard Worker      void* ptr)
*da0073e9SAndroid Build Coastguard Worker      : device(device),
*da0073e9SAndroid Build Coastguard Worker        stream(stream),
*da0073e9SAndroid Build Coastguard Worker        stream_uses(),
*da0073e9SAndroid Build Coastguard Worker        size(size),
*da0073e9SAndroid Build Coastguard Worker        requested_size(0),
*da0073e9SAndroid Build Coastguard Worker        pool(pool),
*da0073e9SAndroid Build Coastguard Worker        ptr(ptr) {}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // constructor for search key
*da0073e9SAndroid Build Coastguard Worker  Block(c10::DeviceIndex device, cudaStream_t stream, size_t size)
*da0073e9SAndroid Build Coastguard Worker      : device(device),
*da0073e9SAndroid Build Coastguard Worker        stream(stream),
*da0073e9SAndroid Build Coastguard Worker        stream_uses(),
*da0073e9SAndroid Build Coastguard Worker        size(size),
*da0073e9SAndroid Build Coastguard Worker        requested_size(0) {}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  size_t gc_count() {
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(pool);
*da0073e9SAndroid Build Coastguard Worker    return static_cast<int>(pool->get_free_blocks_call_count - gc_count_base);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  bool is_split() const {
*da0073e9SAndroid Build Coastguard Worker    return (prev != nullptr) || (next != nullptr);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  void splice(Block* before, Block* after) {
*da0073e9SAndroid Build Coastguard Worker    if (before) {
*da0073e9SAndroid Build Coastguard Worker      TORCH_INTERNAL_ASSERT(before->next == after);
*da0073e9SAndroid Build Coastguard Worker      before->next = this;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    prev = before;
*da0073e9SAndroid Build Coastguard Worker    if (after) {
*da0073e9SAndroid Build Coastguard Worker      TORCH_INTERNAL_ASSERT(after->prev == before);
*da0073e9SAndroid Build Coastguard Worker      after->prev = this;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    next = after;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstd::pair<std::set<Block*, Comparison>::iterator, bool> BlockPool::
*da0073e9SAndroid Build Coastguard Worker    insert_into_blocks(Block* block) {
*da0073e9SAndroid Build Coastguard Worker  block->gc_count_base = get_free_blocks_call_count;
*da0073e9SAndroid Build Coastguard Worker  return blocks.insert(block);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstruct SegmentRange {
*da0073e9SAndroid Build Coastguard Worker  char* ptr;
*da0073e9SAndroid Build Coastguard Worker  size_t size;
*da0073e9SAndroid Build Coastguard Worker  SegmentRange(void* p, size_t s) : ptr(static_cast<char*>(p)), size(s) {}
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker#if !defined(USE_ROCM) && defined(PYTORCH_C10_DRIVER_API_SUPPORTED)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker/*
*da0073e9SAndroid Build Coastguard WorkerNote [Expandable Segments]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerRationale
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerFor large (>2MB) allocations, the allocator calls cudaMalloc to get allocations
*da0073e9SAndroid Build Coastguard Workerthat are the same size as what the user requests. In the future, parts of these
*da0073e9SAndroid Build Coastguard Workerallocations can be reused for other requests if they are free. This works well
*da0073e9SAndroid Build Coastguard Workerwhen the program makes many requests of exactly the same size or of sizes that
*da0073e9SAndroid Build Coastguard Workereven multiples of that size. Many deep learning models follow this behavior.
*da0073e9SAndroid Build Coastguard WorkerHowever, one common exception is when the batch size changes slightly from one
*da0073e9SAndroid Build Coastguard Workeriteration to the next, e.g. in batched inference. When the program runs
*da0073e9SAndroid Build Coastguard Workerinitially with batch size N, it will make allocations appropriate for that size.
*da0073e9SAndroid Build Coastguard WorkerIf in the future, it runs at size N - 1, the existing allocations will still be
*da0073e9SAndroid Build Coastguard Workerbig enough. However, if it runs at size N + 1, then it will have to make new
*da0073e9SAndroid Build Coastguard Workerallocations that are slightly larger. Not all the tensors are the same size.
*da0073e9SAndroid Build Coastguard WorkerSome might be (N + 1)*A and others (N + 1)*A*B where A and B are some non-batch
*da0073e9SAndroid Build Coastguard Workerdimensions in the model. Because the allocator reuses existing allocations when
*da0073e9SAndroid Build Coastguard Workerthey are big enough, some number of (N + 1)*A allocations will actually fit in
*da0073e9SAndroid Build Coastguard Workerthe already existing N*B*A segments, though not perfectly. As the model runs it
*da0073e9SAndroid Build Coastguard Workerwill partially fill up all of these segments leaving unusable free slices of
*da0073e9SAndroid Build Coastguard Workermemory at the end of these segments. The allocator at some point will need to
*da0073e9SAndroid Build Coastguard WorkercudaMalloc a new (N + 1)*A*B segment. If there is not enough memory, there is
*da0073e9SAndroid Build Coastguard Workernow no way to recover the slices of memory that are free at the end of existing
*da0073e9SAndroid Build Coastguard Workersegments. With models 50+ layers deep, this pattern might repeat 50+ times
*da0073e9SAndroid Build Coastguard Workercreating many slivers.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerApproach
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerExpandable segments allows the allocator to create a segment initially and then
*da0073e9SAndroid Build Coastguard Workerexpand its size later when more memory is needed. Instead of making one segment
*da0073e9SAndroid Build Coastguard Workerper allocation, it tries to make one segment (per stream) that grows as
*da0073e9SAndroid Build Coastguard Workernecessary. Now when the N + 1 case runs, the allocations will tile nicely into
*da0073e9SAndroid Build Coastguard Workerthe one large segment until it fills up. Then more memory is requested and
*da0073e9SAndroid Build Coastguard Workerappended to the end of the segment. This process does not create as many slivers
*da0073e9SAndroid Build Coastguard Workerof unusable memory, so it is more likely to succeed at finding this memory.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerImplementation
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerThe expandable_segments:True option is used to enable/disable this behavior. We
*da0073e9SAndroid Build Coastguard Workeruse cuda's low-level memory APIs, which are similar to mmap, to extend the
*da0073e9SAndroid Build Coastguard Workermemory segments. These APIs separate the allocation of physical memory
*da0073e9SAndroid Build Coastguard Worker(cuMemCreate) from the allocation of virtual address space (cuMemAddressReserve)
*da0073e9SAndroid Build Coastguard Workerand the associate between them cuMemMap/cuMemSetAccess.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerWhen we allocate a new segment, we allocate enough address space to map
*da0073e9SAndroid Build Coastguard Workerbasically the entire physical memory of the GPU (there is 256TiB of address
*da0073e9SAndroid Build Coastguard Workerspace), but we only map enough physical memory to handle the current amount of
*da0073e9SAndroid Build Coastguard Workermemory needed by the program. As more is requested, we add more physical memory
*da0073e9SAndroid Build Coastguard Workerto the segment. This can work at the granularity of GPU pages which are 2MiB
*da0073e9SAndroid Build Coastguard Workercurrently.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerIf we end up out of memory, we can unmap all the memory in our segment
*da0073e9SAndroid Build Coastguard Workercorresponding to empty physical pages, and return it to CUDA for use at another
*da0073e9SAndroid Build Coastguard Workeraddress in the segment or in a segment for a different stream.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerA current limitation of CUDA's API is that physical memory
*da0073e9SAndroid Build Coastguard Worker(CUmemGenericAllocationHandle) cannot be split up after it is mapped even if the
*da0073e9SAndroid Build Coastguard Workerhandle holds multiple GPU pages. The cost to map/unmap memory is proportional to
*da0073e9SAndroid Build Coastguard Workerthe number of physical memory chunks that were allocated (mapping 10 separately
*da0073e9SAndroid Build Coastguard Workerallocated 2MiB pages takes 10x time compared to mapping one 20MiB physical
*da0073e9SAndroid Build Coastguard Workerallocation of 10 pages).  Changing memory mappings also appears to involve at
*da0073e9SAndroid Build Coastguard Workerleast some synchronous actions with the GPU and so should be considered an
*da0073e9SAndroid Build Coastguard Workerexpensive operation. To limit overhead, we use 2MiB pages for our small pool and
*da0073e9SAndroid Build Coastguard Worker20MiB pages for our large pool. Initially allocation using expandable_blocks
*da0073e9SAndroid Build Coastguard Workerwill be slower than cudaMalloc, though still in the milliseconds range for
*da0073e9SAndroid Build Coastguard Workermapping the entire memory.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerWhen mapping new memory to expand the segment, we look for the lowest address at
*da0073e9SAndroid Build Coastguard Workerwhich we can fit a new allocation by adding new pages. Normally this will be at
*da0073e9SAndroid Build Coastguard Workerthe end of the block. But if have previously unmapped blocks earlier in the
*da0073e9SAndroid Build Coastguard Workersegment during an OOM, it will first try to fill in those gaps to keep the
*da0073e9SAndroid Build Coastguard Workersegment as a single block. By allocating at the lowest address we encourage
*da0073e9SAndroid Build Coastguard Workerthe split up parts of the block to merge into a single block again, reducing
*da0073e9SAndroid Build Coastguard Workerfragmentation potential.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerAllocation of blocks in the segment uses the same best-fit heuristics of the
*da0073e9SAndroid Build Coastguard Workerrest of the allocator.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerExpandable blocks can be enabled/disabled throughout the run of a program. When
*da0073e9SAndroid Build Coastguard Workerdisabled, the allocator will not put new allocations in an expandable block.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerLimitations
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker* Slightly slower initial memory allocation speed.
*da0073e9SAndroid Build Coastguard Worker* IPC of cuda tensors (e.g. for multiprocess dataloaders) is not supported.
*da0073e9SAndroid Build Coastguard WorkerHowever, it is possible to temporarily disable (expandable_segments:False) the
*da0073e9SAndroid Build Coastguard Workerbevhavior for allocator tensors that need to be used cross-process.
*da0073e9SAndroid Build Coastguard Worker* CUDA runtime APIs related to sharing memory across process
*da0073e9SAndroid Build Coastguard Worker(cudaDeviceEnablePeerAccess) do not work for memory allocated with cuMemMap.
*da0073e9SAndroid Build Coastguard WorkerInstead these mapping have to be done manually. The allocator now has an
*da0073e9SAndroid Build Coastguard Worker`enablePeerAccess` method to do this.
*da0073e9SAndroid Build Coastguard Worker*/
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstruct ExpandableSegment {
*da0073e9SAndroid Build Coastguard Worker  ExpandableSegment(
*da0073e9SAndroid Build Coastguard Worker      c10::DeviceIndex device,
*da0073e9SAndroid Build Coastguard Worker      std::optional<cudaStream_t> stream,
*da0073e9SAndroid Build Coastguard Worker      size_t address_space_size,
*da0073e9SAndroid Build Coastguard Worker      size_t segment_size,
*da0073e9SAndroid Build Coastguard Worker      std::vector<c10::DeviceIndex> peers)
*da0073e9SAndroid Build Coastguard Worker      : device_(device),
*da0073e9SAndroid Build Coastguard Worker        stream_(stream),
*da0073e9SAndroid Build Coastguard Worker        // 2MB for small pool, 20MB for large pool
*da0073e9SAndroid Build Coastguard Worker        segment_size_(segment_size),
*da0073e9SAndroid Build Coastguard Worker        max_handles_(numSegments(address_space_size)),
*da0073e9SAndroid Build Coastguard Worker        peers_(std::move(peers)) {
*da0073e9SAndroid Build Coastguard Worker    cudaDeviceProp prop{};
*da0073e9SAndroid Build Coastguard Worker    C10_CUDA_CHECK(cudaGetDeviceProperties(&prop, device_));
*da0073e9SAndroid Build Coastguard Worker    // we allocate enough address space for 1 1/8 the total memory on the GPU.
*da0073e9SAndroid Build Coastguard Worker    // This allows for some cases where we have to unmap pages earlier in the
*da0073e9SAndroid Build Coastguard Worker    // segment to put them at the end.
*da0073e9SAndroid Build Coastguard Worker    max_handles_ = numSegments(prop.totalGlobalMem + prop.totalGlobalMem / 8);
*da0073e9SAndroid Build Coastguard Worker    C10_CUDA_DRIVER_CHECK(DriverAPI::get()->cuMemAddressReserve_(
*da0073e9SAndroid Build Coastguard Worker        &ptr_, segment_size_ * max_handles_, 0ULL, 0, 0ULL));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  // begin must be aligned to segment_size_.
*da0073e9SAndroid Build Coastguard Worker  // returns the actual range mapped, which may be
*da0073e9SAndroid Build Coastguard Worker  // greater than requested if size is not aligned to segment_size_.
*da0073e9SAndroid Build Coastguard Worker  // return size of 0 indicates OOM
*da0073e9SAndroid Build Coastguard Worker  SegmentRange map(SegmentRange range) {
*da0073e9SAndroid Build Coastguard Worker    auto begin = segmentLeft(range.ptr);
*da0073e9SAndroid Build Coastguard Worker    auto end = segmentRight(range.ptr + range.size);
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(ptr() + begin * segment_size_ == range.ptr);
*da0073e9SAndroid Build Coastguard Worker    if (begin == end) {
*da0073e9SAndroid Build Coastguard Worker      return rangeFromHandles(begin, end);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    while (end > handles_.size()) {
*da0073e9SAndroid Build Coastguard Worker      handles_.emplace_back(std::nullopt);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    for (auto i : c10::irange(begin, end)) {
*da0073e9SAndroid Build Coastguard Worker      TORCH_INTERNAL_ASSERT(!handles_.at(i));
*da0073e9SAndroid Build Coastguard Worker      CUmemGenericAllocationHandle handle = 0;
*da0073e9SAndroid Build Coastguard Worker      CUmemAllocationProp prop = {};
*da0073e9SAndroid Build Coastguard Worker      prop.type = CU_MEM_ALLOCATION_TYPE_PINNED;
*da0073e9SAndroid Build Coastguard Worker#ifndef FBCODE_CAFFE2
*da0073e9SAndroid Build Coastguard Worker      prop.requestedHandleTypes = CU_MEM_HANDLE_TYPE_POSIX_FILE_DESCRIPTOR;
*da0073e9SAndroid Build Coastguard Worker#endif
*da0073e9SAndroid Build Coastguard Worker      prop.location.type = CU_MEM_LOCATION_TYPE_DEVICE;
*da0073e9SAndroid Build Coastguard Worker      // NOLINTNEXTLINE(bugprone-signed-char-misuse)
*da0073e9SAndroid Build Coastguard Worker      prop.location.id = static_cast<int>(device_);
*da0073e9SAndroid Build Coastguard Worker      auto status =
*da0073e9SAndroid Build Coastguard Worker          DriverAPI::get()->cuMemCreate_(&handle, segment_size_, &prop, 0);
*da0073e9SAndroid Build Coastguard Worker      if (status == CUDA_ERROR_OUT_OF_MEMORY) {
*da0073e9SAndroid Build Coastguard Worker        for (auto j : c10::irange(begin, i)) {
*da0073e9SAndroid Build Coastguard Worker          auto h = handles_.at(j).value();
*da0073e9SAndroid Build Coastguard Worker          handles_.at(j) = std::nullopt;
*da0073e9SAndroid Build Coastguard Worker          C10_CUDA_DRIVER_CHECK(DriverAPI::get()->cuMemRelease_(h.handle));
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker        trimHandles();
*da0073e9SAndroid Build Coastguard Worker        return rangeFromHandles(begin, begin);
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      C10_CUDA_DRIVER_CHECK(status);
*da0073e9SAndroid Build Coastguard Worker      handles_.at(i) = Handle{handle, std::nullopt};
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    mapAndSetAccess(begin, end);
*da0073e9SAndroid Build Coastguard Worker    return rangeFromHandles(begin, end);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // unmaps all the completely empty segment_size_ segments between
*da0073e9SAndroid Build Coastguard Worker  // [begin, begin + size), returns the offset where the range begin,
*da0073e9SAndroid Build Coastguard Worker  // and the actual size unmapped (multiple of segment_size_)
*da0073e9SAndroid Build Coastguard Worker  SegmentRange unmap(SegmentRange range) {
*da0073e9SAndroid Build Coastguard Worker    auto begin = segmentRight(range.ptr);
*da0073e9SAndroid Build Coastguard Worker    auto end = segmentLeft(range.ptr + range.size);
*da0073e9SAndroid Build Coastguard Worker    if (begin >= end) {
*da0073e9SAndroid Build Coastguard Worker      return SegmentRange{range.ptr, 0};
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    unmapHandles(begin, end);
*da0073e9SAndroid Build Coastguard Worker    return rangeFromHandles(begin, end);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Setup IPC sharing for range.
*da0073e9SAndroid Build Coastguard Worker  // Returns the (larger) range that was actually shared.
*da0073e9SAndroid Build Coastguard Worker  // Serializes data to std::ostream that can be passed to the
*da0073e9SAndroid Build Coastguard Worker  // other process, and then restored as an exapandable segment
*da0073e9SAndroid Build Coastguard Worker  // via ExpandableSegment::fromShared(istream);
*da0073e9SAndroid Build Coastguard Worker  SegmentRange share(SegmentRange range, std::ostream& buf) {
*da0073e9SAndroid Build Coastguard Worker    auto begin = segmentLeft(range.ptr);
*da0073e9SAndroid Build Coastguard Worker    auto end = segmentRight(range.ptr + range.size);
*da0073e9SAndroid Build Coastguard Worker    ShareHeader header{getpid(), segment_size_, end - begin};
*da0073e9SAndroid Build Coastguard Worker    buf.write((const char*)&header, sizeof(ShareHeader));
*da0073e9SAndroid Build Coastguard Worker    for (auto i : c10::irange(begin, end)) {
*da0073e9SAndroid Build Coastguard Worker      auto& handle = handles_.at(i).value();
*da0073e9SAndroid Build Coastguard Worker      if (!handle.fd) {
*da0073e9SAndroid Build Coastguard Worker        int fd = 0;
*da0073e9SAndroid Build Coastguard Worker        C10_CUDA_DRIVER_CHECK(DriverAPI::get()->cuMemExportToShareableHandle_(
*da0073e9SAndroid Build Coastguard Worker            &fd, handle.handle, CU_MEM_HANDLE_TYPE_POSIX_FILE_DESCRIPTOR, 0));
*da0073e9SAndroid Build Coastguard Worker        handle.fd = fd;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      int fd = *handle.fd;
*da0073e9SAndroid Build Coastguard Worker      buf.write((const char*)&fd, sizeof(int));
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    return rangeFromHandles(begin, end);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  static std::unique_ptr<ExpandableSegment> fromShared(
*da0073e9SAndroid Build Coastguard Worker      c10::DeviceIndex device,
*da0073e9SAndroid Build Coastguard Worker      std::vector<c10::DeviceIndex> peers,
*da0073e9SAndroid Build Coastguard Worker      std::istream& buf) {
*da0073e9SAndroid Build Coastguard Worker    ShareHeader header{};
*da0073e9SAndroid Build Coastguard Worker    buf.read((char*)&header, sizeof(ShareHeader));
*da0073e9SAndroid Build Coastguard Worker    auto segment = std::make_unique<ExpandableSegment>(
*da0073e9SAndroid Build Coastguard Worker        device,
*da0073e9SAndroid Build Coastguard Worker        std::nullopt,
*da0073e9SAndroid Build Coastguard Worker        header.num_handles * header.segment_size,
*da0073e9SAndroid Build Coastguard Worker        header.segment_size,
*da0073e9SAndroid Build Coastguard Worker        std::move(peers));
*da0073e9SAndroid Build Coastguard Worker// older build setups (e.g. multiwheels) do not have this syscall, added 2020
*da0073e9SAndroid Build Coastguard Worker// but the kernel on the system might still support it.
*da0073e9SAndroid Build Coastguard Worker#ifndef SYS_pidfd_open
*da0073e9SAndroid Build Coastguard Worker#define SYS_pidfd_open 434
*da0073e9SAndroid Build Coastguard Worker#endif
*da0073e9SAndroid Build Coastguard Worker#ifndef SYS_pidfd_getfd
*da0073e9SAndroid Build Coastguard Worker#define SYS_pidfd_getfd 438
*da0073e9SAndroid Build Coastguard Worker#endif
*da0073e9SAndroid Build Coastguard Worker    auto pidfd = syscall(SYS_pidfd_open, header.pid, 0);
*da0073e9SAndroid Build Coastguard Worker    TORCH_CHECK(
*da0073e9SAndroid Build Coastguard Worker        pidfd != -1 || errno != ENOSYS,
*da0073e9SAndroid Build Coastguard Worker        "The kernel on this machine does not support the pidfd_open syscall needed to use IPC for CUDA tensors when expandable_segments:True is set. "
*da0073e9SAndroid Build Coastguard Worker        "Consider using expandable_segments:False via torch.cuda.memory._set_allocator_settings('expandable_segments:False') for this allocation.");
*da0073e9SAndroid Build Coastguard Worker    TORCH_CHECK(pidfd != -1, "pidfd_open:", std::strerror(errno));
*da0073e9SAndroid Build Coastguard Worker    for (auto i : c10::irange(header.num_handles)) {
*da0073e9SAndroid Build Coastguard Worker      (void)i;
*da0073e9SAndroid Build Coastguard Worker      int fd = 0;
*da0073e9SAndroid Build Coastguard Worker      buf.read((char*)&fd, sizeof(int));
*da0073e9SAndroid Build Coastguard Worker      auto myfd = syscall(SYS_pidfd_getfd, pidfd, fd, 0);
*da0073e9SAndroid Build Coastguard Worker      if (myfd == -1) {
*da0073e9SAndroid Build Coastguard Worker        auto err = errno;
*da0073e9SAndroid Build Coastguard Worker        close((int)pidfd);
*da0073e9SAndroid Build Coastguard Worker        for (auto& h : segment->handles_) {
*da0073e9SAndroid Build Coastguard Worker          C10_CUDA_DRIVER_CHECK(
*da0073e9SAndroid Build Coastguard Worker              DriverAPI::get()->cuMemRelease_(h.value().handle));
*da0073e9SAndroid Build Coastguard Worker          h = std::nullopt;
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker        TORCH_CHECK(
*da0073e9SAndroid Build Coastguard Worker            err != ENOSYS,
*da0073e9SAndroid Build Coastguard Worker            "The kernel on this machine does not support the pidfd_getfd syscall needed to use IPC for CUDA tensors when expandable_segments:True is set. "
*da0073e9SAndroid Build Coastguard Worker            "Consider using expandable_segments:False via torch.cuda.memory._set_allocator_settings('expandable_segments:False') for this allocation.");
*da0073e9SAndroid Build Coastguard Worker        TORCH_CHECK(false, "pidfd_getfd: ", std::strerror(err));
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      CUmemGenericAllocationHandle handle = 0;
*da0073e9SAndroid Build Coastguard Worker      C10_CUDA_DRIVER_CHECK(DriverAPI::get()->cuMemImportFromShareableHandle_(
*da0073e9SAndroid Build Coastguard Worker          &handle,
*da0073e9SAndroid Build Coastguard Worker          // NOLINTNEXTLINE(performance-no-int-to-ptr)
*da0073e9SAndroid Build Coastguard Worker          (void*)(uintptr_t)myfd,
*da0073e9SAndroid Build Coastguard Worker          CU_MEM_HANDLE_TYPE_POSIX_FILE_DESCRIPTOR));
*da0073e9SAndroid Build Coastguard Worker      close((int)myfd);
*da0073e9SAndroid Build Coastguard Worker      segment->handles_.emplace_back(Handle{handle, std::nullopt});
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    close((int)pidfd);
*da0073e9SAndroid Build Coastguard Worker    segment->mapAndSetAccess(0, header.num_handles);
*da0073e9SAndroid Build Coastguard Worker    return segment;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  char* ptr() const {
*da0073e9SAndroid Build Coastguard Worker    // NOLINTNEXTLINE(performance-no-int-to-ptr)
*da0073e9SAndroid Build Coastguard Worker    return reinterpret_cast<char*>(ptr_);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  size_t size() const {
*da0073e9SAndroid Build Coastguard Worker    return max_handles_ * segment_size_;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void addPeer(c10::DeviceIndex device) {
*da0073e9SAndroid Build Coastguard Worker    peers_.push_back(device);
*da0073e9SAndroid Build Coastguard Worker    forEachAllocatedRange(
*da0073e9SAndroid Build Coastguard Worker        [&](size_t begin, size_t end) { setAccess(device, begin, end); });
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  ~ExpandableSegment() {
*da0073e9SAndroid Build Coastguard Worker    forEachAllocatedRange(
*da0073e9SAndroid Build Coastguard Worker        [&](size_t begin, size_t end) { unmapHandles(begin, end); });
*da0073e9SAndroid Build Coastguard Worker    C10_CUDA_DRIVER_CHECK(DriverAPI::get()->cuMemAddressFree_(
*da0073e9SAndroid Build Coastguard Worker        ptr_, segment_size_ * max_handles_));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker private:
*da0073e9SAndroid Build Coastguard Worker  void setAccess(c10::DeviceIndex device, size_t begin, size_t end) {
*da0073e9SAndroid Build Coastguard Worker    CUmemAccessDesc desc;
*da0073e9SAndroid Build Coastguard Worker    desc.location.type = CU_MEM_LOCATION_TYPE_DEVICE;
*da0073e9SAndroid Build Coastguard Worker    // NOLINTNEXTLINE(bugprone-signed-char-misuse)
*da0073e9SAndroid Build Coastguard Worker    desc.location.id = static_cast<int>(device);
*da0073e9SAndroid Build Coastguard Worker    desc.flags = CU_MEM_ACCESS_FLAGS_PROT_READWRITE;
*da0073e9SAndroid Build Coastguard Worker    C10_CUDA_DRIVER_CHECK(DriverAPI::get()->cuMemSetAccess_(
*da0073e9SAndroid Build Coastguard Worker        ptr_ + begin * segment_size_, (end - begin) * segment_size_, &desc, 1));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void mapAndSetAccess(size_t begin, size_t end) {
*da0073e9SAndroid Build Coastguard Worker    for (auto i : c10::irange(begin, end)) {
*da0073e9SAndroid Build Coastguard Worker      C10_CUDA_DRIVER_CHECK(DriverAPI::get()->cuMemMap_(
*da0073e9SAndroid Build Coastguard Worker          ptr_ + i * segment_size_,
*da0073e9SAndroid Build Coastguard Worker          segment_size_,
*da0073e9SAndroid Build Coastguard Worker          0,
*da0073e9SAndroid Build Coastguard Worker          handles_.at(i).value().handle,
*da0073e9SAndroid Build Coastguard Worker          0ULL));
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    setAccess(device_, begin, end);
*da0073e9SAndroid Build Coastguard Worker    for (auto p : peers_) {
*da0073e9SAndroid Build Coastguard Worker      setAccess(p, begin, end);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void unmapHandles(size_t begin, size_t end) {
*da0073e9SAndroid Build Coastguard Worker    // note: unlike cudaFree, MemUnmap and MemRelease do
*da0073e9SAndroid Build Coastguard Worker    // not appear to synchronize in all cases, so we have to wait for the
*da0073e9SAndroid Build Coastguard Worker    // stream to finish before this memory is truly free.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // cannot call c10::cuda::stream_synchronize because
*da0073e9SAndroid Build Coastguard Worker    // it might grab the GIL which can lead to a deadlock
*da0073e9SAndroid Build Coastguard Worker    // Locking order must be GIL -> Allocator Lock
*da0073e9SAndroid Build Coastguard Worker    if (stream_) {
*da0073e9SAndroid Build Coastguard Worker      C10_CUDA_CHECK(cudaStreamSynchronize(*stream_));
*da0073e9SAndroid Build Coastguard Worker    } else {
*da0073e9SAndroid Build Coastguard Worker      cuda::CUDAGuard device_guard(device_);
*da0073e9SAndroid Build Coastguard Worker      C10_CUDA_CHECK(cudaDeviceSynchronize());
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    for (auto i : c10::irange(begin, end)) {
*da0073e9SAndroid Build Coastguard Worker      Handle h = handles_.at(i).value();
*da0073e9SAndroid Build Coastguard Worker      handles_.at(i) = std::nullopt;
*da0073e9SAndroid Build Coastguard Worker      C10_CUDA_DRIVER_CHECK(DriverAPI::get()->cuMemUnmap_(
*da0073e9SAndroid Build Coastguard Worker          ptr_ + segment_size_ * i, segment_size_));
*da0073e9SAndroid Build Coastguard Worker      if (h.fd) {
*da0073e9SAndroid Build Coastguard Worker        close(*h.fd);
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      C10_CUDA_DRIVER_CHECK(DriverAPI::get()->cuMemRelease_(h.handle));
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    trimHandles();
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  void trimHandles() {
*da0073e9SAndroid Build Coastguard Worker    while (!handles_.empty() && !handles_.back()) {
*da0073e9SAndroid Build Coastguard Worker      handles_.pop_back();
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  void forEachAllocatedRange(const std::function<void(size_t, size_t)>& fn) {
*da0073e9SAndroid Build Coastguard Worker    size_t start = 0;
*da0073e9SAndroid Build Coastguard Worker    for (auto i : c10::irange(handles_.size())) {
*da0073e9SAndroid Build Coastguard Worker      if (handles_.at(i) && (i == 0 || !handles_.at(i - 1))) {
*da0073e9SAndroid Build Coastguard Worker        start = i;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      if (handles_.at(i) && (i + 1 == handles_.size() || !handles_.at(i + 1))) {
*da0073e9SAndroid Build Coastguard Worker        fn(start, i + 1);
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  size_t numSegments(size_t size) {
*da0073e9SAndroid Build Coastguard Worker    return (size + segment_size_ - 1) / segment_size_;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  size_t segmentLeft(char* p) {
*da0073e9SAndroid Build Coastguard Worker    auto size = p - ptr();
*da0073e9SAndroid Build Coastguard Worker    return size / segment_size_;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  size_t segmentRight(char* p) {
*da0073e9SAndroid Build Coastguard Worker    auto size = p - ptr();
*da0073e9SAndroid Build Coastguard Worker    return numSegments(size);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  SegmentRange rangeFromHandles(size_t begin, size_t end) {
*da0073e9SAndroid Build Coastguard Worker    return SegmentRange(
*da0073e9SAndroid Build Coastguard Worker        ptr() + segment_size_ * begin, segment_size_ * (end - begin));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  c10::DeviceIndex device_;
*da0073e9SAndroid Build Coastguard Worker  std::optional<cudaStream_t> stream_;
*da0073e9SAndroid Build Coastguard Worker  CUdeviceptr ptr_{};
*da0073e9SAndroid Build Coastguard Worker  size_t segment_size_;
*da0073e9SAndroid Build Coastguard Worker  size_t max_handles_;
*da0073e9SAndroid Build Coastguard Worker  struct Handle {
*da0073e9SAndroid Build Coastguard Worker    CUmemGenericAllocationHandle handle;
*da0073e9SAndroid Build Coastguard Worker    std::optional<int> fd;
*da0073e9SAndroid Build Coastguard Worker  };
*da0073e9SAndroid Build Coastguard Worker  struct ShareHeader {
*da0073e9SAndroid Build Coastguard Worker    pid_t pid;
*da0073e9SAndroid Build Coastguard Worker    size_t segment_size;
*da0073e9SAndroid Build Coastguard Worker    size_t num_handles;
*da0073e9SAndroid Build Coastguard Worker  };
*da0073e9SAndroid Build Coastguard Worker  std::vector<std::optional<Handle>> handles_;
*da0073e9SAndroid Build Coastguard Worker  // devices on which this memory should be mapped in addition
*da0073e9SAndroid Build Coastguard Worker  // to the device where the physical memory lives (device_).
*da0073e9SAndroid Build Coastguard Worker  std::vector<c10::DeviceIndex> peers_;
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker#else
*da0073e9SAndroid Build Coastguard Workerstruct ExpandableSegment {
*da0073e9SAndroid Build Coastguard Worker  ExpandableSegment(
*da0073e9SAndroid Build Coastguard Worker      c10::DeviceIndex device,
*da0073e9SAndroid Build Coastguard Worker      std::optional<cudaStream_t> stream,
*da0073e9SAndroid Build Coastguard Worker      size_t address_space_size,
*da0073e9SAndroid Build Coastguard Worker      size_t segment_size,
*da0073e9SAndroid Build Coastguard Worker      std::vector<c10::DeviceIndex> peers) {
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(false, "expandable segment not supported");
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  SegmentRange map(SegmentRange range) {
*da0073e9SAndroid Build Coastguard Worker    return SegmentRange(nullptr, 0);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  SegmentRange unmap(SegmentRange range) {
*da0073e9SAndroid Build Coastguard Worker    return SegmentRange(nullptr, 0);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  SegmentRange share(SegmentRange range, std::ostream& ss) {
*da0073e9SAndroid Build Coastguard Worker    return SegmentRange(nullptr, 0);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  static std::unique_ptr<ExpandableSegment> fromShared(
*da0073e9SAndroid Build Coastguard Worker      c10::DeviceIndex device,
*da0073e9SAndroid Build Coastguard Worker      std::vector<c10::DeviceIndex> peers,
*da0073e9SAndroid Build Coastguard Worker      std::istream& buf) {
*da0073e9SAndroid Build Coastguard Worker    return {};
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  char* ptr() const {
*da0073e9SAndroid Build Coastguard Worker    return nullptr;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  size_t size() const {
*da0073e9SAndroid Build Coastguard Worker    return 0;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  void addPeer(c10::DeviceIndex device) {}
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker#endif
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// BlockState, BlockPoolState, and PrivatePoolState contain the information
*da0073e9SAndroid Build Coastguard Worker// needed to reconstruct a private pool to a previous state. See note
*da0073e9SAndroid Build Coastguard Worker// [Checkpointing PrivatePoolState]
*da0073e9SAndroid Build Coastguard Workerstruct BlockState {
*da0073e9SAndroid Build Coastguard Worker  c10::DeviceIndex device = 0;
*da0073e9SAndroid Build Coastguard Worker  cudaStream_t stream = nullptr;
*da0073e9SAndroid Build Coastguard Worker  stream_set stream_uses = {};
*da0073e9SAndroid Build Coastguard Worker  size_t size = 0;
*da0073e9SAndroid Build Coastguard Worker  void* ptr = nullptr;
*da0073e9SAndroid Build Coastguard Worker  bool allocated = false;
*da0073e9SAndroid Build Coastguard Worker  int64_t gc_count_base = 0;
*da0073e9SAndroid Build Coastguard Worker  // maintain invariant that event_count == 0 ;
*da0073e9SAndroid Build Coastguard Worker  // history will be left alone in checkpoint
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  BlockState(Block* block);
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstruct SegmentState {
*da0073e9SAndroid Build Coastguard Worker  std::vector<BlockState> blocks;
*da0073e9SAndroid Build Coastguard Worker  bool is_small = false;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  SegmentState(Block* head);
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstruct PrivatePoolState : AllocatorState {
*da0073e9SAndroid Build Coastguard Worker  // omitting use_count, and cudaMalloc_count as they remain the same
*da0073e9SAndroid Build Coastguard Worker  MempoolId_t owner_id = {0, 0};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  std::vector<SegmentState> segments;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  PrivatePoolState(
*da0073e9SAndroid Build Coastguard Worker      MempoolId_t pool_id,
*da0073e9SAndroid Build Coastguard Worker      const std::vector<Block*>& private_pool_head_blocks);
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstruct RestoreResult {
*da0073e9SAndroid Build Coastguard Worker  std::vector<void*> allocations_freed;
*da0073e9SAndroid Build Coastguard Worker  std::vector<Block*> allocations_created;
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstatic bool BlockComparatorSize(const Block* a, const Block* b) {
*da0073e9SAndroid Build Coastguard Worker  if (a->stream != b->stream) {
*da0073e9SAndroid Build Coastguard Worker    return (uintptr_t)a->stream < (uintptr_t)b->stream;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  if (a->size != b->size) {
*da0073e9SAndroid Build Coastguard Worker    return a->size < b->size;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  return (uintptr_t)a->ptr < (uintptr_t)b->ptr;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Workerstatic bool BlockComparatorAddress(const Block* a, const Block* b) {
*da0073e9SAndroid Build Coastguard Worker  if (a->stream != b->stream) {
*da0073e9SAndroid Build Coastguard Worker    return (uintptr_t)a->stream < (uintptr_t)b->stream;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  return (uintptr_t)a->ptr < (uintptr_t)b->ptr;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstruct AllocParams {
*da0073e9SAndroid Build Coastguard Worker  AllocParams(
*da0073e9SAndroid Build Coastguard Worker      c10::DeviceIndex device,
*da0073e9SAndroid Build Coastguard Worker      size_t size,
*da0073e9SAndroid Build Coastguard Worker      cudaStream_t stream,
*da0073e9SAndroid Build Coastguard Worker      BlockPool* pool,
*da0073e9SAndroid Build Coastguard Worker      size_t alloc_size,
*da0073e9SAndroid Build Coastguard Worker      DeviceStats& stats)
*da0073e9SAndroid Build Coastguard Worker      : search_key(device, stream, size), pool(pool), alloc_size(alloc_size) {}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  c10::DeviceIndex device() const {
*da0073e9SAndroid Build Coastguard Worker    return search_key.device;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  cudaStream_t stream() const {
*da0073e9SAndroid Build Coastguard Worker    return search_key.stream;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  size_t size() const {
*da0073e9SAndroid Build Coastguard Worker    return search_key.size;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  Block search_key;
*da0073e9SAndroid Build Coastguard Worker  BlockPool* pool;
*da0073e9SAndroid Build Coastguard Worker  size_t alloc_size;
*da0073e9SAndroid Build Coastguard Worker  Block* block{nullptr};
*da0073e9SAndroid Build Coastguard Worker  StatTypes stat_types = {false};
*da0073e9SAndroid Build Coastguard Worker  cudaError_t err{cudaSuccess};
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// Note: cudaEventCreate when concurrently invoked from multiple threads can be
*da0073e9SAndroid Build Coastguard Worker// very expensive (at least on certain device/driver combinations). Thus, we a)
*da0073e9SAndroid Build Coastguard Worker// serialize event creation at a per-device level, and b) pool the events to
*da0073e9SAndroid Build Coastguard Worker// avoid constantly calling cudaEventCreate/cudaEventDestroy. This results in
*da0073e9SAndroid Build Coastguard Worker// significant improvements in multithreaded workloads with high allocation
*da0073e9SAndroid Build Coastguard Worker// rates.
*da0073e9SAndroid Build Coastguard Workerclass EventPool {
*da0073e9SAndroid Build Coastguard Worker public:
*da0073e9SAndroid Build Coastguard Worker  using Event = std::unique_ptr<cudaEvent_t, std::function<void(cudaEvent_t*)>>;
*da0073e9SAndroid Build Coastguard Worker  // TODO: Explicit device count
*da0073e9SAndroid Build Coastguard Worker  EventPool() : pools_(at::cuda::device_count()) {}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  Event get(c10::DeviceIndex device) {
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(0 <= device);
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(device < static_cast<int>(pools_.size()));
*da0073e9SAndroid Build Coastguard Worker    auto& pool = pools_[device];
*da0073e9SAndroid Build Coastguard Worker    auto destructor = [&pool](cudaEvent_t* event) {
*da0073e9SAndroid Build Coastguard Worker      std::lock_guard<std::mutex> g(pool.mutex_);
*da0073e9SAndroid Build Coastguard Worker      pool.event_pool_.push_back(std::unique_ptr<cudaEvent_t>(event));
*da0073e9SAndroid Build Coastguard Worker    };
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // Try to acquire an event from the per-device pool.
*da0073e9SAndroid Build Coastguard Worker    {
*da0073e9SAndroid Build Coastguard Worker      std::lock_guard<std::mutex> g(pool.mutex_);
*da0073e9SAndroid Build Coastguard Worker      if (!pool.event_pool_.empty()) {
*da0073e9SAndroid Build Coastguard Worker        auto* event = pool.event_pool_.back().release();
*da0073e9SAndroid Build Coastguard Worker        pool.event_pool_.pop_back();
*da0073e9SAndroid Build Coastguard Worker        return Event(event, destructor);
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    // otherwise, allocate a new event that will be returned to the pool on
*da0073e9SAndroid Build Coastguard Worker    // destruction.
*da0073e9SAndroid Build Coastguard Worker    auto new_ptr = std::make_unique<cudaEvent_t>();
*da0073e9SAndroid Build Coastguard Worker    C10_CUDA_CHECK(
*da0073e9SAndroid Build Coastguard Worker        cudaEventCreateWithFlags(new_ptr.get(), cudaEventDisableTiming));
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return Event(new_ptr.release(), destructor);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void empty_cache() {
*da0073e9SAndroid Build Coastguard Worker    for (auto& pool : pools_) {
*da0073e9SAndroid Build Coastguard Worker      std::lock_guard<std::mutex> g(pool.mutex_);
*da0073e9SAndroid Build Coastguard Worker      pool.event_pool_.clear();
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker private:
*da0073e9SAndroid Build Coastguard Worker  struct PerDevicePool {
*da0073e9SAndroid Build Coastguard Worker    alignas(64) std::mutex mutex_;
*da0073e9SAndroid Build Coastguard Worker    std::vector<std::unique_ptr<cudaEvent_t>> event_pool_;
*da0073e9SAndroid Build Coastguard Worker  };
*da0073e9SAndroid Build Coastguard Worker  std::vector<PerDevicePool> pools_;
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// CUDA graphs helper
*da0073e9SAndroid Build Coastguard Workerstruct PrivatePool {
*da0073e9SAndroid Build Coastguard Worker  PrivatePool()
*da0073e9SAndroid Build Coastguard Worker      : large_blocks(/*small=*/false, this),
*da0073e9SAndroid Build Coastguard Worker        small_blocks(/*small=*/true, this) {}
*da0073e9SAndroid Build Coastguard Worker  PrivatePool(const PrivatePool&) = delete;
*da0073e9SAndroid Build Coastguard Worker  PrivatePool(PrivatePool&&) = delete;
*da0073e9SAndroid Build Coastguard Worker  PrivatePool& operator=(const PrivatePool&) = delete;
*da0073e9SAndroid Build Coastguard Worker  // Number of live graphs using this pool
*da0073e9SAndroid Build Coastguard Worker  int use_count{1};
*da0073e9SAndroid Build Coastguard Worker  // Number of unfreed cudaMallocs made for this pool. When use_count and
*da0073e9SAndroid Build Coastguard Worker  // cudaMalloc_count drop to zero, we can delete this PrivatePool from
*da0073e9SAndroid Build Coastguard Worker  // graph_pools.
*da0073e9SAndroid Build Coastguard Worker  int cudaMalloc_count{0};
*da0073e9SAndroid Build Coastguard Worker  // Instead of maintaining private BlockPools here, I could stuff all blocks
*da0073e9SAndroid Build Coastguard Worker  // (private or no) into the top-level large_blocks and small_blocks, and
*da0073e9SAndroid Build Coastguard Worker  // distinguish private blocks by adding a "pool id" check above the stream
*da0073e9SAndroid Build Coastguard Worker  // check in BlockComparator. BlockComparator is performance- critical though,
*da0073e9SAndroid Build Coastguard Worker  // I'd rather not add more logic to it.
*da0073e9SAndroid Build Coastguard Worker  BlockPool large_blocks;
*da0073e9SAndroid Build Coastguard Worker  BlockPool small_blocks;
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerBlockState::BlockState(Block* block)
*da0073e9SAndroid Build Coastguard Worker    : device(block->device),
*da0073e9SAndroid Build Coastguard Worker      stream(block->stream),
*da0073e9SAndroid Build Coastguard Worker      stream_uses(block->stream_uses),
*da0073e9SAndroid Build Coastguard Worker      size(block->size),
*da0073e9SAndroid Build Coastguard Worker      ptr(block->ptr),
*da0073e9SAndroid Build Coastguard Worker      allocated(block->allocated),
*da0073e9SAndroid Build Coastguard Worker      gc_count_base(block->gc_count_base) {
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(
*da0073e9SAndroid Build Coastguard Worker      block->event_count == 0,
*da0073e9SAndroid Build Coastguard Worker      "Events should have synchronized when checkpointing block");
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerSegmentState::SegmentState(Block* head) {
*da0073e9SAndroid Build Coastguard Worker  TORCH_INTERNAL_ASSERT(head->prev == nullptr && head->pool != nullptr);
*da0073e9SAndroid Build Coastguard Worker  is_small = head->pool->is_small;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  for (Block* curr = head; curr != nullptr; curr = curr->next) {
*da0073e9SAndroid Build Coastguard Worker    blocks.emplace_back(curr);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerPrivatePoolState::PrivatePoolState(
*da0073e9SAndroid Build Coastguard Worker    MempoolId_t pool_id,
*da0073e9SAndroid Build Coastguard Worker    const std::vector<Block*>& private_pool_head_blocks)
*da0073e9SAndroid Build Coastguard Worker    : owner_id(std::move(pool_id)) {
*da0073e9SAndroid Build Coastguard Worker  for (Block* head : private_pool_head_blocks) {
*da0073e9SAndroid Build Coastguard Worker    segments.emplace_back(head);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstruct MempoolIdHash {
*da0073e9SAndroid Build Coastguard Worker  std::size_t operator()(const MempoolId_t& mempool_id) const noexcept {
*da0073e9SAndroid Build Coastguard Worker    return mempool_id.first != 0 ? mempool_id.first : mempool_id.second;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkercudaError_t cudaMallocMaybeCapturing(void** p, size_t size) {
*da0073e9SAndroid Build Coastguard Worker  if (at::cuda::currentStreamCaptureStatusMayInitCtx() ==
*da0073e9SAndroid Build Coastguard Worker      at::cuda::CaptureStatus::None) {
*da0073e9SAndroid Build Coastguard Worker    return C10_CUDA_ERROR_HANDLED(cudaMalloc(p, size));
*da0073e9SAndroid Build Coastguard Worker  } else {
*da0073e9SAndroid Build Coastguard Worker    // It's ok to capture cudaMallocs, as long as we never cudaFree those
*da0073e9SAndroid Build Coastguard Worker    // addresses before replay.
*da0073e9SAndroid Build Coastguard Worker    // Capturing cudaMalloc behaves nicely: it gives the graph new VA,
*da0073e9SAndroid Build Coastguard Worker    // but is ignored (won't leakily allocate new memory) in replays.
*da0073e9SAndroid Build Coastguard Worker    at::cuda::CUDAStreamCaptureModeGuard g{cudaStreamCaptureModeRelaxed};
*da0073e9SAndroid Build Coastguard Worker    return C10_CUDA_ERROR_HANDLED(cudaMalloc(p, size));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertemplate <class T>
*da0073e9SAndroid Build Coastguard Workerclass RingBuffer {
*da0073e9SAndroid Build Coastguard Worker public:
*da0073e9SAndroid Build Coastguard Worker  RingBuffer() {
*da0073e9SAndroid Build Coastguard Worker    // alloc_trace is a pointer because we need to intentionally
*da0073e9SAndroid Build Coastguard Worker    // leak this on deallocation it can hold references to Python
*da0073e9SAndroid Build Coastguard Worker    // state which will already be destroyed when we are in exit handlers
*da0073e9SAndroid Build Coastguard Worker    // NOLINTNEXTLINE(cppcoreguidelines-prefer-member-initializer)
*da0073e9SAndroid Build Coastguard Worker    alloc_trace = new std::vector<T>();
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void setMaxEntries(size_t size) {
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::mutex> lk(alloc_trace_lock);
*da0073e9SAndroid Build Coastguard Worker    alloc_trace_max_entries_ = std::max(size_t(1), size);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void insertEntries(const T& entry) {
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::mutex> lk(alloc_trace_lock);
*da0073e9SAndroid Build Coastguard Worker    if (alloc_trace->size() < alloc_trace_max_entries_) {
*da0073e9SAndroid Build Coastguard Worker      alloc_trace->emplace_back(entry);
*da0073e9SAndroid Build Coastguard Worker    } else {
*da0073e9SAndroid Build Coastguard Worker      (*alloc_trace)[alloc_trace_next++] = entry;
*da0073e9SAndroid Build Coastguard Worker      if (alloc_trace_next == alloc_trace_max_entries_) {
*da0073e9SAndroid Build Coastguard Worker        alloc_trace_next = 0;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void getEntries(std::vector<T>& result) {
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::mutex> lk(alloc_trace_lock);
*da0073e9SAndroid Build Coastguard Worker    result.reserve(alloc_trace->size());
*da0073e9SAndroid Build Coastguard Worker    result.insert(
*da0073e9SAndroid Build Coastguard Worker        result.end(),
*da0073e9SAndroid Build Coastguard Worker        alloc_trace->begin() +
*da0073e9SAndroid Build Coastguard Worker            static_cast<typename std::vector<T>::difference_type>(
*da0073e9SAndroid Build Coastguard Worker                alloc_trace_next),
*da0073e9SAndroid Build Coastguard Worker        alloc_trace->end());
*da0073e9SAndroid Build Coastguard Worker    result.insert(
*da0073e9SAndroid Build Coastguard Worker        result.end(),
*da0073e9SAndroid Build Coastguard Worker        alloc_trace->begin(),
*da0073e9SAndroid Build Coastguard Worker        alloc_trace->begin() +
*da0073e9SAndroid Build Coastguard Worker            static_cast<typename std::vector<T>::difference_type>(
*da0073e9SAndroid Build Coastguard Worker                alloc_trace_next));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void clear() {
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::mutex> lk(alloc_trace_lock);
*da0073e9SAndroid Build Coastguard Worker    alloc_trace_next = 0;
*da0073e9SAndroid Build Coastguard Worker    alloc_trace->clear();
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker private:
*da0073e9SAndroid Build Coastguard Worker  size_t alloc_trace_max_entries_ = 1;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Both alloc_trace and alloc_trace_next needs to be used
*da0073e9SAndroid Build Coastguard Worker  // under alloc_trace_lock.
*da0073e9SAndroid Build Coastguard Worker  std::mutex alloc_trace_lock;
*da0073e9SAndroid Build Coastguard Worker  size_t alloc_trace_next = 0;
*da0073e9SAndroid Build Coastguard Worker  std::vector<T>*
*da0073e9SAndroid Build Coastguard Worker      alloc_trace; // pointer because we need to intentionally leak this on
*da0073e9SAndroid Build Coastguard Worker                   // deallocation it can hold references to Python state which
*da0073e9SAndroid Build Coastguard Worker                   // will already be destroyed when we are in exit handlers
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker} // anonymous namespace
*da0073e9SAndroid Build Coastguard Worker} // namespace Native
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstatic std::string reportProcessMemoryInfo(c10::DeviceIndex device) {
*da0073e9SAndroid Build Coastguard Worker#ifdef PYTORCH_C10_DRIVER_API_SUPPORTED
*da0073e9SAndroid Build Coastguard Worker  void* nvml_handle = DriverAPI::get_nvml_handle();
*da0073e9SAndroid Build Coastguard Worker  if (!nvml_handle) {
*da0073e9SAndroid Build Coastguard Worker    return "";
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  static c10::once_flag nvml_init;
*da0073e9SAndroid Build Coastguard Worker  c10::call_once(nvml_init, [] {
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(NVML_SUCCESS == DriverAPI::get()->nvmlInit_v2_());
*da0073e9SAndroid Build Coastguard Worker  });
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  cudaDeviceProp prop{};
*da0073e9SAndroid Build Coastguard Worker  C10_CUDA_CHECK(cudaGetDeviceProperties(&prop, device));
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // NOLINTNEXTLINE(*-c-arrays)
*da0073e9SAndroid Build Coastguard Worker  char pci_id[80];
*da0073e9SAndroid Build Coastguard Worker  snprintf(
*da0073e9SAndroid Build Coastguard Worker      pci_id,
*da0073e9SAndroid Build Coastguard Worker      sizeof(pci_id),
*da0073e9SAndroid Build Coastguard Worker      NVML_DEVICE_PCI_BUS_ID_FMT,
*da0073e9SAndroid Build Coastguard Worker      prop.pciDomainID,
*da0073e9SAndroid Build Coastguard Worker      prop.pciBusID,
*da0073e9SAndroid Build Coastguard Worker      prop.pciDeviceID);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  nvmlDevice_t nvml_device = nullptr;
*da0073e9SAndroid Build Coastguard Worker  TORCH_INTERNAL_ASSERT(
*da0073e9SAndroid Build Coastguard Worker      NVML_SUCCESS ==
*da0073e9SAndroid Build Coastguard Worker      DriverAPI::get()->nvmlDeviceGetHandleByPciBusId_v2_(
*da0073e9SAndroid Build Coastguard Worker          pci_id, &nvml_device));
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  std::vector<nvmlProcessInfo_v1_t> procs(8);
*da0073e9SAndroid Build Coastguard Worker  unsigned int size = procs.size();
*da0073e9SAndroid Build Coastguard Worker  nvmlReturn_t r{};
*da0073e9SAndroid Build Coastguard Worker  while ((r = DriverAPI::get()->nvmlDeviceGetComputeRunningProcesses_(
*da0073e9SAndroid Build Coastguard Worker              nvml_device, &size, procs.data())) ==
*da0073e9SAndroid Build Coastguard Worker         NVML_ERROR_INSUFFICIENT_SIZE) {
*da0073e9SAndroid Build Coastguard Worker    procs.resize(size);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  unsigned int self_pid = getpid();
*da0073e9SAndroid Build Coastguard Worker  std::stringstream ss;
*da0073e9SAndroid Build Coastguard Worker  TORCH_INTERNAL_ASSERT(NVML_SUCCESS == r);
*da0073e9SAndroid Build Coastguard Worker  ss << "";
*da0073e9SAndroid Build Coastguard Worker  for (auto i : c10::irange(size)) {
*da0073e9SAndroid Build Coastguard Worker    auto& proc = procs[i];
*da0073e9SAndroid Build Coastguard Worker    if (self_pid == proc.pid) {
*da0073e9SAndroid Build Coastguard Worker      ss << "Including non-PyTorch memory, this process";
*da0073e9SAndroid Build Coastguard Worker    } else {
*da0073e9SAndroid Build Coastguard Worker      ss << "Process " << proc.pid;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    ss << " has " << format_size(proc.usedGpuMemory) << " memory in use. ";
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  return ss.str();
*da0073e9SAndroid Build Coastguard Worker#else
*da0073e9SAndroid Build Coastguard Worker  return "";
*da0073e9SAndroid Build Coastguard Worker#endif
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workernamespace Native {
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass DeviceCachingAllocator {
*da0073e9SAndroid Build Coastguard Worker private:
*da0073e9SAndroid Build Coastguard Worker  // lock around all operations
*da0073e9SAndroid Build Coastguard Worker  mutable std::recursive_mutex mutex;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // device statistics
*da0073e9SAndroid Build Coastguard Worker  DeviceStats stats;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // unallocated cached blocks larger than 1 MB
*da0073e9SAndroid Build Coastguard Worker  BlockPool large_blocks;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // unallocated cached blocks 1 MB or smaller
*da0073e9SAndroid Build Coastguard Worker  BlockPool small_blocks;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // allocated or in use by a stream. Holds all active allocations,
*da0073e9SAndroid Build Coastguard Worker  // whether they came from graph_pools or one of the BlockPools above.
*da0073e9SAndroid Build Coastguard Worker  ska::flat_hash_set<Block*> active_blocks;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // captures_underway tracks if we are diverting some
*da0073e9SAndroid Build Coastguard Worker  // allocations to a specific pool.
*da0073e9SAndroid Build Coastguard Worker  // Most of the time it's empty, in which case malloc can avoid calling
*da0073e9SAndroid Build Coastguard Worker  // cudaStreamGetCaptureInfo in the hot path.
*da0073e9SAndroid Build Coastguard Worker  std::vector<std::pair<MempoolId_t, std::function<bool(cudaStream_t)>>>
*da0073e9SAndroid Build Coastguard Worker      captures_underway;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // See free() for this thing's purpose
*da0073e9SAndroid Build Coastguard Worker  std::vector<Block*> needs_events_deferred_until_no_capture;
*da0073e9SAndroid Build Coastguard Worker  // outstanding cuda events
*da0073e9SAndroid Build Coastguard Worker  ska::flat_hash_map<
*da0073e9SAndroid Build Coastguard Worker      cuda::CUDAStream,
*da0073e9SAndroid Build Coastguard Worker      std::deque<std::pair<EventPool::Event, Block*>>>
*da0073e9SAndroid Build Coastguard Worker      cuda_events;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // record used memory.
*da0073e9SAndroid Build Coastguard Worker  size_t total_allocated_memory = 0;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  size_t allowed_memory_maximum = 0;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // all live expandable segments
*da0073e9SAndroid Build Coastguard Worker  std::vector<ExpandableSegment*> expandable_segments_;
*da0073e9SAndroid Build Coastguard Worker  std::vector<c10::DeviceIndex> devices_with_peer_access_;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  bool set_fraction = false;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  bool record_history = false;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  std::atomic<CreateContextFn> context_recorder_;
*da0073e9SAndroid Build Coastguard Worker  RecordContext record_context_ = RecordContext::NEVER;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Ring buffer for memory snapshot TraceEntry's
*da0073e9SAndroid Build Coastguard Worker  RingBuffer<TraceEntry> alloc_buffer;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Members specific to CUDA graphs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Private pools for CUDA graphs
*da0073e9SAndroid Build Coastguard Worker  ska::flat_hash_map<MempoolId_t, std::unique_ptr<PrivatePool>, MempoolIdHash>
*da0073e9SAndroid Build Coastguard Worker      graph_pools;
*da0073e9SAndroid Build Coastguard Worker  // Pools no longer referenced by any graph. Their BlockPools are eligible for
*da0073e9SAndroid Build Coastguard Worker  // free_blocks. Can't be a vector or deque because we might erase entries in
*da0073e9SAndroid Build Coastguard Worker  // any order. Could be an std::list, but we don't care much, access and
*da0073e9SAndroid Build Coastguard Worker  // insert/erase are rare.
*da0073e9SAndroid Build Coastguard Worker  ska::flat_hash_map<MempoolId_t, PrivatePool*, MempoolIdHash>
*da0073e9SAndroid Build Coastguard Worker      graph_pools_freeable;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // XXX - maybe we should generalize and have multiple events
*da0073e9SAndroid Build Coastguard Worker  std::vector<OutOfMemoryObserver> oom_observers_;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  std::vector<AllocatorTraceTracker> trace_trackers_;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // mapping from block to a stream_set, containing streams on which the block
*da0073e9SAndroid Build Coastguard Worker  // was used while cudagraph capturing
*da0073e9SAndroid Build Coastguard Worker  std::unordered_map<Block*, stream_set> block_to_cudagraph_stream_uses;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker public:
*da0073e9SAndroid Build Coastguard Worker  // NOLINTNEXTLINE(cppcoreguidelines-pro-type-member-init)
*da0073e9SAndroid Build Coastguard Worker  DeviceCachingAllocator()
*da0073e9SAndroid Build Coastguard Worker      : large_blocks(/*small=*/false), small_blocks(/*small=*/true) {
*da0073e9SAndroid Build Coastguard Worker    stats.max_split_size =
*da0073e9SAndroid Build Coastguard Worker        static_cast<int64_t>(CUDAAllocatorConfig::max_split_size());
*da0073e9SAndroid Build Coastguard Worker    context_recorder_.store(nullptr);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void recordHistory(
*da0073e9SAndroid Build Coastguard Worker      bool enabled,
*da0073e9SAndroid Build Coastguard Worker      CreateContextFn context_recorder,
*da0073e9SAndroid Build Coastguard Worker      size_t alloc_buffer_max_entries,
*da0073e9SAndroid Build Coastguard Worker      RecordContext when) {
*da0073e9SAndroid Build Coastguard Worker    std::unique_lock<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker    TORCH_CHECK(when == RecordContext::NEVER || context_recorder);
*da0073e9SAndroid Build Coastguard Worker    record_history = enabled;
*da0073e9SAndroid Build Coastguard Worker    context_recorder_.store(record_history ? context_recorder : nullptr);
*da0073e9SAndroid Build Coastguard Worker    alloc_buffer.setMaxEntries(alloc_buffer_max_entries);
*da0073e9SAndroid Build Coastguard Worker    record_context_ = enabled ? when : RecordContext::NEVER;
*da0073e9SAndroid Build Coastguard Worker    if (!enabled) {
*da0073e9SAndroid Build Coastguard Worker      alloc_buffer.clear();
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  bool isHistoryEnabled() {
*da0073e9SAndroid Build Coastguard Worker    return record_history;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  bool checkPoolLiveAllocations(
*da0073e9SAndroid Build Coastguard Worker      MempoolId_t mempool_id,
*da0073e9SAndroid Build Coastguard Worker      const std::unordered_set<void*>& expected_live_allocations) {
*da0073e9SAndroid Build Coastguard Worker    std::unique_lock<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    PrivatePool* pool = nullptr;
*da0073e9SAndroid Build Coastguard Worker    auto pool_it = graph_pools.find(mempool_id);
*da0073e9SAndroid Build Coastguard Worker    TORCH_CHECK(pool_it != graph_pools.end(), "Could not find pool of id");
*da0073e9SAndroid Build Coastguard Worker    pool = pool_it->second.get();
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(pool != nullptr);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    size_t allocated_pool_blocks = 0;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    for (Block* b : active_blocks) {
*da0073e9SAndroid Build Coastguard Worker      TORCH_INTERNAL_ASSERT(b != nullptr);
*da0073e9SAndroid Build Coastguard Worker      TORCH_INTERNAL_ASSERT(b->pool != nullptr);
*da0073e9SAndroid Build Coastguard Worker      if (b->allocated && b->pool->owner_PrivatePool == pool) {
*da0073e9SAndroid Build Coastguard Worker        if (!expected_live_allocations.count(b->ptr)) {
*da0073e9SAndroid Build Coastguard Worker          return false;
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        allocated_pool_blocks += 1;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return allocated_pool_blocks == expected_live_allocations.size();
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void attachOutOfMemoryObserver(OutOfMemoryObserver observer) {
*da0073e9SAndroid Build Coastguard Worker    oom_observers_.emplace_back(std::move(observer));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void attachAllocatorTraceTracker(AllocatorTraceTracker tracker) {
*da0073e9SAndroid Build Coastguard Worker    std::unique_lock<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker    trace_trackers_.emplace_back(std::move(tracker));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Must be called outside of `mutex` or deadlocks are possible with Python
*da0073e9SAndroid Build Coastguard Worker  std::shared_ptr<GatheredContext> maybeGatherContext(RecordContext level) {
*da0073e9SAndroid Build Coastguard Worker    if (record_context_ < level) {
*da0073e9SAndroid Build Coastguard Worker      return nullptr;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    return context_recorder_.load()();
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // All public methods (except the above) acquire the allocator mutex.
*da0073e9SAndroid Build Coastguard Worker  // Thus, do not call a public method from another public method.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  Block* malloc(
*da0073e9SAndroid Build Coastguard Worker      c10::DeviceIndex device,
*da0073e9SAndroid Build Coastguard Worker      size_t orig_size,
*da0073e9SAndroid Build Coastguard Worker      cudaStream_t stream) {
*da0073e9SAndroid Build Coastguard Worker    // done outside the lock because we don't know what locks the recorder needs
*da0073e9SAndroid Build Coastguard Worker    // to have...
*da0073e9SAndroid Build Coastguard Worker    auto context = maybeGatherContext(RecordContext::STATE);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    std::unique_lock<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if (C10_LIKELY(captures_underway.empty())) {
*da0073e9SAndroid Build Coastguard Worker      // Processes end-of-life events for outstanding allocations used on
*da0073e9SAndroid Build Coastguard Worker      // multiple streams (checks if their GPU-side uses are complete and
*da0073e9SAndroid Build Coastguard Worker      // recycles their memory if so)
*da0073e9SAndroid Build Coastguard Worker      //
*da0073e9SAndroid Build Coastguard Worker      // Q. Why skip process_events if a capture might be underway?
*da0073e9SAndroid Build Coastguard Worker      // A. process_events involves cudaEventQueries, illegal during CUDA graph
*da0073e9SAndroid Build Coastguard Worker      //    capture.
*da0073e9SAndroid Build Coastguard Worker      //    Dumb simple solution: defer reclaiming these allocations until after
*da0073e9SAndroid Build Coastguard Worker      //    capture. Cross-stream memory use is uncommon, so the deferral's
*da0073e9SAndroid Build Coastguard Worker      //    effect on memory use during capture should be small.
*da0073e9SAndroid Build Coastguard Worker      process_events(context);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    size_t size = round_size(orig_size);
*da0073e9SAndroid Build Coastguard Worker    auto& pool = get_pool(size, stream);
*da0073e9SAndroid Build Coastguard Worker    const size_t alloc_size = get_allocation_size(size);
*da0073e9SAndroid Build Coastguard Worker    AllocParams params(device, size, stream, &pool, alloc_size, stats);
*da0073e9SAndroid Build Coastguard Worker    params.stat_types = get_stat_types_for_pool(pool);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // First, try to get a block from the existing pool.
*da0073e9SAndroid Build Coastguard Worker    bool block_found =
*da0073e9SAndroid Build Coastguard Worker        // Search pool
*da0073e9SAndroid Build Coastguard Worker        get_free_block(params)
*da0073e9SAndroid Build Coastguard Worker        // Trigger callbacks and retry search
*da0073e9SAndroid Build Coastguard Worker        || (trigger_free_memory_callbacks(params) && get_free_block(params));
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // Can't reuse an existing block; try to get a new one.
*da0073e9SAndroid Build Coastguard Worker    if (!block_found) {
*da0073e9SAndroid Build Coastguard Worker      // Do garbage collection if the flag is set.
*da0073e9SAndroid Build Coastguard Worker      if (C10_UNLIKELY(
*da0073e9SAndroid Build Coastguard Worker              set_fraction &&
*da0073e9SAndroid Build Coastguard Worker              CUDAAllocatorConfig::garbage_collection_threshold() > 0.0)) {
*da0073e9SAndroid Build Coastguard Worker        garbage_collect_cached_blocks(context);
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      // Attempt allocate
*da0073e9SAndroid Build Coastguard Worker      // WARNING: alloc_block may release the allocator lock when calling
*da0073e9SAndroid Build Coastguard Worker      // cudaMalloc. So far this function has not modified allocator state, but
*da0073e9SAndroid Build Coastguard Worker      // keep in mind that any observed allocator state may change across calls
*da0073e9SAndroid Build Coastguard Worker      // to alloc_block since it may release the lock.
*da0073e9SAndroid Build Coastguard Worker      block_found = alloc_block(params, false, context, lock)
*da0073e9SAndroid Build Coastguard Worker          // Free enough available cached blocks to satisfy alloc and retry
*da0073e9SAndroid Build Coastguard Worker          // alloc.
*da0073e9SAndroid Build Coastguard Worker          || (release_available_cached_blocks(params, context) &&
*da0073e9SAndroid Build Coastguard Worker              alloc_block(params, false, context, lock))
*da0073e9SAndroid Build Coastguard Worker          // Free all non-split cached blocks and retry alloc.
*da0073e9SAndroid Build Coastguard Worker          || (C10_LIKELY(captures_underway.empty()) &&
*da0073e9SAndroid Build Coastguard Worker              release_cached_blocks(context) &&
*da0073e9SAndroid Build Coastguard Worker              alloc_block(params, true, context, lock));
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if (!block_found) {
*da0073e9SAndroid Build Coastguard Worker      // For any error code other than cudaErrorMemoryAllocation,
*da0073e9SAndroid Build Coastguard Worker      // alloc_block should have thrown an exception already.
*da0073e9SAndroid Build Coastguard Worker      TORCH_INTERNAL_ASSERT(params.err == cudaErrorMemoryAllocation);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      size_t device_free = 0;
*da0073e9SAndroid Build Coastguard Worker      size_t device_total = 0;
*da0073e9SAndroid Build Coastguard Worker      C10_CUDA_CHECK(cudaMemGetInfo(&device_free, &device_total));
*da0073e9SAndroid Build Coastguard Worker      std::string allowed_info;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      if (set_fraction) {
*da0073e9SAndroid Build Coastguard Worker        allowed_info = format_size(allowed_memory_maximum) + " allowed; ";
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      std::string proc_info = reportProcessMemoryInfo(device);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      record_trace(
*da0073e9SAndroid Build Coastguard Worker          TraceEntry::OOM,
*da0073e9SAndroid Build Coastguard Worker          device_free,
*da0073e9SAndroid Build Coastguard Worker          params.size(),
*da0073e9SAndroid Build Coastguard Worker          params.stream(),
*da0073e9SAndroid Build Coastguard Worker          params.device(),
*da0073e9SAndroid Build Coastguard Worker          std::move(context));
*da0073e9SAndroid Build Coastguard Worker      stats.num_ooms += 1;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      c10::reportOutOfMemoryToProfiler(
*da0073e9SAndroid Build Coastguard Worker          static_cast<int64_t>(size),
*da0073e9SAndroid Build Coastguard Worker          stats.allocated_bytes[static_cast<int64_t>(StatType::AGGREGATE)]
*da0073e9SAndroid Build Coastguard Worker              .current,
*da0073e9SAndroid Build Coastguard Worker          stats.reserved_bytes[static_cast<int64_t>(StatType::AGGREGATE)]
*da0073e9SAndroid Build Coastguard Worker              .current,
*da0073e9SAndroid Build Coastguard Worker          c10::Device(c10::DeviceType::CUDA, device));
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      auto allocated_bytes =
*da0073e9SAndroid Build Coastguard Worker          stats.allocated_bytes[static_cast<size_t>(StatType::AGGREGATE)]
*da0073e9SAndroid Build Coastguard Worker              .current;
*da0073e9SAndroid Build Coastguard Worker      auto reserved_bytes =
*da0073e9SAndroid Build Coastguard Worker          stats.reserved_bytes[static_cast<size_t>(StatType::AGGREGATE)]
*da0073e9SAndroid Build Coastguard Worker              .current;
*da0073e9SAndroid Build Coastguard Worker      auto observers_local = oom_observers_;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      size_t allocated_in_private_pools = 0;
*da0073e9SAndroid Build Coastguard Worker      auto get_size_block = [](const BlockPool& pool) {
*da0073e9SAndroid Build Coastguard Worker        size_t res = 0;
*da0073e9SAndroid Build Coastguard Worker        for (const auto& block : pool.blocks) {
*da0073e9SAndroid Build Coastguard Worker          res += block->size;
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker        return res;
*da0073e9SAndroid Build Coastguard Worker      };
*da0073e9SAndroid Build Coastguard Worker      for (const auto& p : graph_pools) {
*da0073e9SAndroid Build Coastguard Worker        allocated_in_private_pools += get_size_block(p.second->large_blocks);
*da0073e9SAndroid Build Coastguard Worker        allocated_in_private_pools += get_size_block(p.second->small_blocks);
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      std::string private_pool_msg;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      if (allocated_in_private_pools > 0) {
*da0073e9SAndroid Build Coastguard Worker        private_pool_msg = "with " + format_size(allocated_in_private_pools) +
*da0073e9SAndroid Build Coastguard Worker            " allocated in private pools (e.g., CUDA Graphs), ";
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      // Make sure we do not have the device lock before calling our
*da0073e9SAndroid Build Coastguard Worker      // observers which might need hold the GIL
*da0073e9SAndroid Build Coastguard Worker      // It is safe to release at this point because will no longer
*da0073e9SAndroid Build Coastguard Worker      // be reading any allocator state.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      lock.unlock();
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      for (const auto& obs : observers_local) {
*da0073e9SAndroid Build Coastguard Worker        obs(device,
*da0073e9SAndroid Build Coastguard Worker            alloc_size,
*da0073e9SAndroid Build Coastguard Worker            set_fraction ? allowed_memory_maximum : device_total,
*da0073e9SAndroid Build Coastguard Worker            device_free);
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      // "total capacity": total global memory on GPU
*da0073e9SAndroid Build Coastguard Worker      // "allowed": memory is allowed to use, which set by fraction.
*da0073e9SAndroid Build Coastguard Worker      // "already allocated": memory allocated by the program using the
*da0073e9SAndroid Build Coastguard Worker      //                      caching allocator
*da0073e9SAndroid Build Coastguard Worker      // "free": free memory as reported by the CUDA API
*da0073e9SAndroid Build Coastguard Worker      // "cached": memory held by the allocator but not used by the program
*da0073e9SAndroid Build Coastguard Worker      //
*da0073e9SAndroid Build Coastguard Worker      // The "allocated" amount  does not include memory allocated outside
*da0073e9SAndroid Build Coastguard Worker      // of the caching allocator, such as memory allocated by other programs
*da0073e9SAndroid Build Coastguard Worker      // or memory held by the driver.
*da0073e9SAndroid Build Coastguard Worker      //
*da0073e9SAndroid Build Coastguard Worker      // The sum of "allocated" + "free" + "cached" may be less than the
*da0073e9SAndroid Build Coastguard Worker      // total capacity due to memory held by the driver and usage by other
*da0073e9SAndroid Build Coastguard Worker      // programs.
*da0073e9SAndroid Build Coastguard Worker      //
*da0073e9SAndroid Build Coastguard Worker      // Note that at this point free_cached_blocks has already returned all
*da0073e9SAndroid Build Coastguard Worker      // possible "cached" memory to the driver. The only remaining "cached"
*da0073e9SAndroid Build Coastguard Worker      // memory is split from a larger block that is partially in-use.
*da0073e9SAndroid Build Coastguard Worker      TORCH_CHECK_WITH(
*da0073e9SAndroid Build Coastguard Worker          OutOfMemoryError,
*da0073e9SAndroid Build Coastguard Worker          false,
*da0073e9SAndroid Build Coastguard Worker          "CUDA out of memory. Tried to allocate ",
*da0073e9SAndroid Build Coastguard Worker          format_size(alloc_size),
*da0073e9SAndroid Build Coastguard Worker          ". GPU ",
*da0073e9SAndroid Build Coastguard Worker          static_cast<int>(device),
*da0073e9SAndroid Build Coastguard Worker          " has a total capacity of ",
*da0073e9SAndroid Build Coastguard Worker          format_size(device_total),
*da0073e9SAndroid Build Coastguard Worker          " of which ",
*da0073e9SAndroid Build Coastguard Worker          format_size(device_free),
*da0073e9SAndroid Build Coastguard Worker          " is free. ",
*da0073e9SAndroid Build Coastguard Worker          proc_info,
*da0073e9SAndroid Build Coastguard Worker          allowed_info,
*da0073e9SAndroid Build Coastguard Worker          "Of the allocated memory ",
*da0073e9SAndroid Build Coastguard Worker          format_size(allocated_bytes + allocated_in_private_pools),
*da0073e9SAndroid Build Coastguard Worker          " is allocated by PyTorch, ",
*da0073e9SAndroid Build Coastguard Worker          private_pool_msg,
*da0073e9SAndroid Build Coastguard Worker          "and ",
*da0073e9SAndroid Build Coastguard Worker          format_size(
*da0073e9SAndroid Build Coastguard Worker              reserved_bytes - allocated_bytes - allocated_in_private_pools),
*da0073e9SAndroid Build Coastguard Worker          " is reserved by PyTorch but unallocated.",
*da0073e9SAndroid Build Coastguard Worker          " If reserved but unallocated memory is large try setting",
*da0073e9SAndroid Build Coastguard Worker          " PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid"
*da0073e9SAndroid Build Coastguard Worker          " fragmentation.  See documentation for Memory Management "
*da0073e9SAndroid Build Coastguard Worker          " (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)");
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    bool split_remainder = should_split(params.block, params.size());
*da0073e9SAndroid Build Coastguard Worker    return alloc_found_block(
*da0073e9SAndroid Build Coastguard Worker        params, orig_size, std::move(context), split_remainder);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  Block* alloc_found_block(
*da0073e9SAndroid Build Coastguard Worker      const AllocParams& params,
*da0073e9SAndroid Build Coastguard Worker      size_t orig_size,
*da0073e9SAndroid Build Coastguard Worker      std::shared_ptr<GatheredContext> context,
*da0073e9SAndroid Build Coastguard Worker      bool split_remainder) {
*da0073e9SAndroid Build Coastguard Worker    auto size = params.size();
*da0073e9SAndroid Build Coastguard Worker    auto device = params.device();
*da0073e9SAndroid Build Coastguard Worker    auto pool = params.pool;
*da0073e9SAndroid Build Coastguard Worker    auto stream = params.stream();
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(
*da0073e9SAndroid Build Coastguard Worker        params.err == cudaSuccess && params.block != nullptr &&
*da0073e9SAndroid Build Coastguard Worker        params.block->ptr != nullptr);
*da0073e9SAndroid Build Coastguard Worker    Block* block = params.block;
*da0073e9SAndroid Build Coastguard Worker    Block* remaining = nullptr;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    const bool already_split = block->is_split();
*da0073e9SAndroid Build Coastguard Worker    if (split_remainder) {
*da0073e9SAndroid Build Coastguard Worker      remaining = block;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      block = new Block(device, stream, size, pool, block->ptr);
*da0073e9SAndroid Build Coastguard Worker      block->expandable_segment_ = remaining->expandable_segment_;
*da0073e9SAndroid Build Coastguard Worker      block->prev = remaining->prev;
*da0073e9SAndroid Build Coastguard Worker      if (block->prev) {
*da0073e9SAndroid Build Coastguard Worker        block->prev->next = block;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      block->next = remaining;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      remaining->prev = block;
*da0073e9SAndroid Build Coastguard Worker      remaining->ptr = static_cast<char*>(remaining->ptr) + size;
*da0073e9SAndroid Build Coastguard Worker      remaining->size -= size;
*da0073e9SAndroid Build Coastguard Worker      // NOLINTNEXTLINE(clang-analyzer-deadcode.DeadStores)
*da0073e9SAndroid Build Coastguard Worker      bool inserted = pool->insert_into_blocks(remaining).second;
*da0073e9SAndroid Build Coastguard Worker      TORCH_INTERNAL_ASSERT_DEBUG_ONLY(inserted);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      if (already_split && !block->expandable_segment_) {
*da0073e9SAndroid Build Coastguard Worker        // An already-split inactive block is being shrunk by size bytes.
*da0073e9SAndroid Build Coastguard Worker        decrease_stat_array(
*da0073e9SAndroid Build Coastguard Worker            stats.inactive_split_bytes, block->size, params.stat_types);
*da0073e9SAndroid Build Coastguard Worker      } else if (!block->expandable_segment_) {
*da0073e9SAndroid Build Coastguard Worker        // A new split inactive block is being created from a previously unsplit
*da0073e9SAndroid Build Coastguard Worker        // block, size remaining->size bytes.
*da0073e9SAndroid Build Coastguard Worker        for_each_selected_stat_type(params.stat_types, [&](size_t stat_type) {
*da0073e9SAndroid Build Coastguard Worker          stats.inactive_split_bytes[stat_type].increase(remaining->size);
*da0073e9SAndroid Build Coastguard Worker          stats.inactive_split[stat_type].increase(1);
*da0073e9SAndroid Build Coastguard Worker        });
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    } else if (already_split && !block->expandable_segment_) {
*da0073e9SAndroid Build Coastguard Worker      // An already-split block is becoming active
*da0073e9SAndroid Build Coastguard Worker      for_each_selected_stat_type(params.stat_types, [&](size_t stat_type) {
*da0073e9SAndroid Build Coastguard Worker        stats.inactive_split_bytes[stat_type].decrease(block->size);
*da0073e9SAndroid Build Coastguard Worker        stats.inactive_split[stat_type].decrease(1);
*da0073e9SAndroid Build Coastguard Worker      });
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    block->allocated = true;
*da0073e9SAndroid Build Coastguard Worker    block->requested_size = orig_size;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    block->context_when_allocated = std::move(context);
*da0073e9SAndroid Build Coastguard Worker    record_trace(
*da0073e9SAndroid Build Coastguard Worker        TraceEntry::ALLOC,
*da0073e9SAndroid Build Coastguard Worker        int64_t(block->ptr),
*da0073e9SAndroid Build Coastguard Worker        orig_size,
*da0073e9SAndroid Build Coastguard Worker        block->stream,
*da0073e9SAndroid Build Coastguard Worker        block->device,
*da0073e9SAndroid Build Coastguard Worker        block->context_when_allocated);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // NOLINTNEXTLINE(clang-analyzer-deadcode.DeadStores)
*da0073e9SAndroid Build Coastguard Worker    bool inserted = active_blocks.insert(block).second;
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT_DEBUG_ONLY(inserted);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    for_each_selected_stat_type(params.stat_types, [&](size_t stat_type) {
*da0073e9SAndroid Build Coastguard Worker      stats.allocation[stat_type].increase(1);
*da0073e9SAndroid Build Coastguard Worker      stats.allocated_bytes[stat_type].increase(block->size);
*da0073e9SAndroid Build Coastguard Worker      stats.active[stat_type].increase(1);
*da0073e9SAndroid Build Coastguard Worker      stats.active_bytes[stat_type].increase(block->size);
*da0073e9SAndroid Build Coastguard Worker      stats.requested_bytes[stat_type].increase(block->requested_size);
*da0073e9SAndroid Build Coastguard Worker    });
*da0073e9SAndroid Build Coastguard Worker    if (block->size >= CUDAAllocatorConfig::max_split_size())
*da0073e9SAndroid Build Coastguard Worker      stats.oversize_allocations.increase(1);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    auto allocated_bytes_gauge =
*da0073e9SAndroid Build Coastguard Worker        STATIC_GAUGE(pytorch.CUDACachingAllocator.allocated_bytes);
*da0073e9SAndroid Build Coastguard Worker    allocated_bytes_gauge.record(
*da0073e9SAndroid Build Coastguard Worker        stats.allocated_bytes[static_cast<int64_t>(StatType::AGGREGATE)]
*da0073e9SAndroid Build Coastguard Worker            .current);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    c10::reportMemoryUsageToProfiler(
*da0073e9SAndroid Build Coastguard Worker        block->ptr,
*da0073e9SAndroid Build Coastguard Worker        static_cast<int64_t>(block->size),
*da0073e9SAndroid Build Coastguard Worker        stats.allocated_bytes[static_cast<size_t>(StatType::AGGREGATE)].current,
*da0073e9SAndroid Build Coastguard Worker        stats.reserved_bytes[static_cast<size_t>(StatType::AGGREGATE)].current,
*da0073e9SAndroid Build Coastguard Worker        c10::Device(c10::DeviceType::CUDA, device));
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return block;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void free(Block* block) {
*da0073e9SAndroid Build Coastguard Worker    std::shared_ptr<GatheredContext> context =
*da0073e9SAndroid Build Coastguard Worker        maybeGatherContext(RecordContext::ALL);
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    block->allocated = false;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // following logic might modifying underlaying Block, causing the size
*da0073e9SAndroid Build Coastguard Worker    // changed. We store ahead for reporting
*da0073e9SAndroid Build Coastguard Worker    auto orig_block_ptr = block->ptr;
*da0073e9SAndroid Build Coastguard Worker    auto orig_block_size = block->size;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    StatTypes stat_types = get_stat_types_for_pool(*block->pool);
*da0073e9SAndroid Build Coastguard Worker    for_each_selected_stat_type(stat_types, [&](size_t stat_type) {
*da0073e9SAndroid Build Coastguard Worker      stats.allocation[stat_type].decrease(1);
*da0073e9SAndroid Build Coastguard Worker      stats.allocated_bytes[stat_type].decrease(block->size);
*da0073e9SAndroid Build Coastguard Worker    });
*da0073e9SAndroid Build Coastguard Worker    auto allocated_bytes_gauge =
*da0073e9SAndroid Build Coastguard Worker        STATIC_GAUGE(pytorch.CUDACachingAllocator.allocated_bytes);
*da0073e9SAndroid Build Coastguard Worker    allocated_bytes_gauge.record(
*da0073e9SAndroid Build Coastguard Worker        stats.allocated_bytes[static_cast<int64_t>(StatType::AGGREGATE)]
*da0073e9SAndroid Build Coastguard Worker            .current);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    record_trace(
*da0073e9SAndroid Build Coastguard Worker        TraceEntry::FREE_REQUESTED,
*da0073e9SAndroid Build Coastguard Worker        int64_t(block->ptr),
*da0073e9SAndroid Build Coastguard Worker        block->requested_size,
*da0073e9SAndroid Build Coastguard Worker        block->stream,
*da0073e9SAndroid Build Coastguard Worker        block->device,
*da0073e9SAndroid Build Coastguard Worker        context ? context : block->context_when_allocated);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if (block->size >= CUDAAllocatorConfig::max_split_size())
*da0073e9SAndroid Build Coastguard Worker      stats.oversize_allocations.decrease(1);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if (!block->stream_uses.empty()) {
*da0073e9SAndroid Build Coastguard Worker      if (C10_UNLIKELY(!captures_underway.empty())) {
*da0073e9SAndroid Build Coastguard Worker        // It's forbidden to cudaEventQuery an event recorded during CUDA graph
*da0073e9SAndroid Build Coastguard Worker        // capture. We conservatively defer recording end-of-life events until
*da0073e9SAndroid Build Coastguard Worker        // the next call to process_events() (which won't happen until no
*da0073e9SAndroid Build Coastguard Worker        // captures are underway)
*da0073e9SAndroid Build Coastguard Worker        needs_events_deferred_until_no_capture.push_back(block);
*da0073e9SAndroid Build Coastguard Worker      } else {
*da0073e9SAndroid Build Coastguard Worker        insert_events(block);
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    } else {
*da0073e9SAndroid Build Coastguard Worker      free_block(block, context);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    c10::reportMemoryUsageToProfiler(
*da0073e9SAndroid Build Coastguard Worker        orig_block_ptr,
*da0073e9SAndroid Build Coastguard Worker        -static_cast<int64_t>(orig_block_size),
*da0073e9SAndroid Build Coastguard Worker        stats.allocated_bytes[static_cast<size_t>(StatType::AGGREGATE)].current,
*da0073e9SAndroid Build Coastguard Worker        stats.reserved_bytes[static_cast<size_t>(StatType::AGGREGATE)].current,
*da0073e9SAndroid Build Coastguard Worker        c10::Device(c10::DeviceType::CUDA, block->device));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void* getBaseAllocation(Block* block, size_t* outSize) {
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker    TORCH_CHECK(
*da0073e9SAndroid Build Coastguard Worker        !block->expandable_segment_,
*da0073e9SAndroid Build Coastguard Worker        "Tensors allocated with expandable_segments:True cannot be shared between processes. Consider using expandable_segments:False in data loading workers via torch.cuda.memory._set_allocator_settings('expandable_segments:False')");
*da0073e9SAndroid Build Coastguard Worker    while (block->prev) {
*da0073e9SAndroid Build Coastguard Worker      block = block->prev;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    void* basePtr = block->ptr;
*da0073e9SAndroid Build Coastguard Worker    if (outSize) {
*da0073e9SAndroid Build Coastguard Worker      size_t size = 0;
*da0073e9SAndroid Build Coastguard Worker      while (block) {
*da0073e9SAndroid Build Coastguard Worker        size += block->size;
*da0073e9SAndroid Build Coastguard Worker        block = block->next;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      *outSize = size;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    return basePtr;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  ShareableHandle shareIpcHandle(Block* block) {
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker    std::ostringstream ss;
*da0073e9SAndroid Build Coastguard Worker    ss.put(SHAREABLE_HANDLE_VERSION);
*da0073e9SAndroid Build Coastguard Worker    ptrdiff_t offset = 0;
*da0073e9SAndroid Build Coastguard Worker    if (!block->expandable_segment_) {
*da0073e9SAndroid Build Coastguard Worker      ss.put(SHAREABLE_CUDA_MALLOC);
*da0073e9SAndroid Build Coastguard Worker      Block* base_block = block;
*da0073e9SAndroid Build Coastguard Worker      while (base_block->prev) {
*da0073e9SAndroid Build Coastguard Worker        base_block = base_block->prev;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      offset = (char*)block->ptr - (char*)base_block->ptr;
*da0073e9SAndroid Build Coastguard Worker      cudaIpcMemHandle_t handle;
*da0073e9SAndroid Build Coastguard Worker      C10_CUDA_CHECK(cudaIpcGetMemHandle(&handle, base_block->ptr));
*da0073e9SAndroid Build Coastguard Worker      ss.write((char*)&handle, CUDA_IPC_HANDLE_SIZE);
*da0073e9SAndroid Build Coastguard Worker    } else {
*da0073e9SAndroid Build Coastguard Worker      ss.put(SHAREABLE_CUDA_EXPANDABLE_SEGMENT);
*da0073e9SAndroid Build Coastguard Worker      auto full_range = block->expandable_segment_->share(
*da0073e9SAndroid Build Coastguard Worker          SegmentRange(block->ptr, block->size), ss);
*da0073e9SAndroid Build Coastguard Worker      offset = (char*)block->ptr - (char*)full_range.ptr;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    return ShareableHandle{offset, ss.str()};
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void recordStream(Block* block, cuda::CUDAStream stream) {
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker    if (stream.stream() == block->stream) {
*da0073e9SAndroid Build Coastguard Worker      // ignore uses on the allocation stream, since those don't require any
*da0073e9SAndroid Build Coastguard Worker      // special synchronization
*da0073e9SAndroid Build Coastguard Worker      return;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    block->stream_uses.insert(stream);
*da0073e9SAndroid Build Coastguard Worker    if (C10_UNLIKELY(!captures_underway.empty())) {
*da0073e9SAndroid Build Coastguard Worker      block_to_cudagraph_stream_uses[block].insert(stream);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  /** set memory fraction to limit maximum allocated memory **/
*da0073e9SAndroid Build Coastguard Worker  void setMemoryFraction(double fraction) {
*da0073e9SAndroid Build Coastguard Worker    size_t device_free = 0;
*da0073e9SAndroid Build Coastguard Worker    size_t device_total = 0;
*da0073e9SAndroid Build Coastguard Worker    C10_CUDA_CHECK(cudaMemGetInfo(&device_free, &device_total));
*da0073e9SAndroid Build Coastguard Worker    allowed_memory_maximum =
*da0073e9SAndroid Build Coastguard Worker        static_cast<size_t>(fraction * static_cast<double>(device_total));
*da0073e9SAndroid Build Coastguard Worker    set_fraction = true;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  /** returns cached blocks to the system allocator **/
*da0073e9SAndroid Build Coastguard Worker  void emptyCache() {
*da0073e9SAndroid Build Coastguard Worker    auto context = maybeGatherContext(RecordContext::ALL);
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker    release_cached_blocks(context);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  /** Retrieves size of largest unused block held by the memory cache **/
*da0073e9SAndroid Build Coastguard Worker  void cacheInfo(size_t* largest) {
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker    if (*largest ==
*da0073e9SAndroid Build Coastguard Worker        0) { // make an initial guess if a zero *largest is passed in
*da0073e9SAndroid Build Coastguard Worker      size_t tmp_bytes = 0;
*da0073e9SAndroid Build Coastguard Worker      C10_CUDA_CHECK(cudaMemGetInfo(
*da0073e9SAndroid Build Coastguard Worker          largest, // Use free memory as an optimistic initial guess of *largest
*da0073e9SAndroid Build Coastguard Worker          &tmp_bytes));
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    cache_info_aux(large_blocks, largest);
*da0073e9SAndroid Build Coastguard Worker    cache_info_aux(small_blocks, largest);
*da0073e9SAndroid Build Coastguard Worker    for (const auto& gp : graph_pools) {
*da0073e9SAndroid Build Coastguard Worker      cache_info_aux(gp.second->large_blocks, largest);
*da0073e9SAndroid Build Coastguard Worker      cache_info_aux(gp.second->small_blocks, largest);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  /** Returns a copy of the memory allocator stats **/
*da0073e9SAndroid Build Coastguard Worker  DeviceStats getStats() {
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker    return stats;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  /** Resets the historical accumulation stats for the device **/
*da0073e9SAndroid Build Coastguard Worker  void resetAccumulatedStats() {
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    for (const auto statType :
*da0073e9SAndroid Build Coastguard Worker         c10::irange(static_cast<size_t>(StatType::NUM_TYPES))) {
*da0073e9SAndroid Build Coastguard Worker      stats.allocation[statType].reset_accumulated();
*da0073e9SAndroid Build Coastguard Worker      stats.segment[statType].reset_accumulated();
*da0073e9SAndroid Build Coastguard Worker      stats.active[statType].reset_accumulated();
*da0073e9SAndroid Build Coastguard Worker      stats.inactive_split[statType].reset_accumulated();
*da0073e9SAndroid Build Coastguard Worker      stats.allocated_bytes[statType].reset_accumulated();
*da0073e9SAndroid Build Coastguard Worker      stats.reserved_bytes[statType].reset_accumulated();
*da0073e9SAndroid Build Coastguard Worker      stats.active_bytes[statType].reset_accumulated();
*da0073e9SAndroid Build Coastguard Worker      stats.inactive_split_bytes[statType].reset_accumulated();
*da0073e9SAndroid Build Coastguard Worker      stats.requested_bytes[statType].reset_accumulated();
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    stats.num_alloc_retries = 0;
*da0073e9SAndroid Build Coastguard Worker    stats.num_ooms = 0;
*da0073e9SAndroid Build Coastguard Worker    stats.num_sync_all_streams = 0;
*da0073e9SAndroid Build Coastguard Worker    stats.num_device_alloc = 0;
*da0073e9SAndroid Build Coastguard Worker    stats.num_device_free = 0;
*da0073e9SAndroid Build Coastguard Worker    stats.oversize_allocations.reset_accumulated();
*da0073e9SAndroid Build Coastguard Worker    stats.oversize_segments.reset_accumulated();
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  /** Resets the historical peak stats for the device **/
*da0073e9SAndroid Build Coastguard Worker  void resetPeakStats() {
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    for (const auto statType :
*da0073e9SAndroid Build Coastguard Worker         c10::irange(static_cast<size_t>(StatType::NUM_TYPES))) {
*da0073e9SAndroid Build Coastguard Worker      stats.allocation[statType].reset_peak();
*da0073e9SAndroid Build Coastguard Worker      stats.segment[statType].reset_peak();
*da0073e9SAndroid Build Coastguard Worker      stats.active[statType].reset_peak();
*da0073e9SAndroid Build Coastguard Worker      stats.inactive_split[statType].reset_peak();
*da0073e9SAndroid Build Coastguard Worker      stats.allocated_bytes[statType].reset_peak();
*da0073e9SAndroid Build Coastguard Worker      stats.reserved_bytes[statType].reset_peak();
*da0073e9SAndroid Build Coastguard Worker      stats.active_bytes[statType].reset_peak();
*da0073e9SAndroid Build Coastguard Worker      stats.inactive_split_bytes[statType].reset_peak();
*da0073e9SAndroid Build Coastguard Worker      stats.requested_bytes[statType].reset_peak();
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    stats.oversize_allocations.reset_peak();
*da0073e9SAndroid Build Coastguard Worker    stats.oversize_segments.reset_peak();
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  /* Checkpoint the state of a private pool necessary to return it to its
*da0073e9SAndroid Build Coastguard Worker   * current state */
*da0073e9SAndroid Build Coastguard Worker  std::unique_ptr<PrivatePoolState> getCheckpointState(MempoolId_t id) {
*da0073e9SAndroid Build Coastguard Worker    auto context = maybeGatherContext(RecordContext::ALL);
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker    insert_events_deferred_until_no_capture(context);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    auto pool = graph_pools.find(id);
*da0073e9SAndroid Build Coastguard Worker    if (pool != graph_pools.end()) {
*da0073e9SAndroid Build Coastguard Worker      auto private_pool_head_blocks =
*da0073e9SAndroid Build Coastguard Worker          get_private_pool_head_blocks(pool->second.get());
*da0073e9SAndroid Build Coastguard Worker      return std::make_unique<PrivatePoolState>(id, private_pool_head_blocks);
*da0073e9SAndroid Build Coastguard Worker    } else if (graph_pools_freeable.count(id)) {
*da0073e9SAndroid Build Coastguard Worker      TORCH_CHECK(false, "Not expected to checkpoint freeable graph");
*da0073e9SAndroid Build Coastguard Worker    } else {
*da0073e9SAndroid Build Coastguard Worker      TORCH_CHECK(false, "Could not find pool of id");
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void freeBlocksAllocatedToPool(PrivatePool* private_pool, RestoreResult& rr) {
*da0073e9SAndroid Build Coastguard Worker    auto pool_blocks = get_private_pool_head_blocks(private_pool);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    std::vector<Block*> head_blocks;
*da0073e9SAndroid Build Coastguard Worker    for (Block* block : pool_blocks) {
*da0073e9SAndroid Build Coastguard Worker      if (block->prev == nullptr) {
*da0073e9SAndroid Build Coastguard Worker        head_blocks.push_back(block);
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    for (Block* block : head_blocks) {
*da0073e9SAndroid Build Coastguard Worker      Block* curr = block;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      while (curr) {
*da0073e9SAndroid Build Coastguard Worker        // When we free a block, its pointer should never change
*da0073e9SAndroid Build Coastguard Worker        // only its adjacent blocks, so free, then look at pointer
*da0073e9SAndroid Build Coastguard Worker        if (curr->allocated) {
*da0073e9SAndroid Build Coastguard Worker          TORCH_CHECK(
*da0073e9SAndroid Build Coastguard Worker              curr->event_count == 0,
*da0073e9SAndroid Build Coastguard Worker              "Events should have synchronized when setting checkpointed block");
*da0073e9SAndroid Build Coastguard Worker          rr.allocations_freed.push_back(curr->ptr);
*da0073e9SAndroid Build Coastguard Worker          free(curr);
*da0073e9SAndroid Build Coastguard Worker          TORCH_CHECK(!curr->allocated)
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker        curr = curr->next;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    for (Block* b : get_private_pool_head_blocks(private_pool)) {
*da0073e9SAndroid Build Coastguard Worker      Block* curr = b;
*da0073e9SAndroid Build Coastguard Worker      while (curr) {
*da0073e9SAndroid Build Coastguard Worker        TORCH_CHECK(!curr->allocated);
*da0073e9SAndroid Build Coastguard Worker        curr = curr->next;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // checkpoint the state of an allocation that may have been
*da0073e9SAndroid Build Coastguard Worker  // split into multiple blocks
*da0073e9SAndroid Build Coastguard Worker  void setSegmentStateToCheckpoint(
*da0073e9SAndroid Build Coastguard Worker      Block* block,
*da0073e9SAndroid Build Coastguard Worker      SegmentState& segment,
*da0073e9SAndroid Build Coastguard Worker      const std::shared_ptr<GatheredContext>& context,
*da0073e9SAndroid Build Coastguard Worker      RestoreResult& rr) {
*da0073e9SAndroid Build Coastguard Worker    Block* curr_block = block;
*da0073e9SAndroid Build Coastguard Worker    Block* last_block = block;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(block->pool);
*da0073e9SAndroid Build Coastguard Worker    BlockPool& pool = *block->pool;
*da0073e9SAndroid Build Coastguard Worker    const auto segment_len = segment.blocks.size();
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // allocate all blocks in the segment
*da0073e9SAndroid Build Coastguard Worker    for (size_t i = 0; i < segment_len; ++i) {
*da0073e9SAndroid Build Coastguard Worker      // The last block in every expandable segment is the remaining amount of
*da0073e9SAndroid Build Coastguard Worker      // available unmapped virtual address space. We shouldn't change it but
*da0073e9SAndroid Build Coastguard Worker      // instead check it is correctly formed then skip over allocating it.
*da0073e9SAndroid Build Coastguard Worker      if (i == segment_len - 1 && curr_block->expandable_segment_) {
*da0073e9SAndroid Build Coastguard Worker        TORCH_CHECK(curr_block->next == nullptr);
*da0073e9SAndroid Build Coastguard Worker        TORCH_CHECK(!curr_block->mapped);
*da0073e9SAndroid Build Coastguard Worker        TORCH_CHECK(curr_block->allocated == false);
*da0073e9SAndroid Build Coastguard Worker        continue;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      auto& block_state = segment.blocks.at(i);
*da0073e9SAndroid Build Coastguard Worker      AllocParams params(
*da0073e9SAndroid Build Coastguard Worker          block_state.device,
*da0073e9SAndroid Build Coastguard Worker          block_state.size,
*da0073e9SAndroid Build Coastguard Worker          block_state.stream,
*da0073e9SAndroid Build Coastguard Worker          &pool,
*da0073e9SAndroid Build Coastguard Worker          block_state.size,
*da0073e9SAndroid Build Coastguard Worker          stats);
*da0073e9SAndroid Build Coastguard Worker      pool.blocks.erase(curr_block);
*da0073e9SAndroid Build Coastguard Worker      params.block = curr_block;
*da0073e9SAndroid Build Coastguard Worker      params.stat_types = get_stat_types_for_pool(pool);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      // splitting a block depends on `max_split_size`, which may have changed
*da0073e9SAndroid Build Coastguard Worker      // between when checkpoint was taken and now, so we make sure to recreate
*da0073e9SAndroid Build Coastguard Worker      // the behavior from the checkpoint. Keep splitting as long as there is
*da0073e9SAndroid Build Coastguard Worker      // space left in the block because the block is already the size of how it
*da0073e9SAndroid Build Coastguard Worker      // appears in the segment, so any leftover space belongs to the next
*da0073e9SAndroid Build Coastguard Worker      // block.
*da0073e9SAndroid Build Coastguard Worker      bool split = curr_block->size > block_state.size;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      // curr_block will become next pointer if it is split, so reassign with
*da0073e9SAndroid Build Coastguard Worker      // the returned value
*da0073e9SAndroid Build Coastguard Worker      curr_block = alloc_found_block(params, block_state.size, context, split);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      TORCH_CHECK(curr_block->ptr == block_state.ptr);
*da0073e9SAndroid Build Coastguard Worker      TORCH_CHECK(curr_block->size == block_state.size);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      last_block = curr_block;
*da0073e9SAndroid Build Coastguard Worker      curr_block = curr_block->next;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      TORCH_CHECK((curr_block != nullptr) == ((i + 1) < (segment_len)));
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    while (last_block->prev) {
*da0073e9SAndroid Build Coastguard Worker      last_block = last_block->prev;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // free blocks that are not allocated in the checkpoint
*da0073e9SAndroid Build Coastguard Worker    curr_block = last_block;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    for (size_t i = 0; i < segment_len; ++i, curr_block = curr_block->next) {
*da0073e9SAndroid Build Coastguard Worker      if (i == segment_len - 1 && curr_block->expandable_segment_) {
*da0073e9SAndroid Build Coastguard Worker        TORCH_CHECK(curr_block->next == nullptr);
*da0073e9SAndroid Build Coastguard Worker        TORCH_CHECK(!curr_block->mapped);
*da0073e9SAndroid Build Coastguard Worker        TORCH_CHECK(curr_block->allocated == false);
*da0073e9SAndroid Build Coastguard Worker        continue;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      auto& block_state = segment.blocks.at(i);
*da0073e9SAndroid Build Coastguard Worker      TORCH_INTERNAL_ASSERT(curr_block != nullptr);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      if (block_state.allocated) {
*da0073e9SAndroid Build Coastguard Worker        rr.allocations_created.push_back(curr_block);
*da0073e9SAndroid Build Coastguard Worker        continue;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      free(curr_block);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      TORCH_CHECK(curr_block->ptr == block_state.ptr);
*da0073e9SAndroid Build Coastguard Worker      TORCH_CHECK(curr_block->allocated == block_state.allocated);
*da0073e9SAndroid Build Coastguard Worker      TORCH_CHECK(curr_block->size == block_state.size);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  /**
*da0073e9SAndroid Build Coastguard Worker   * Note [Checkpointing PrivatePoolState]
*da0073e9SAndroid Build Coastguard Worker   *
*da0073e9SAndroid Build Coastguard Worker   * Refer above to Note [Interaction with CUDA graph capture]. Allocations made
*da0073e9SAndroid Build Coastguard Worker   * during graph capture are made from a separate private pool. During graph
*da0073e9SAndroid Build Coastguard Worker   * capture allocations behave as usual. During graph replay the allocator
*da0073e9SAndroid Build Coastguard Worker   * state does not change even as new tensors are created. The private pool
*da0073e9SAndroid Build Coastguard Worker   * will not free its blocks to the main caching allocator until cuda graph use
*da0073e9SAndroid Build Coastguard Worker   * is finished to prevent an allocation from eager clobbering the memory from
*da0073e9SAndroid Build Coastguard Worker   * a live but unaccounted for tensor that was created during replay.
*da0073e9SAndroid Build Coastguard Worker   *
*da0073e9SAndroid Build Coastguard Worker   * `make_graphed_callables`, a series of separate callables chained in
*da0073e9SAndroid Build Coastguard Worker   * successive cuda graphs, can share a memory pool because after a cuda graph
*da0073e9SAndroid Build Coastguard Worker   * recording the allocations in the shared private pool exactly reflect the
*da0073e9SAndroid Build Coastguard Worker   * tensors that are allocated.
*da0073e9SAndroid Build Coastguard Worker   *
*da0073e9SAndroid Build Coastguard Worker   * We would like to extend callable chaining to support a graphed callable
*da0073e9SAndroid Build Coastguard Worker   * tree. In this scenario, we have a tree of callable chains which will be
*da0073e9SAndroid Build Coastguard Worker   * captured with cuda graphs. In the diagram below, we have a tree with four
*da0073e9SAndroid Build Coastguard Worker   * callables, A, B, C, and D. Suppose we have captured, and subsequently
*da0073e9SAndroid Build Coastguard Worker   * replayed, A, B, and C. Then on a new invocation, we replay A and B, but
*da0073e9SAndroid Build Coastguard Worker   * would now like to record D. At this point the private pool will not reflect
*da0073e9SAndroid Build Coastguard Worker   * any of the live tensors created during graph replay. Allocations made
*da0073e9SAndroid Build Coastguard Worker   * during a new recording with the pool could overwrite those live tensors.
*da0073e9SAndroid Build Coastguard Worker   *
*da0073e9SAndroid Build Coastguard Worker   * In order to record a new graph capture after replaying prior callables in
*da0073e9SAndroid Build Coastguard Worker   * the tree, we need the allocator to reflect the state of the live tensors.
*da0073e9SAndroid Build Coastguard Worker   * We checkpoint the state of the private pool after each recording, and then
*da0073e9SAndroid Build Coastguard Worker   * reapply it when we are starting a new recording chain. Additionally, we
*da0073e9SAndroid Build Coastguard Worker   * must free the allocations for any tensors that died between the end of our
*da0073e9SAndroid Build Coastguard Worker   * previous graph replaying and our new recording. All of the allocated
*da0073e9SAndroid Build Coastguard Worker   * segments that existed in the checkpointed state must still exist in the
*da0073e9SAndroid Build Coastguard Worker   * pool. There may also exist new allocated blocks.
*da0073e9SAndroid Build Coastguard Worker   * (TODO : link note [live tensors between iterations] when it exists). For
*da0073e9SAndroid Build Coastguard Worker   * every block that is currently allocated but no allocated in the snapshot,
*da0073e9SAndroid Build Coastguard Worker   * we will return a pointer to their block.
*da0073e9SAndroid Build Coastguard Worker   *.
*da0073e9SAndroid Build Coastguard Worker   *
*da0073e9SAndroid Build Coastguard Worker   *
*da0073e9SAndroid Build Coastguard Worker   *  ---------------> A ---------------> B ---------------> C
*da0073e9SAndroid Build Coastguard Worker   *                                      |
*da0073e9SAndroid Build Coastguard Worker   *                                      |
*da0073e9SAndroid Build Coastguard Worker   *                                      |
*da0073e9SAndroid Build Coastguard Worker   *                                      |
*da0073e9SAndroid Build Coastguard Worker   *                                      ╰ ---------------> D
*da0073e9SAndroid Build Coastguard Worker   */
*da0073e9SAndroid Build Coastguard Worker  RestoreResult setCheckpointPoolState(PrivatePoolState& pps) {
*da0073e9SAndroid Build Coastguard Worker    // To reset the caching allocator state we will
*da0073e9SAndroid Build Coastguard Worker    // - Free all the blocks currently allocated to the pool (see [live tensors
*da0073e9SAndroid Build Coastguard Worker    // between iterations])
*da0073e9SAndroid Build Coastguard Worker    // - Allocate all the blocks in a checkpointed segment, whether they are
*da0073e9SAndroid Build Coastguard Worker    // live or not
*da0073e9SAndroid Build Coastguard Worker    // - Free the blocks in a checkpointed segment which are not live
*da0073e9SAndroid Build Coastguard Worker    // This could be optimized, but it nicely reuses exiting apis, and this
*da0073e9SAndroid Build Coastguard Worker    // is not on the hot path.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // following `done outside the lock because we don't know what locks the
*da0073e9SAndroid Build Coastguard Worker    // recorder needs to have...`
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    std::shared_ptr<GatheredContext> context =
*da0073e9SAndroid Build Coastguard Worker        maybeGatherContext(RecordContext::STATE);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    RestoreResult rr;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    TORCH_CHECK(
*da0073e9SAndroid Build Coastguard Worker        !graph_pools_freeable.count(pps.owner_id),
*da0073e9SAndroid Build Coastguard Worker        "Not expected to checkpoint freeable graph");
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    auto pool = graph_pools.find(pps.owner_id);
*da0073e9SAndroid Build Coastguard Worker    TORCH_CHECK(pool != graph_pools.end(), "Could not find private pool id");
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    PrivatePool* private_pool = pool->second.get();
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    freeBlocksAllocatedToPool(private_pool, rr);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    std::unordered_map<void*, Block*> ptrs_to_blocks;
*da0073e9SAndroid Build Coastguard Worker    // at this point, all of the blocks should be free, so they will all be in
*da0073e9SAndroid Build Coastguard Worker    // the block set
*da0073e9SAndroid Build Coastguard Worker    for (Block* block : private_pool->small_blocks.blocks) {
*da0073e9SAndroid Build Coastguard Worker      ptrs_to_blocks[block->ptr] = block;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    for (Block* block : private_pool->large_blocks.blocks) {
*da0073e9SAndroid Build Coastguard Worker      ptrs_to_blocks[block->ptr] = block;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    for (auto& segment : pps.segments) {
*da0073e9SAndroid Build Coastguard Worker      auto ptr = segment.blocks.at(0).ptr;
*da0073e9SAndroid Build Coastguard Worker      TORCH_CHECK(ptrs_to_blocks.count(ptr), " could not find ", ptr)
*da0073e9SAndroid Build Coastguard Worker      auto block = ptrs_to_blocks[ptr];
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      setSegmentStateToCheckpoint(block, segment, context, rr);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    return rr;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  /** Dump a complete snapshot of the memory held by the allocator. Potentially
*da0073e9SAndroid Build Coastguard Worker   * VERY expensive. **/
*da0073e9SAndroid Build Coastguard Worker  std::vector<SegmentInfo> snapshot() {
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    std::unordered_map<PrivatePool*, MempoolId_t> pool_to_id;
*da0073e9SAndroid Build Coastguard Worker    pool_to_id.reserve(graph_pools.size() + graph_pools_freeable.size());
*da0073e9SAndroid Build Coastguard Worker    for (const auto& pair : graph_pools) {
*da0073e9SAndroid Build Coastguard Worker      pool_to_id[pair.second.get()] = pair.first;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    for (const auto& pair : graph_pools_freeable) {
*da0073e9SAndroid Build Coastguard Worker      pool_to_id[pair.second] = pair.first;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    size_t total_active = 0;
*da0073e9SAndroid Build Coastguard Worker    std::vector<SegmentInfo> result;
*da0073e9SAndroid Build Coastguard Worker    const auto all_blocks = get_all_blocks();
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    for (const Block* const head_block : all_blocks) {
*da0073e9SAndroid Build Coastguard Worker      // For expandable segments, we report one segment for each contiguous
*da0073e9SAndroid Build Coastguard Worker      // mapped range of memory
*da0073e9SAndroid Build Coastguard Worker      if (head_block->prev && head_block->prev->mapped) {
*da0073e9SAndroid Build Coastguard Worker        continue;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      result.emplace_back();
*da0073e9SAndroid Build Coastguard Worker      SegmentInfo& segment_info = result.back();
*da0073e9SAndroid Build Coastguard Worker      segment_info.device = head_block->device;
*da0073e9SAndroid Build Coastguard Worker      segment_info.address = reinterpret_cast<size_t>(head_block->ptr);
*da0073e9SAndroid Build Coastguard Worker      segment_info.stream = head_block->stream;
*da0073e9SAndroid Build Coastguard Worker      segment_info.is_large = (!head_block->pool->is_small);
*da0073e9SAndroid Build Coastguard Worker      segment_info.is_expandable = head_block->expandable_segment_;
*da0073e9SAndroid Build Coastguard Worker      segment_info.context_when_allocated =
*da0073e9SAndroid Build Coastguard Worker          head_block->context_when_segment_allocated;
*da0073e9SAndroid Build Coastguard Worker      auto mempool_id = pool_to_id.find(head_block->pool->owner_PrivatePool);
*da0073e9SAndroid Build Coastguard Worker      if (mempool_id != pool_to_id.end()) {
*da0073e9SAndroid Build Coastguard Worker        segment_info.owner_private_pool_id = mempool_id->second;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      const Block* block = head_block;
*da0073e9SAndroid Build Coastguard Worker      while (block != nullptr && block->mapped) {
*da0073e9SAndroid Build Coastguard Worker        segment_info.blocks.emplace_back();
*da0073e9SAndroid Build Coastguard Worker        BlockInfo& block_info = segment_info.blocks.back();
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        block_info.size = block->size;
*da0073e9SAndroid Build Coastguard Worker        block_info.requested_size = block->requested_size;
*da0073e9SAndroid Build Coastguard Worker        block_info.allocated = block->allocated;
*da0073e9SAndroid Build Coastguard Worker        block_info.active = block->allocated || (block->event_count > 0) ||
*da0073e9SAndroid Build Coastguard Worker            !block->stream_uses.empty();
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        segment_info.total_size += block_info.size;
*da0073e9SAndroid Build Coastguard Worker        if (block_info.allocated) {
*da0073e9SAndroid Build Coastguard Worker          segment_info.allocated_size += block_info.size;
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker        if (block_info.active) {
*da0073e9SAndroid Build Coastguard Worker          segment_info.active_size += block_info.size;
*da0073e9SAndroid Build Coastguard Worker          segment_info.requested_size += block_info.requested_size;
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker        block_info.context_when_allocated = block->context_when_allocated;
*da0073e9SAndroid Build Coastguard Worker        block = block->next;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      total_active += segment_info.active_size;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    std::sort(
*da0073e9SAndroid Build Coastguard Worker        result.begin(),
*da0073e9SAndroid Build Coastguard Worker        result.end(),
*da0073e9SAndroid Build Coastguard Worker        [](const SegmentInfo& a, const SegmentInfo& b) {
*da0073e9SAndroid Build Coastguard Worker          return a.address < b.address;
*da0073e9SAndroid Build Coastguard Worker        });
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    record_trace(TraceEntry::SNAPSHOT, 0, total_active, nullptr, 0, nullptr);
*da0073e9SAndroid Build Coastguard Worker    return result;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  std::vector<TraceEntry> trace(
*da0073e9SAndroid Build Coastguard Worker      const std::function<time_t(approx_time_t)>& tsc_to_us) {
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker    std::vector<TraceEntry> result;
*da0073e9SAndroid Build Coastguard Worker    alloc_buffer.getEntries(result);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // Convert all the timestamps from tsc to epoch time in microseconds.
*da0073e9SAndroid Build Coastguard Worker    for (auto& te : result) {
*da0073e9SAndroid Build Coastguard Worker      te.time_.t_ = tsc_to_us(te.time_.approx_t_);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    return result;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // This function takes the size and number of divisions argument and rounds
*da0073e9SAndroid Build Coastguard Worker  // up the size argument for the nearest power-of-2 division.
*da0073e9SAndroid Build Coastguard Worker  // For example, if we need to round-up 1200 and number of divisions is 4,
*da0073e9SAndroid Build Coastguard Worker  // the size 1200 lies between 1024 and 2048 and if we do 4 divisions between
*da0073e9SAndroid Build Coastguard Worker  // them, the values are 1024, 1280, 1536, and 1792. So the function will
*da0073e9SAndroid Build Coastguard Worker  // return 1280 as the nearest ceiling of power-2 divison.
*da0073e9SAndroid Build Coastguard Worker  static size_t roundup_power2_next_division(size_t size, size_t divisions) {
*da0073e9SAndroid Build Coastguard Worker    if (llvm::isPowerOf2_64(size)) {
*da0073e9SAndroid Build Coastguard Worker      return size;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    TORCH_CHECK(divisions >= 2, "Only 2 or more divisions are supported");
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // divide the space between these 2's power into equal divisions
*da0073e9SAndroid Build Coastguard Worker    // If division is zero, return the power-of-2 ceiling.
*da0073e9SAndroid Build Coastguard Worker    size_t power2_floor = llvm::PowerOf2Floor(size);
*da0073e9SAndroid Build Coastguard Worker    size_t power2_divison =
*da0073e9SAndroid Build Coastguard Worker        power2_floor >> (63 - llvm::countLeadingZeros(divisions));
*da0073e9SAndroid Build Coastguard Worker    if (C10_UNLIKELY(power2_divison == 0)) {
*da0073e9SAndroid Build Coastguard Worker      return (power2_floor << 1);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    size_t round_size_floor = size & (~(power2_divison - 1));
*da0073e9SAndroid Build Coastguard Worker    return (round_size_floor == size) ? size
*da0073e9SAndroid Build Coastguard Worker                                      : round_size_floor + power2_divison;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  static size_t round_size(size_t size) {
*da0073e9SAndroid Build Coastguard Worker    if (size < kMinBlockSize) {
*da0073e9SAndroid Build Coastguard Worker      return kMinBlockSize;
*da0073e9SAndroid Build Coastguard Worker    } else {
*da0073e9SAndroid Build Coastguard Worker      auto divisions = CUDAAllocatorConfig::roundup_power2_divisions(size);
*da0073e9SAndroid Build Coastguard Worker      if (divisions > 1 && size > (kMinBlockSize * divisions)) {
*da0073e9SAndroid Build Coastguard Worker        return roundup_power2_next_division(size, divisions);
*da0073e9SAndroid Build Coastguard Worker      } else {
*da0073e9SAndroid Build Coastguard Worker        return kMinBlockSize * ((size + kMinBlockSize - 1) / kMinBlockSize);
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // See Note [Interaction with CUDA graph capture]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Called by CUDAGraph::capture_begin
*da0073e9SAndroid Build Coastguard Worker  void beginAllocateToPool(
*da0073e9SAndroid Build Coastguard Worker      MempoolId_t mempool_id,
*da0073e9SAndroid Build Coastguard Worker      std::function<bool(cudaStream_t)> filter) {
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker    auto it = graph_pools.find(mempool_id);
*da0073e9SAndroid Build Coastguard Worker    if (it == graph_pools.end()) {
*da0073e9SAndroid Build Coastguard Worker      // mempool_id does not reference an existing pool. Make a new pool for
*da0073e9SAndroid Build Coastguard Worker      // this capture.
*da0073e9SAndroid Build Coastguard Worker      graph_pools.emplace(mempool_id, std::make_unique<PrivatePool>());
*da0073e9SAndroid Build Coastguard Worker    } else {
*da0073e9SAndroid Build Coastguard Worker      // mempool_id references an existing pool, which the current capture will
*da0073e9SAndroid Build Coastguard Worker      // share. Check this pool is live (at least one other capture already
*da0073e9SAndroid Build Coastguard Worker      // references it).
*da0073e9SAndroid Build Coastguard Worker      TORCH_INTERNAL_ASSERT(it->second->use_count > 0);
*da0073e9SAndroid Build Coastguard Worker      it->second->use_count++;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    for (auto it2 = captures_underway.begin(); it2 != captures_underway.end();
*da0073e9SAndroid Build Coastguard Worker         ++it2) {
*da0073e9SAndroid Build Coastguard Worker      TORCH_CHECK(
*da0073e9SAndroid Build Coastguard Worker          it2->first != mempool_id,
*da0073e9SAndroid Build Coastguard Worker          "beginAllocateToPool: already recording to mempool_id");
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    captures_underway.emplace_back(mempool_id, std::move(filter));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Called by CUDAGraph::capture_end
*da0073e9SAndroid Build Coastguard Worker  void endAllocateToPool(MempoolId_t mempool_id) {
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker    for (auto it = captures_underway.begin(); it != captures_underway.end();
*da0073e9SAndroid Build Coastguard Worker         ++it) {
*da0073e9SAndroid Build Coastguard Worker      if (it->first == mempool_id) {
*da0073e9SAndroid Build Coastguard Worker        captures_underway.erase(it);
*da0073e9SAndroid Build Coastguard Worker        return;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    TORCH_CHECK(
*da0073e9SAndroid Build Coastguard Worker        false, "endAllocatePool: not currently recording to mempool_id");
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Called by CUDAGraph::reset
*da0073e9SAndroid Build Coastguard Worker  void releasePool(MempoolId_t mempool_id) {
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker    // The instantiated cudaGraphExec_t has been destroyed. We can't blindly
*da0073e9SAndroid Build Coastguard Worker    // delete and cudaFree the mempool its capture used, because
*da0073e9SAndroid Build Coastguard Worker    //  1. other graph(s) might share the same pool
*da0073e9SAndroid Build Coastguard Worker    //  2. the user might still hold references to output tensors allocated
*da0073e9SAndroid Build Coastguard Worker    //  during capture.
*da0073e9SAndroid Build Coastguard Worker    // To handle 1 and 2, we track the number of graphs using this particular
*da0073e9SAndroid Build Coastguard Worker    // mempool. When the count reaches 0, we tell free_cached_blocks it may now
*da0073e9SAndroid Build Coastguard Worker    // cudaFree blocks from this graph's pool when it discovers they're unused
*da0073e9SAndroid Build Coastguard Worker    // (unsplit).
*da0073e9SAndroid Build Coastguard Worker    auto it = graph_pools.find(mempool_id);
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(it != graph_pools.end());
*da0073e9SAndroid Build Coastguard Worker    auto uc = --(it->second->use_count);
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(uc >= 0);
*da0073e9SAndroid Build Coastguard Worker    if (uc == 0) {
*da0073e9SAndroid Build Coastguard Worker      // Allows free_cached_blocks to begin cudaFreeing this pool's memory,
*da0073e9SAndroid Build Coastguard Worker      // and makes sure this pool wasn't somehow made freeable already.
*da0073e9SAndroid Build Coastguard Worker      // NOLINTNEXTLINE(clang-analyzer-deadcode.DeadStores)
*da0073e9SAndroid Build Coastguard Worker      bool inserted =
*da0073e9SAndroid Build Coastguard Worker          graph_pools_freeable.insert({mempool_id, it->second.get()}).second;
*da0073e9SAndroid Build Coastguard Worker      TORCH_INTERNAL_ASSERT(inserted);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void addPeerAccess(c10::DeviceIndex dev_to_access) {
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker    if (std::find(
*da0073e9SAndroid Build Coastguard Worker            devices_with_peer_access_.begin(),
*da0073e9SAndroid Build Coastguard Worker            devices_with_peer_access_.end(),
*da0073e9SAndroid Build Coastguard Worker            dev_to_access) != devices_with_peer_access_.end()) {
*da0073e9SAndroid Build Coastguard Worker      return;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    devices_with_peer_access_.push_back(dev_to_access);
*da0073e9SAndroid Build Coastguard Worker    for (auto& es : expandable_segments_) {
*da0073e9SAndroid Build Coastguard Worker      es->addPeer(dev_to_access);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  std::vector<c10::DeviceIndex> peers() const {
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::recursive_mutex> lock(mutex);
*da0073e9SAndroid Build Coastguard Worker    return devices_with_peer_access_;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  bool hasAllocatedExpandableSegments() const {
*da0073e9SAndroid Build Coastguard Worker    return !expandable_segments_.empty();
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker private:
*da0073e9SAndroid Build Coastguard Worker  // All private methods do not acquire the allocator mutex.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  std::vector<const Block*> get_all_blocks() const {
*da0073e9SAndroid Build Coastguard Worker    std::vector<const Block*> blocks;
*da0073e9SAndroid Build Coastguard Worker    blocks.insert(
*da0073e9SAndroid Build Coastguard Worker        blocks.end(), small_blocks.blocks.begin(), small_blocks.blocks.end());
*da0073e9SAndroid Build Coastguard Worker    blocks.insert(
*da0073e9SAndroid Build Coastguard Worker        blocks.end(), large_blocks.blocks.begin(), large_blocks.blocks.end());
*da0073e9SAndroid Build Coastguard Worker    for (const auto& gp : graph_pools) {
*da0073e9SAndroid Build Coastguard Worker      blocks.insert(
*da0073e9SAndroid Build Coastguard Worker          blocks.end(),
*da0073e9SAndroid Build Coastguard Worker          gp.second->small_blocks.blocks.begin(),
*da0073e9SAndroid Build Coastguard Worker          gp.second->small_blocks.blocks.end());
*da0073e9SAndroid Build Coastguard Worker      blocks.insert(
*da0073e9SAndroid Build Coastguard Worker          blocks.end(),
*da0073e9SAndroid Build Coastguard Worker          gp.second->large_blocks.blocks.begin(),
*da0073e9SAndroid Build Coastguard Worker          gp.second->large_blocks.blocks.end());
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    blocks.insert(blocks.end(), active_blocks.begin(), active_blocks.end());
*da0073e9SAndroid Build Coastguard Worker    return blocks;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  std::vector<Block*> get_private_pool_head_blocks(PrivatePool* pool) const {
*da0073e9SAndroid Build Coastguard Worker    std::vector<Block*> blocks;
*da0073e9SAndroid Build Coastguard Worker    for (Block* b : active_blocks) {
*da0073e9SAndroid Build Coastguard Worker      if ((b->pool == &pool->small_blocks || b->pool == &pool->large_blocks) &&
*da0073e9SAndroid Build Coastguard Worker          b->prev == nullptr) {
*da0073e9SAndroid Build Coastguard Worker        blocks.push_back(b);
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    for (Block* b : pool->small_blocks.blocks) {
*da0073e9SAndroid Build Coastguard Worker      if (b->prev == nullptr) {
*da0073e9SAndroid Build Coastguard Worker        blocks.push_back(b);
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    for (Block* b : pool->large_blocks.blocks) {
*da0073e9SAndroid Build Coastguard Worker      if (b->prev == nullptr) {
*da0073e9SAndroid Build Coastguard Worker        blocks.push_back(b);
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return blocks;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // returns the smallest possible address in any segment
*da0073e9SAndroid Build Coastguard Worker  // where there is enough free address space to fit size
*da0073e9SAndroid Build Coastguard Worker  // may be composed of free and unmapped segments
*da0073e9SAndroid Build Coastguard Worker  Block* find_expandable_block(
*da0073e9SAndroid Build Coastguard Worker      c10::DeviceIndex device,
*da0073e9SAndroid Build Coastguard Worker      cudaStream_t stream,
*da0073e9SAndroid Build Coastguard Worker      BlockPool* pool,
*da0073e9SAndroid Build Coastguard Worker      size_t size) {
*da0073e9SAndroid Build Coastguard Worker    Block key(device, stream, 0);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    auto allocatable = [](Block* b) {
*da0073e9SAndroid Build Coastguard Worker      return b && !b->allocated && b->event_count == 0 &&
*da0073e9SAndroid Build Coastguard Worker          b->stream_uses.empty();
*da0073e9SAndroid Build Coastguard Worker    };
*da0073e9SAndroid Build Coastguard Worker    auto has_available_address_space = [&](Block* b) {
*da0073e9SAndroid Build Coastguard Worker      size_t bytes = 0;
*da0073e9SAndroid Build Coastguard Worker      while (bytes < size && allocatable(b)) {
*da0073e9SAndroid Build Coastguard Worker        bytes += b->size;
*da0073e9SAndroid Build Coastguard Worker        b = b->next;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      return bytes >= size;
*da0073e9SAndroid Build Coastguard Worker    };
*da0073e9SAndroid Build Coastguard Worker    for (auto it = pool->unmapped.lower_bound(&key);
*da0073e9SAndroid Build Coastguard Worker         it != pool->unmapped.end() && (*it)->stream == stream;
*da0073e9SAndroid Build Coastguard Worker         ++it) {
*da0073e9SAndroid Build Coastguard Worker      Block* c = *it;
*da0073e9SAndroid Build Coastguard Worker      // we found the lowest address of an unmapped segment
*da0073e9SAndroid Build Coastguard Worker      // but there might be a free segment we can also use
*da0073e9SAndroid Build Coastguard Worker      // right before it
*da0073e9SAndroid Build Coastguard Worker      if (allocatable(c->prev)) {
*da0073e9SAndroid Build Coastguard Worker        c = c->prev;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      if (has_available_address_space(c)) {
*da0073e9SAndroid Build Coastguard Worker        return c;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    auto segment_size = pool->is_small ? kSmallBuffer : kLargeBuffer;
*da0073e9SAndroid Build Coastguard Worker    cudaDeviceProp prop{};
*da0073e9SAndroid Build Coastguard Worker    C10_CUDA_CHECK(cudaGetDeviceProperties(&prop, device));
*da0073e9SAndroid Build Coastguard Worker    // we allocate enough address space for 1 1/8 the total memory on the GPU.
*da0073e9SAndroid Build Coastguard Worker    // This allows for some cases where we have to unmap pages earlier in the
*da0073e9SAndroid Build Coastguard Worker    // segment to put them at the end.
*da0073e9SAndroid Build Coastguard Worker    size_t address_space_size = prop.totalGlobalMem + prop.totalGlobalMem / 8;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    expandable_segments_.emplace_back(new ExpandableSegment(
*da0073e9SAndroid Build Coastguard Worker        device,
*da0073e9SAndroid Build Coastguard Worker        stream,
*da0073e9SAndroid Build Coastguard Worker        address_space_size,
*da0073e9SAndroid Build Coastguard Worker        segment_size,
*da0073e9SAndroid Build Coastguard Worker        devices_with_peer_access_));
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    ExpandableSegment* es = expandable_segments_.back();
*da0073e9SAndroid Build Coastguard Worker    Block* candidate = new Block(device, stream, es->size(), pool, es->ptr());
*da0073e9SAndroid Build Coastguard Worker    candidate->mapped = false;
*da0073e9SAndroid Build Coastguard Worker    candidate->expandable_segment_ = es;
*da0073e9SAndroid Build Coastguard Worker    pool->unmapped.insert(candidate);
*da0073e9SAndroid Build Coastguard Worker    return candidate;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  bool map_block(
*da0073e9SAndroid Build Coastguard Worker      Block* to_map,
*da0073e9SAndroid Build Coastguard Worker      size_t size,
*da0073e9SAndroid Build Coastguard Worker      const std::shared_ptr<GatheredContext>& ctx) {
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(!to_map->mapped && size <= to_map->size);
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(
*da0073e9SAndroid Build Coastguard Worker        !to_map->context_when_allocated); // unmapped blocks should not keep
*da0073e9SAndroid Build Coastguard Worker                                          // history
*da0073e9SAndroid Build Coastguard Worker    auto mapped_range =
*da0073e9SAndroid Build Coastguard Worker        to_map->expandable_segment_->map(SegmentRange{to_map->ptr, size});
*da0073e9SAndroid Build Coastguard Worker    // failed to map the memory
*da0073e9SAndroid Build Coastguard Worker    if (mapped_range.size == 0) {
*da0073e9SAndroid Build Coastguard Worker      return false;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(
*da0073e9SAndroid Build Coastguard Worker        mapped_range.ptr == to_map->ptr && mapped_range.size >= size);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    BlockPool& pool = *to_map->pool;
*da0073e9SAndroid Build Coastguard Worker    pool.unmapped.erase(to_map);
*da0073e9SAndroid Build Coastguard Worker    to_map->mapped = true;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if (mapped_range.size < to_map->size) {
*da0073e9SAndroid Build Coastguard Worker      // to_map -> remaining -> to_map->next(?)
*da0073e9SAndroid Build Coastguard Worker      Block* remaining = new Block(
*da0073e9SAndroid Build Coastguard Worker          to_map->device,
*da0073e9SAndroid Build Coastguard Worker          to_map->stream,
*da0073e9SAndroid Build Coastguard Worker          to_map->size - mapped_range.size,
*da0073e9SAndroid Build Coastguard Worker          &pool,
*da0073e9SAndroid Build Coastguard Worker          static_cast<char*>(to_map->ptr) + mapped_range.size);
*da0073e9SAndroid Build Coastguard Worker      remaining->mapped = false;
*da0073e9SAndroid Build Coastguard Worker      remaining->expandable_segment_ = to_map->expandable_segment_;
*da0073e9SAndroid Build Coastguard Worker      remaining->splice(to_map, to_map->next);
*da0073e9SAndroid Build Coastguard Worker      pool.unmapped.insert(remaining);
*da0073e9SAndroid Build Coastguard Worker      to_map->size = mapped_range.size;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    try_merge_blocks(to_map, to_map->prev, pool);
*da0073e9SAndroid Build Coastguard Worker    try_merge_blocks(to_map, to_map->next, pool);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    pool.insert_into_blocks(to_map);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // update statistics
*da0073e9SAndroid Build Coastguard Worker    total_allocated_memory += mapped_range.size;
*da0073e9SAndroid Build Coastguard Worker    StatTypes stat_types = get_stat_types_for_pool(*to_map->pool);
*da0073e9SAndroid Build Coastguard Worker    for_each_selected_stat_type(stat_types, [&](size_t stat_type) {
*da0073e9SAndroid Build Coastguard Worker      stats.reserved_bytes[stat_type].increase(mapped_range.size);
*da0073e9SAndroid Build Coastguard Worker    });
*da0073e9SAndroid Build Coastguard Worker    auto reserved_bytes_gauge =
*da0073e9SAndroid Build Coastguard Worker        STATIC_GAUGE(pytorch.CUDACachingAllocator.reserved_bytes);
*da0073e9SAndroid Build Coastguard Worker    reserved_bytes_gauge.record(
*da0073e9SAndroid Build Coastguard Worker        stats.reserved_bytes[static_cast<int64_t>(StatType::AGGREGATE)]
*da0073e9SAndroid Build Coastguard Worker            .current);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    stats.num_device_alloc++;
*da0073e9SAndroid Build Coastguard Worker    record_trace(
*da0073e9SAndroid Build Coastguard Worker        TraceEntry::SEGMENT_MAP,
*da0073e9SAndroid Build Coastguard Worker        int64_t(mapped_range.ptr),
*da0073e9SAndroid Build Coastguard Worker        mapped_range.size,
*da0073e9SAndroid Build Coastguard Worker        to_map->stream,
*da0073e9SAndroid Build Coastguard Worker        to_map->device,
*da0073e9SAndroid Build Coastguard Worker        ctx);
*da0073e9SAndroid Build Coastguard Worker    if (!to_map->prev && !to_map->context_when_segment_allocated) {
*da0073e9SAndroid Build Coastguard Worker      to_map->context_when_segment_allocated = ctx;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return true;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  Block* try_allocate_expandable_block(
*da0073e9SAndroid Build Coastguard Worker      c10::DeviceIndex device,
*da0073e9SAndroid Build Coastguard Worker      cudaStream_t stream,
*da0073e9SAndroid Build Coastguard Worker      BlockPool* pool,
*da0073e9SAndroid Build Coastguard Worker      size_t size,
*da0073e9SAndroid Build Coastguard Worker      const std::shared_ptr<GatheredContext>& ctx) {
*da0073e9SAndroid Build Coastguard Worker    Block* candidate = find_expandable_block(device, stream, pool, size);
*da0073e9SAndroid Build Coastguard Worker    // Candidate is now a list free/unmapped blocks with at least size room:
*da0073e9SAndroid Build Coastguard Worker    // unmapped -> null
*da0073e9SAndroid Build Coastguard Worker    // unmapped -> free -> *
*da0073e9SAndroid Build Coastguard Worker    // free -> unmapped -> *
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if (!candidate->mapped &&
*da0073e9SAndroid Build Coastguard Worker        !map_block(candidate, std::min(candidate->size, size), ctx)) {
*da0073e9SAndroid Build Coastguard Worker      return nullptr;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(candidate->mapped);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    while (candidate->size < size) {
*da0073e9SAndroid Build Coastguard Worker      // invariant: free -> unmapped -> *
*da0073e9SAndroid Build Coastguard Worker      // map_block will map some of unmapped and merge with free
*da0073e9SAndroid Build Coastguard Worker      auto remaining = size - candidate->size;
*da0073e9SAndroid Build Coastguard Worker      auto new_candidate = candidate->next;
*da0073e9SAndroid Build Coastguard Worker      if (!map_block(
*da0073e9SAndroid Build Coastguard Worker              new_candidate, std::min(remaining, candidate->next->size), ctx)) {
*da0073e9SAndroid Build Coastguard Worker        return nullptr;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      candidate = new_candidate;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    pool->blocks.erase(candidate);
*da0073e9SAndroid Build Coastguard Worker    return candidate;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  /** moves a block into a pool of cached free blocks */
*da0073e9SAndroid Build Coastguard Worker  void free_block(
*da0073e9SAndroid Build Coastguard Worker      Block* block,
*da0073e9SAndroid Build Coastguard Worker      const std::shared_ptr<GatheredContext>& context) {
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(
*da0073e9SAndroid Build Coastguard Worker        !block->allocated && block->event_count == 0 &&
*da0073e9SAndroid Build Coastguard Worker        block->stream_uses.empty());
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    record_trace(
*da0073e9SAndroid Build Coastguard Worker        TraceEntry::FREE_COMPLETED,
*da0073e9SAndroid Build Coastguard Worker        int64_t(block->ptr),
*da0073e9SAndroid Build Coastguard Worker        block->requested_size,
*da0073e9SAndroid Build Coastguard Worker        block->stream,
*da0073e9SAndroid Build Coastguard Worker        block->device,
*da0073e9SAndroid Build Coastguard Worker        context ? context : block->context_when_allocated);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    block->context_when_allocated = nullptr;
*da0073e9SAndroid Build Coastguard Worker    size_t original_block_size = block->size;
*da0073e9SAndroid Build Coastguard Worker    size_t requested_size = block->requested_size;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    auto& pool = *block->pool;
*da0073e9SAndroid Build Coastguard Worker    int64_t net_change_inactive_split_blocks = 0;
*da0073e9SAndroid Build Coastguard Worker    int64_t net_change_inactive_split_size = 0;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    const std::array<Block*, 2> merge_candidates = {block->prev, block->next};
*da0073e9SAndroid Build Coastguard Worker    for (Block* merge_candidate : merge_candidates) {
*da0073e9SAndroid Build Coastguard Worker      const auto subsumed_size = try_merge_blocks(block, merge_candidate, pool);
*da0073e9SAndroid Build Coastguard Worker      if (subsumed_size > 0) {
*da0073e9SAndroid Build Coastguard Worker        net_change_inactive_split_blocks -= 1;
*da0073e9SAndroid Build Coastguard Worker        net_change_inactive_split_size -= static_cast<int64_t>(subsumed_size);
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    active_blocks.erase(block);
*da0073e9SAndroid Build Coastguard Worker    // Makes sure the Block* isn't already present in the pool we're freeing it
*da0073e9SAndroid Build Coastguard Worker    // back into.
*da0073e9SAndroid Build Coastguard Worker    // NOLINTNEXTLINE(clang-analyzer-deadcode.DeadStores)
*da0073e9SAndroid Build Coastguard Worker    bool inserted = pool.insert_into_blocks(block).second;
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(inserted);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if (block->is_split()) {
*da0073e9SAndroid Build Coastguard Worker      net_change_inactive_split_blocks += 1;
*da0073e9SAndroid Build Coastguard Worker      net_change_inactive_split_size += static_cast<int64_t>(block->size);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    StatTypes stat_types = get_stat_types_for_pool(pool);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    for_each_selected_stat_type(stat_types, [&](size_t stat_type) {
*da0073e9SAndroid Build Coastguard Worker      // inactive_split tries to capture the idea that blocks
*da0073e9SAndroid Build Coastguard Worker      // cannot be freed when requested, but fully free pages
*da0073e9SAndroid Build Coastguard Worker      // of expandable blocks can always be freed.
*da0073e9SAndroid Build Coastguard Worker      // The logic to track this as statistic is pretty involved,
*da0073e9SAndroid Build Coastguard Worker      // so we simply just exclude expandable segments from
*da0073e9SAndroid Build Coastguard Worker      // inactive_split
*da0073e9SAndroid Build Coastguard Worker      if (!block->expandable_segment_) {
*da0073e9SAndroid Build Coastguard Worker        if (net_change_inactive_split_blocks > 0) {
*da0073e9SAndroid Build Coastguard Worker          stats.inactive_split[stat_type].increase(
*da0073e9SAndroid Build Coastguard Worker              static_cast<size_t>(net_change_inactive_split_blocks));
*da0073e9SAndroid Build Coastguard Worker        } else if (net_change_inactive_split_blocks < 0) {
*da0073e9SAndroid Build Coastguard Worker          stats.inactive_split[stat_type].decrease(
*da0073e9SAndroid Build Coastguard Worker              static_cast<size_t>(-net_change_inactive_split_blocks));
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker        if (net_change_inactive_split_size > 0) {
*da0073e9SAndroid Build Coastguard Worker          stats.inactive_split_bytes[stat_type].increase(
*da0073e9SAndroid Build Coastguard Worker              static_cast<size_t>(net_change_inactive_split_size));
*da0073e9SAndroid Build Coastguard Worker        } else if (net_change_inactive_split_size < 0) {
*da0073e9SAndroid Build Coastguard Worker          stats.inactive_split_bytes[stat_type].decrease(
*da0073e9SAndroid Build Coastguard Worker              static_cast<size_t>(-net_change_inactive_split_size));
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      stats.active[stat_type].decrease(1);
*da0073e9SAndroid Build Coastguard Worker      stats.active_bytes[stat_type].decrease(original_block_size);
*da0073e9SAndroid Build Coastguard Worker      stats.requested_bytes[stat_type].decrease(requested_size);
*da0073e9SAndroid Build Coastguard Worker    });
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  /** combine previously split blocks. returns the size of the subsumed block,
*da0073e9SAndroid Build Coastguard Worker   * or 0 on failure. */
*da0073e9SAndroid Build Coastguard Worker  size_t try_merge_blocks(Block* dst, Block* src, BlockPool& pool) {
*da0073e9SAndroid Build Coastguard Worker    if (!src || src->allocated || src->event_count > 0 ||
*da0073e9SAndroid Build Coastguard Worker        !src->stream_uses.empty() || dst->mapped != src->mapped) {
*da0073e9SAndroid Build Coastguard Worker      return 0;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    AT_ASSERT(dst->is_split() && src->is_split());
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if (dst->prev == src) { // [src dst]
*da0073e9SAndroid Build Coastguard Worker      dst->ptr = src->ptr;
*da0073e9SAndroid Build Coastguard Worker      dst->prev = src->prev;
*da0073e9SAndroid Build Coastguard Worker      if (dst->prev) {
*da0073e9SAndroid Build Coastguard Worker        dst->prev->next = dst;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      dst->context_when_segment_allocated =
*da0073e9SAndroid Build Coastguard Worker          std::move(src->context_when_segment_allocated);
*da0073e9SAndroid Build Coastguard Worker    } else { // [dest src]
*da0073e9SAndroid Build Coastguard Worker      dst->next = src->next;
*da0073e9SAndroid Build Coastguard Worker      if (dst->next) {
*da0073e9SAndroid Build Coastguard Worker        dst->next->prev = dst;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    const size_t subsumed_size = src->size;
*da0073e9SAndroid Build Coastguard Worker    dst->size += subsumed_size;
*da0073e9SAndroid Build Coastguard Worker    // NOLINTNEXTLINE(clang-analyzer-deadcode.DeadStores)
*da0073e9SAndroid Build Coastguard Worker    auto erased =
*da0073e9SAndroid Build Coastguard Worker        src->mapped ? pool.blocks.erase(src) : pool.unmapped.erase(src);
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT_DEBUG_ONLY(erased == 1);
*da0073e9SAndroid Build Coastguard Worker    delete src;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return subsumed_size;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  BlockPool& get_pool(size_t size, cudaStream_t stream) {
*da0073e9SAndroid Build Coastguard Worker    // captures_underway is a conservative guess that the current stream may be
*da0073e9SAndroid Build Coastguard Worker    // capturing. It's only non-empty if some thread has begun and not yet ended
*da0073e9SAndroid Build Coastguard Worker    // a capture, so it's usually 0, and we can short-circuit
*da0073e9SAndroid Build Coastguard Worker    // cudaStreamCaptureStatus (which does a TLS lookup).
*da0073e9SAndroid Build Coastguard Worker    if (C10_UNLIKELY(!captures_underway.empty())) {
*da0073e9SAndroid Build Coastguard Worker      for (auto& entry : captures_underway) {
*da0073e9SAndroid Build Coastguard Worker        if (entry.second(stream)) {
*da0073e9SAndroid Build Coastguard Worker          auto it1 = graph_pools.find(entry.first);
*da0073e9SAndroid Build Coastguard Worker          TORCH_INTERNAL_ASSERT(it1 != graph_pools.end());
*da0073e9SAndroid Build Coastguard Worker          if (size <= kSmallSize) {
*da0073e9SAndroid Build Coastguard Worker            return it1->second->small_blocks;
*da0073e9SAndroid Build Coastguard Worker          } else {
*da0073e9SAndroid Build Coastguard Worker            return it1->second->large_blocks;
*da0073e9SAndroid Build Coastguard Worker          }
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    if (size <= kSmallSize) {
*da0073e9SAndroid Build Coastguard Worker      return small_blocks;
*da0073e9SAndroid Build Coastguard Worker    } else {
*da0073e9SAndroid Build Coastguard Worker      return large_blocks;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  StatTypes get_stat_types_for_pool(const BlockPool& pool) {
*da0073e9SAndroid Build Coastguard Worker    StatTypes stat_types = {false};
*da0073e9SAndroid Build Coastguard Worker    stat_types[static_cast<size_t>(StatType::AGGREGATE)] = true;
*da0073e9SAndroid Build Coastguard Worker    stat_types[static_cast<size_t>(
*da0073e9SAndroid Build Coastguard Worker        pool.is_small ? StatType::SMALL_POOL : StatType::LARGE_POOL)] = true;
*da0073e9SAndroid Build Coastguard Worker    return stat_types;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  bool should_split(const Block* block, size_t size) {
*da0073e9SAndroid Build Coastguard Worker    size_t remaining = block->size - size;
*da0073e9SAndroid Build Coastguard Worker    if (block->pool->is_small || CUDAAllocatorConfig::expandable_segments()) {
*da0073e9SAndroid Build Coastguard Worker      return remaining >= kMinBlockSize;
*da0073e9SAndroid Build Coastguard Worker    } else {
*da0073e9SAndroid Build Coastguard Worker      return (size < CUDAAllocatorConfig::max_split_size()) &&
*da0073e9SAndroid Build Coastguard Worker          (remaining > kSmallSize);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  static size_t get_allocation_size(size_t size) {
*da0073e9SAndroid Build Coastguard Worker    if (size <= kSmallSize) {
*da0073e9SAndroid Build Coastguard Worker      return kSmallBuffer;
*da0073e9SAndroid Build Coastguard Worker    } else if (size < kMinLargeAlloc) {
*da0073e9SAndroid Build Coastguard Worker      return kLargeBuffer;
*da0073e9SAndroid Build Coastguard Worker    } else {
*da0073e9SAndroid Build Coastguard Worker      return kRoundLarge * ((size + kRoundLarge - 1) / kRoundLarge);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  bool get_free_block(AllocParams& p) {
*da0073e9SAndroid Build Coastguard Worker    BlockPool& pool = *p.pool;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if (C10_UNLIKELY(
*da0073e9SAndroid Build Coastguard Worker            set_fraction &&
*da0073e9SAndroid Build Coastguard Worker            CUDAAllocatorConfig::garbage_collection_threshold() > 0.0)) {
*da0073e9SAndroid Build Coastguard Worker      // Track block reuse interval only when garbage collection is enabled.
*da0073e9SAndroid Build Coastguard Worker      ++pool.get_free_blocks_call_count;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    auto it = pool.blocks.lower_bound(&p.search_key);
*da0073e9SAndroid Build Coastguard Worker    if (it == pool.blocks.end() || (*it)->stream != p.stream())
*da0073e9SAndroid Build Coastguard Worker      return false;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if ((*it)->expandable_segment_) {
*da0073e9SAndroid Build Coastguard Worker      if (CUDAAllocatorConfig::expandable_segments()) {
*da0073e9SAndroid Build Coastguard Worker        // if we are allocated to the part of the block that is expandable
*da0073e9SAndroid Build Coastguard Worker        // for the purposes of "best fit" we consider its size to be the size it
*da0073e9SAndroid Build Coastguard Worker        // can expand to, not the size it currently is. This means that we
*da0073e9SAndroid Build Coastguard Worker        // sometimes have to search for blocks with bigger 'size' before
*da0073e9SAndroid Build Coastguard Worker        // choosing this segment.
*da0073e9SAndroid Build Coastguard Worker        auto expandable_size = [](Block* b) {
*da0073e9SAndroid Build Coastguard Worker          return b->size + (b->next && !b->next->mapped ? b->next->size : 0);
*da0073e9SAndroid Build Coastguard Worker        };
*da0073e9SAndroid Build Coastguard Worker        auto next = it;
*da0073e9SAndroid Build Coastguard Worker        next++;
*da0073e9SAndroid Build Coastguard Worker        while ((*it)->expandable_segment_ && next != pool.blocks.end() &&
*da0073e9SAndroid Build Coastguard Worker               (*next)->stream == p.stream() &&
*da0073e9SAndroid Build Coastguard Worker               expandable_size(*next) < expandable_size(*it)) {
*da0073e9SAndroid Build Coastguard Worker          it = next++;
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker      } else {
*da0073e9SAndroid Build Coastguard Worker        // Rarely expandable segments has been turned off after we have
*da0073e9SAndroid Build Coastguard Worker        // already allocated some blocks as expandable. For instance,
*da0073e9SAndroid Build Coastguard Worker        // since we cannot share expandable memory via IPC, someone might
*da0073e9SAndroid Build Coastguard Worker        // temporarily disable it. In this case we need to honor this request
*da0073e9SAndroid Build Coastguard Worker        // by only finding non-expandable blocks
*da0073e9SAndroid Build Coastguard Worker        do {
*da0073e9SAndroid Build Coastguard Worker          it++;
*da0073e9SAndroid Build Coastguard Worker        } while (it != pool.blocks.end() && (*it)->expandable_segment_ &&
*da0073e9SAndroid Build Coastguard Worker                 (*it)->stream == p.stream());
*da0073e9SAndroid Build Coastguard Worker        if (it == pool.blocks.end() || (*it)->stream != p.stream()) {
*da0073e9SAndroid Build Coastguard Worker          return false;
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // Do not return an oversized block for a large request
*da0073e9SAndroid Build Coastguard Worker    if ((p.size() < CUDAAllocatorConfig::max_split_size()) &&
*da0073e9SAndroid Build Coastguard Worker        ((*it)->size >= CUDAAllocatorConfig::max_split_size()))
*da0073e9SAndroid Build Coastguard Worker      return false;
*da0073e9SAndroid Build Coastguard Worker    // Allow oversized block size to be rounded up but within a limit
*da0073e9SAndroid Build Coastguard Worker    if ((p.size() >= CUDAAllocatorConfig::max_split_size()) &&
*da0073e9SAndroid Build Coastguard Worker        ((*it)->size >= p.size() + kLargeBuffer))
*da0073e9SAndroid Build Coastguard Worker      return false;
*da0073e9SAndroid Build Coastguard Worker    p.block = *it;
*da0073e9SAndroid Build Coastguard Worker    pool.blocks.erase(it);
*da0073e9SAndroid Build Coastguard Worker    return true;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  bool trigger_free_memory_callbacks(AllocParams& p) {
*da0073e9SAndroid Build Coastguard Worker    bool freed_memory = false;
*da0073e9SAndroid Build Coastguard Worker    for (const auto& name : FreeCudaMemoryCallbacksRegistry()->Keys()) {
*da0073e9SAndroid Build Coastguard Worker      freed_memory |=
*da0073e9SAndroid Build Coastguard Worker          FreeCudaMemoryCallbacksRegistry()->Create(name)->Execute();
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    return freed_memory;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void garbage_collect_cached_blocks(
*da0073e9SAndroid Build Coastguard Worker      const std::shared_ptr<GatheredContext>& context) {
*da0073e9SAndroid Build Coastguard Worker    // Free unused cached blocks to reclaim GPU memory.
*da0073e9SAndroid Build Coastguard Worker    // Unlike release_cached_blocks(), this does not enforce synchronization and
*da0073e9SAndroid Build Coastguard Worker    // therefore should be of less overheads.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    size_t gc_threshold = static_cast<size_t>(
*da0073e9SAndroid Build Coastguard Worker        CUDAAllocatorConfig::garbage_collection_threshold() *
*da0073e9SAndroid Build Coastguard Worker        static_cast<double>(allowed_memory_maximum));
*da0073e9SAndroid Build Coastguard Worker    // No need to trigger GC yet
*da0073e9SAndroid Build Coastguard Worker    if (total_allocated_memory <= gc_threshold) {
*da0073e9SAndroid Build Coastguard Worker      return;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    const auto target_size = total_allocated_memory - gc_threshold;
*da0073e9SAndroid Build Coastguard Worker    size_t gc_reclaimed = 0;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // Calculate the total age of the free-able blocks. We'll use it later to
*da0073e9SAndroid Build Coastguard Worker    // get "avg age" threshold.
*da0073e9SAndroid Build Coastguard Worker    size_t total_age = 0.0;
*da0073e9SAndroid Build Coastguard Worker    int freeable_block_count = 0;
*da0073e9SAndroid Build Coastguard Worker    for (auto& b : large_blocks.blocks) {
*da0073e9SAndroid Build Coastguard Worker      if (!b->is_split()) {
*da0073e9SAndroid Build Coastguard Worker        total_age += b->gc_count();
*da0073e9SAndroid Build Coastguard Worker        ++freeable_block_count;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    // No free-able blocks?
*da0073e9SAndroid Build Coastguard Worker    if (freeable_block_count == 0) {
*da0073e9SAndroid Build Coastguard Worker      return;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // Repeat GC until we reach reclaim > target size.
*da0073e9SAndroid Build Coastguard Worker    bool block_freed = true;
*da0073e9SAndroid Build Coastguard Worker    while (gc_reclaimed < target_size && block_freed == true &&
*da0073e9SAndroid Build Coastguard Worker           freeable_block_count > 0) {
*da0073e9SAndroid Build Coastguard Worker      // Free blocks exceeding this age threshold first.
*da0073e9SAndroid Build Coastguard Worker      double age_threshold =
*da0073e9SAndroid Build Coastguard Worker          static_cast<double>(total_age) / freeable_block_count;
*da0073e9SAndroid Build Coastguard Worker      // Stop iteration if we can no longer free a block.
*da0073e9SAndroid Build Coastguard Worker      block_freed = false;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      // Free blocks of > avg age. Don't stop upon reaching the target_size,
*da0073e9SAndroid Build Coastguard Worker      // we don't want this GC to be triggered frequently.
*da0073e9SAndroid Build Coastguard Worker      auto it = large_blocks.blocks.begin();
*da0073e9SAndroid Build Coastguard Worker      while (it != large_blocks.blocks.end()) {
*da0073e9SAndroid Build Coastguard Worker        Block* block = *it;
*da0073e9SAndroid Build Coastguard Worker        ++it;
*da0073e9SAndroid Build Coastguard Worker        if (!block->is_split() && !block->expandable_segment_ &&
*da0073e9SAndroid Build Coastguard Worker            static_cast<double>(block->gc_count()) >= age_threshold) {
*da0073e9SAndroid Build Coastguard Worker          block_freed = true;
*da0073e9SAndroid Build Coastguard Worker          gc_reclaimed += block->size;
*da0073e9SAndroid Build Coastguard Worker          total_age -= block->gc_count(); // Decrement the age
*da0073e9SAndroid Build Coastguard Worker          freeable_block_count--; // One less block that can be freed
*da0073e9SAndroid Build Coastguard Worker          release_block(block, context);
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // This function assumes that global lock has been taken whle calling into
*da0073e9SAndroid Build Coastguard Worker  // this function. We do cudaMalloc sync call in this function which
*da0073e9SAndroid Build Coastguard Worker  // can be expensive while holding the lock. Hence, we pass-in the lock to the
*da0073e9SAndroid Build Coastguard Worker  // function to temporarily release the lock before cudaMalloc call and acquire
*da0073e9SAndroid Build Coastguard Worker  // it back again after the call so that other threads dont get blocked.
*da0073e9SAndroid Build Coastguard Worker  bool alloc_block(
*da0073e9SAndroid Build Coastguard Worker      AllocParams& p,
*da0073e9SAndroid Build Coastguard Worker      bool isRetry,
*da0073e9SAndroid Build Coastguard Worker      const std::shared_ptr<GatheredContext>& ctx,
*da0073e9SAndroid Build Coastguard Worker      std::unique_lock<std::recursive_mutex>& lock) {
*da0073e9SAndroid Build Coastguard Worker    // Defensively checks for preexisting CUDA error state.
*da0073e9SAndroid Build Coastguard Worker    C10_CUDA_CHECK(cudaGetLastError());
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    size_t size = p.alloc_size;
*da0073e9SAndroid Build Coastguard Worker    void* ptr = nullptr;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if (isRetry) {
*da0073e9SAndroid Build Coastguard Worker      stats.num_alloc_retries += 1;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker#ifdef FBCODE_CAFFE2
*da0073e9SAndroid Build Coastguard Worker    bool in_fbcode = true;
*da0073e9SAndroid Build Coastguard Worker#else
*da0073e9SAndroid Build Coastguard Worker    bool in_fbcode = false;
*da0073e9SAndroid Build Coastguard Worker#endif
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if (set_fraction &&
*da0073e9SAndroid Build Coastguard Worker        total_allocated_memory + size > allowed_memory_maximum) {
*da0073e9SAndroid Build Coastguard Worker      p.err = cudaErrorMemoryAllocation;
*da0073e9SAndroid Build Coastguard Worker      return false;
*da0073e9SAndroid Build Coastguard Worker      // Temporarily disable checkpointing & cudagraphs internally
*da0073e9SAndroid Build Coastguard Worker    } else if (
*da0073e9SAndroid Build Coastguard Worker        CUDAAllocatorConfig::expandable_segments() &&
*da0073e9SAndroid Build Coastguard Worker        !(in_fbcode && p.pool->owner_PrivatePool)) {
*da0073e9SAndroid Build Coastguard Worker      p.block = try_allocate_expandable_block(
*da0073e9SAndroid Build Coastguard Worker          p.device(), p.stream(), p.pool, p.size(), ctx);
*da0073e9SAndroid Build Coastguard Worker      if (p.block) {
*da0073e9SAndroid Build Coastguard Worker        p.err = cudaSuccess;
*da0073e9SAndroid Build Coastguard Worker        if (p.pool->owner_PrivatePool) {
*da0073e9SAndroid Build Coastguard Worker          // The block is for a CUDA graph's PrivatePool.
*da0073e9SAndroid Build Coastguard Worker          p.pool->owner_PrivatePool->cudaMalloc_count++;
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker      } else {
*da0073e9SAndroid Build Coastguard Worker        p.err = cudaErrorMemoryAllocation;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      return bool(p.block);
*da0073e9SAndroid Build Coastguard Worker    } else {
*da0073e9SAndroid Build Coastguard Worker      if (CUDAAllocatorConfig::release_lock_on_cudamalloc()) {
*da0073e9SAndroid Build Coastguard Worker        // At scope exit, acquire the lock again. This provides safety against
*da0073e9SAndroid Build Coastguard Worker        // any potential exceptions in the cudaMallocMaybeCapturing function.
*da0073e9SAndroid Build Coastguard Worker        auto sg = c10::make_scope_exit([&]() { lock.lock(); });
*da0073e9SAndroid Build Coastguard Worker        lock.unlock();
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      auto active_pool = MemPoolContext::getActiveMemPool();
*da0073e9SAndroid Build Coastguard Worker      if (active_pool && active_pool->allocator() &&
*da0073e9SAndroid Build Coastguard Worker          p.pool->owner_PrivatePool) {
*da0073e9SAndroid Build Coastguard Worker        ptr = active_pool->allocator()->raw_alloc(size);
*da0073e9SAndroid Build Coastguard Worker        p.err = ptr ? cudaSuccess : cudaErrorMemoryAllocation;
*da0073e9SAndroid Build Coastguard Worker      } else {
*da0073e9SAndroid Build Coastguard Worker        p.err = cudaMallocMaybeCapturing(&ptr, size);
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      if (CUDAAllocatorConfig::release_lock_on_cudamalloc()) {
*da0073e9SAndroid Build Coastguard Worker        TORCH_CHECK(
*da0073e9SAndroid Build Coastguard Worker            lock.owns_lock(), "Failed to acquire lock after cudaMalloc");
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      if (p.err != cudaSuccess) {
*da0073e9SAndroid Build Coastguard Worker        if (p.err == cudaErrorMemoryAllocation) {
*da0073e9SAndroid Build Coastguard Worker          // If this is the first attempt (!isRetry), we can forgive and clear
*da0073e9SAndroid Build Coastguard Worker          // CUDA's internal error state.
*da0073e9SAndroid Build Coastguard Worker          //
*da0073e9SAndroid Build Coastguard Worker          // If this is the second attempt (isRetry), malloc's TORCH_CHECK_WITH
*da0073e9SAndroid Build Coastguard Worker          // will take over to throw a helpful exception. The user can choose
*da0073e9SAndroid Build Coastguard Worker          // to catch the exception, free some stuff in their script, and
*da0073e9SAndroid Build Coastguard Worker          // attempt the allocation again. In this case, we can also forgive and
*da0073e9SAndroid Build Coastguard Worker          // clear CUDA's internal error state.
*da0073e9SAndroid Build Coastguard Worker          (void)cudaGetLastError();
*da0073e9SAndroid Build Coastguard Worker        } else {
*da0073e9SAndroid Build Coastguard Worker          // If the error's unrelated to memory allocation, we should throw
*da0073e9SAndroid Build Coastguard Worker          // immediately.
*da0073e9SAndroid Build Coastguard Worker          C10_CUDA_CHECK(p.err);
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker        return false;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if (p.pool->owner_PrivatePool) {
*da0073e9SAndroid Build Coastguard Worker      // The block is for a CUDA graph's PrivatePool.
*da0073e9SAndroid Build Coastguard Worker      p.pool->owner_PrivatePool->cudaMalloc_count++;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    total_allocated_memory += size;
*da0073e9SAndroid Build Coastguard Worker    p.block = new Block(p.device(), p.stream(), size, p.pool, (char*)ptr);
*da0073e9SAndroid Build Coastguard Worker    for_each_selected_stat_type(p.stat_types, [&](size_t stat_type) {
*da0073e9SAndroid Build Coastguard Worker      stats.segment[stat_type].increase(1);
*da0073e9SAndroid Build Coastguard Worker      stats.reserved_bytes[stat_type].increase(size);
*da0073e9SAndroid Build Coastguard Worker    });
*da0073e9SAndroid Build Coastguard Worker    if (size >= CUDAAllocatorConfig::max_split_size())
*da0073e9SAndroid Build Coastguard Worker      stats.oversize_segments.increase(1);
*da0073e9SAndroid Build Coastguard Worker    auto reserved_bytes_gauge =
*da0073e9SAndroid Build Coastguard Worker        STATIC_GAUGE(pytorch.CUDACachingAllocator.reserved_bytes);
*da0073e9SAndroid Build Coastguard Worker    reserved_bytes_gauge.record(
*da0073e9SAndroid Build Coastguard Worker        stats.reserved_bytes[static_cast<int64_t>(StatType::AGGREGATE)]
*da0073e9SAndroid Build Coastguard Worker            .current);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // p.block came from new, not cudaMalloc. It should not be nullptr here.
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(p.block != nullptr && p.block->ptr != nullptr);
*da0073e9SAndroid Build Coastguard Worker    stats.num_device_alloc++;
*da0073e9SAndroid Build Coastguard Worker    record_trace(
*da0073e9SAndroid Build Coastguard Worker        TraceEntry::SEGMENT_ALLOC,
*da0073e9SAndroid Build Coastguard Worker        int64_t(p.block->ptr),
*da0073e9SAndroid Build Coastguard Worker        p.block->size,
*da0073e9SAndroid Build Coastguard Worker        p.stream(),
*da0073e9SAndroid Build Coastguard Worker        p.device(),
*da0073e9SAndroid Build Coastguard Worker        ctx);
*da0073e9SAndroid Build Coastguard Worker    p.block->context_when_segment_allocated = ctx;
*da0073e9SAndroid Build Coastguard Worker    return true;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  /** Free one or more oversize blocks to the system allocator.  But only enough
*da0073e9SAndroid Build Coastguard Worker   * **/
*da0073e9SAndroid Build Coastguard Worker  /** to satisfy the target size **/
*da0073e9SAndroid Build Coastguard Worker  bool release_available_cached_blocks(
*da0073e9SAndroid Build Coastguard Worker      const AllocParams& p,
*da0073e9SAndroid Build Coastguard Worker      const std::shared_ptr<GatheredContext>& context) {
*da0073e9SAndroid Build Coastguard Worker    if (CUDAAllocatorConfig::max_split_size() ==
*da0073e9SAndroid Build Coastguard Worker        std::numeric_limits<size_t>::max())
*da0073e9SAndroid Build Coastguard Worker      return false;
*da0073e9SAndroid Build Coastguard Worker    BlockPool& pool = *p.pool;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // because of std::unique_ptr, block cannot be trivially copied
*da0073e9SAndroid Build Coastguard Worker    // Use constructor for search key.
*da0073e9SAndroid Build Coastguard Worker    Block key(p.search_key.device, p.search_key.stream, p.search_key.size);
*da0073e9SAndroid Build Coastguard Worker    key.size = (key.size < CUDAAllocatorConfig::max_split_size())
*da0073e9SAndroid Build Coastguard Worker        ? CUDAAllocatorConfig::max_split_size()
*da0073e9SAndroid Build Coastguard Worker        : key.size;
*da0073e9SAndroid Build Coastguard Worker    auto it = pool.blocks.lower_bound(&key);
*da0073e9SAndroid Build Coastguard Worker    if (it == pool.blocks.end() || (*it)->stream != p.stream() ||
*da0073e9SAndroid Build Coastguard Worker        (*it)->expandable_segment_) {
*da0073e9SAndroid Build Coastguard Worker      // No single block is large enough; free multiple oversize blocks,
*da0073e9SAndroid Build Coastguard Worker      // starting with the largest
*da0073e9SAndroid Build Coastguard Worker      if (it == pool.blocks.begin())
*da0073e9SAndroid Build Coastguard Worker        return false;
*da0073e9SAndroid Build Coastguard Worker      size_t totalReleased = 0;
*da0073e9SAndroid Build Coastguard Worker      --it; // Back up one item.  Now on the largest block for the correct
*da0073e9SAndroid Build Coastguard Worker            // stream
*da0073e9SAndroid Build Coastguard Worker      while ((totalReleased < key.size) &&
*da0073e9SAndroid Build Coastguard Worker             ((*it)->size >= CUDAAllocatorConfig::max_split_size()) &&
*da0073e9SAndroid Build Coastguard Worker             ((*it)->stream == p.stream())) {
*da0073e9SAndroid Build Coastguard Worker        auto cur = it;
*da0073e9SAndroid Build Coastguard Worker        bool is_first = cur == pool.blocks.begin();
*da0073e9SAndroid Build Coastguard Worker        if (!is_first) {
*da0073e9SAndroid Build Coastguard Worker          --it;
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker        if (!(*cur)->expandable_segment_) {
*da0073e9SAndroid Build Coastguard Worker          release_block(*cur, context);
*da0073e9SAndroid Build Coastguard Worker          totalReleased += (*cur)->size;
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker        if (is_first) {
*da0073e9SAndroid Build Coastguard Worker          break;
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      if (totalReleased < key.size)
*da0073e9SAndroid Build Coastguard Worker        return false;
*da0073e9SAndroid Build Coastguard Worker    } else {
*da0073e9SAndroid Build Coastguard Worker      release_block(*it, context);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    return true;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  bool release_cached_blocks(const std::shared_ptr<GatheredContext>& context) {
*da0073e9SAndroid Build Coastguard Worker    // First ensure that all blocks that can't currently be allocated due to
*da0073e9SAndroid Build Coastguard Worker    // outstanding events are returned to the pool.
*da0073e9SAndroid Build Coastguard Worker    synchronize_and_free_events(context);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // Free all non-split cached blocks to system allocator
*da0073e9SAndroid Build Coastguard Worker    release_blocks(large_blocks, context);
*da0073e9SAndroid Build Coastguard Worker    release_blocks(small_blocks, context);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    for (auto it = graph_pools_freeable.begin();
*da0073e9SAndroid Build Coastguard Worker         it != graph_pools_freeable.end();) {
*da0073e9SAndroid Build Coastguard Worker      // See notifyCaptureDestroy for the strategy here.
*da0073e9SAndroid Build Coastguard Worker      TORCH_INTERNAL_ASSERT(it->second->use_count == 0);
*da0073e9SAndroid Build Coastguard Worker      release_blocks(it->second->small_blocks, context);
*da0073e9SAndroid Build Coastguard Worker      release_blocks(it->second->large_blocks, context);
*da0073e9SAndroid Build Coastguard Worker      if (it->second->cudaMalloc_count == 0) {
*da0073e9SAndroid Build Coastguard Worker        auto erase_count = graph_pools.erase(it->first);
*da0073e9SAndroid Build Coastguard Worker        TORCH_INTERNAL_ASSERT(erase_count == 1);
*da0073e9SAndroid Build Coastguard Worker        it = graph_pools_freeable.erase(it);
*da0073e9SAndroid Build Coastguard Worker      } else {
*da0073e9SAndroid Build Coastguard Worker        ++it;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return true;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void release_expandable_segment(Block* block) {
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(
*da0073e9SAndroid Build Coastguard Worker        block->size == block->expandable_segment_->size(),
*da0073e9SAndroid Build Coastguard Worker        "block disagrees with segment");
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(!block->mapped);
*da0073e9SAndroid Build Coastguard Worker    auto it = std::find(
*da0073e9SAndroid Build Coastguard Worker        expandable_segments_.begin(),
*da0073e9SAndroid Build Coastguard Worker        expandable_segments_.end(),
*da0073e9SAndroid Build Coastguard Worker        block->expandable_segment_);
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(it != expandable_segments_.end());
*da0073e9SAndroid Build Coastguard Worker    expandable_segments_.erase(it);
*da0073e9SAndroid Build Coastguard Worker    block->pool->unmapped.erase(block);
*da0073e9SAndroid Build Coastguard Worker    delete block->expandable_segment_;
*da0073e9SAndroid Build Coastguard Worker    delete block;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void release_block(
*da0073e9SAndroid Build Coastguard Worker      Block* block,
*da0073e9SAndroid Build Coastguard Worker      const std::shared_ptr<GatheredContext>& context) {
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(!block->expandable_segment_);
*da0073e9SAndroid Build Coastguard Worker    stats.num_device_free++;
*da0073e9SAndroid Build Coastguard Worker    record_trace(
*da0073e9SAndroid Build Coastguard Worker        TraceEntry::SEGMENT_FREE,
*da0073e9SAndroid Build Coastguard Worker        int64_t(block->ptr),
*da0073e9SAndroid Build Coastguard Worker        block->size,
*da0073e9SAndroid Build Coastguard Worker        block->stream,
*da0073e9SAndroid Build Coastguard Worker        block->device,
*da0073e9SAndroid Build Coastguard Worker        context ? context : block->context_when_segment_allocated);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    C10_CUDA_CHECK(cudaFree((void*)block->ptr));
*da0073e9SAndroid Build Coastguard Worker    total_allocated_memory -= block->size;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    auto* pool = block->pool;
*da0073e9SAndroid Build Coastguard Worker    if (pool->owner_PrivatePool) {
*da0073e9SAndroid Build Coastguard Worker      // The cudaFreed block belonged to a CUDA graph's PrivatePool.
*da0073e9SAndroid Build Coastguard Worker      TORCH_INTERNAL_ASSERT(pool->owner_PrivatePool->cudaMalloc_count > 0);
*da0073e9SAndroid Build Coastguard Worker      pool->owner_PrivatePool->cudaMalloc_count--;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    StatTypes stat_types = get_stat_types_for_pool(*pool);
*da0073e9SAndroid Build Coastguard Worker    for_each_selected_stat_type(stat_types, [&](size_t stat_type) {
*da0073e9SAndroid Build Coastguard Worker      stats.segment[stat_type].decrease(1);
*da0073e9SAndroid Build Coastguard Worker      stats.reserved_bytes[stat_type].decrease(block->size);
*da0073e9SAndroid Build Coastguard Worker    });
*da0073e9SAndroid Build Coastguard Worker    auto reserved_bytes_gauge =
*da0073e9SAndroid Build Coastguard Worker        STATIC_GAUGE(pytorch.CUDACachingAllocator.reserved_bytes);
*da0073e9SAndroid Build Coastguard Worker    reserved_bytes_gauge.record(
*da0073e9SAndroid Build Coastguard Worker        stats.reserved_bytes[static_cast<int64_t>(StatType::AGGREGATE)]
*da0073e9SAndroid Build Coastguard Worker            .current);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if (block->size >= CUDAAllocatorConfig::max_split_size())
*da0073e9SAndroid Build Coastguard Worker      stats.oversize_segments.decrease(1);
*da0073e9SAndroid Build Coastguard Worker    pool->blocks.erase(block);
*da0073e9SAndroid Build Coastguard Worker    delete block;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void unmap_block(
*da0073e9SAndroid Build Coastguard Worker      Block* block,
*da0073e9SAndroid Build Coastguard Worker      const std::shared_ptr<GatheredContext>& context) {
*da0073e9SAndroid Build Coastguard Worker    auto unmapped = block->expandable_segment_->unmap(
*da0073e9SAndroid Build Coastguard Worker        SegmentRange{block->ptr, block->size});
*da0073e9SAndroid Build Coastguard Worker    if (unmapped.size == 0) {
*da0073e9SAndroid Build Coastguard Worker      return;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    block->pool->blocks.erase(block);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    ptrdiff_t before_size =
*da0073e9SAndroid Build Coastguard Worker        static_cast<char*>(unmapped.ptr) - static_cast<char*>(block->ptr);
*da0073e9SAndroid Build Coastguard Worker    if (before_size > 0) {
*da0073e9SAndroid Build Coastguard Worker      // prev? -> before_free -> block
*da0073e9SAndroid Build Coastguard Worker      Block* before_free = new Block(
*da0073e9SAndroid Build Coastguard Worker          block->device, block->stream, before_size, block->pool, block->ptr);
*da0073e9SAndroid Build Coastguard Worker      before_free->expandable_segment_ = block->expandable_segment_;
*da0073e9SAndroid Build Coastguard Worker      before_free->splice(block->prev, block);
*da0073e9SAndroid Build Coastguard Worker      block->pool->insert_into_blocks(before_free);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    auto after_size = block->size - (before_size + unmapped.size);
*da0073e9SAndroid Build Coastguard Worker    if (after_size > 0) {
*da0073e9SAndroid Build Coastguard Worker      // block -> after_free -> next?
*da0073e9SAndroid Build Coastguard Worker      Block* after_free = new Block(
*da0073e9SAndroid Build Coastguard Worker          block->device,
*da0073e9SAndroid Build Coastguard Worker          block->stream,
*da0073e9SAndroid Build Coastguard Worker          after_size,
*da0073e9SAndroid Build Coastguard Worker          block->pool,
*da0073e9SAndroid Build Coastguard Worker          static_cast<char*>(unmapped.ptr) + unmapped.size);
*da0073e9SAndroid Build Coastguard Worker      after_free->expandable_segment_ = block->expandable_segment_;
*da0073e9SAndroid Build Coastguard Worker      after_free->splice(block, block->next);
*da0073e9SAndroid Build Coastguard Worker      block->pool->insert_into_blocks(after_free);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    block->ptr = unmapped.ptr;
*da0073e9SAndroid Build Coastguard Worker    block->size = unmapped.size;
*da0073e9SAndroid Build Coastguard Worker    block->mapped = false;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    try_merge_blocks(block, block->prev, *block->pool);
*da0073e9SAndroid Build Coastguard Worker    try_merge_blocks(block, block->next, *block->pool);
*da0073e9SAndroid Build Coastguard Worker    block->pool->unmapped.insert(block);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // update statistics
*da0073e9SAndroid Build Coastguard Worker    total_allocated_memory -= unmapped.size;
*da0073e9SAndroid Build Coastguard Worker    StatTypes stat_types = get_stat_types_for_pool(*block->pool);
*da0073e9SAndroid Build Coastguard Worker    for_each_selected_stat_type(stat_types, [&](size_t stat_type) {
*da0073e9SAndroid Build Coastguard Worker      stats.reserved_bytes[stat_type].decrease(unmapped.size);
*da0073e9SAndroid Build Coastguard Worker    });
*da0073e9SAndroid Build Coastguard Worker    auto reserved_bytes_gauge =
*da0073e9SAndroid Build Coastguard Worker        STATIC_GAUGE(pytorch.CUDACachingAllocator.reserved_bytes);
*da0073e9SAndroid Build Coastguard Worker    reserved_bytes_gauge.record(
*da0073e9SAndroid Build Coastguard Worker        stats.reserved_bytes[static_cast<int64_t>(StatType::AGGREGATE)]
*da0073e9SAndroid Build Coastguard Worker            .current);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if (block->pool->owner_PrivatePool) {
*da0073e9SAndroid Build Coastguard Worker      // The cudaFreed block belonged to a CUDA graph's PrivatePool.
*da0073e9SAndroid Build Coastguard Worker      TORCH_INTERNAL_ASSERT(
*da0073e9SAndroid Build Coastguard Worker          block->pool->owner_PrivatePool->cudaMalloc_count > 0);
*da0073e9SAndroid Build Coastguard Worker      block->pool->owner_PrivatePool->cudaMalloc_count--;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    stats.num_device_free++;
*da0073e9SAndroid Build Coastguard Worker    record_trace(
*da0073e9SAndroid Build Coastguard Worker        TraceEntry::SEGMENT_UNMAP,
*da0073e9SAndroid Build Coastguard Worker        int64_t(unmapped.ptr),
*da0073e9SAndroid Build Coastguard Worker        unmapped.size,
*da0073e9SAndroid Build Coastguard Worker        block->stream,
*da0073e9SAndroid Build Coastguard Worker        block->device,
*da0073e9SAndroid Build Coastguard Worker        context ? context : block->context_when_segment_allocated);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  void release_blocks(
*da0073e9SAndroid Build Coastguard Worker      BlockPool& pool,
*da0073e9SAndroid Build Coastguard Worker      const std::shared_ptr<GatheredContext>& context) {
*da0073e9SAndroid Build Coastguard Worker    std::vector<Block*> to_unmap;
*da0073e9SAndroid Build Coastguard Worker    // Frees all non-split blocks
*da0073e9SAndroid Build Coastguard Worker    auto it = pool.blocks.begin();
*da0073e9SAndroid Build Coastguard Worker    while (it != pool.blocks.end()) {
*da0073e9SAndroid Build Coastguard Worker      Block* block = *it;
*da0073e9SAndroid Build Coastguard Worker      ++it;
*da0073e9SAndroid Build Coastguard Worker      if (block->expandable_segment_) {
*da0073e9SAndroid Build Coastguard Worker        // unmapping will mutate the free pool
*da0073e9SAndroid Build Coastguard Worker        // so just gather what needs to be freed
*da0073e9SAndroid Build Coastguard Worker        // to avoid invalidating the iterator
*da0073e9SAndroid Build Coastguard Worker        to_unmap.push_back(block);
*da0073e9SAndroid Build Coastguard Worker      } else if (!block->prev && !block->next) {
*da0073e9SAndroid Build Coastguard Worker        release_block(block, context);
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    for (Block* block : to_unmap) {
*da0073e9SAndroid Build Coastguard Worker      unmap_block(block, context);
*da0073e9SAndroid Build Coastguard Worker      if (!block->prev && !block->next) {
*da0073e9SAndroid Build Coastguard Worker        release_expandable_segment(block);
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  EventPool::Event create_event_internal(c10::DeviceIndex idx) {
*da0073e9SAndroid Build Coastguard Worker    // Leak the event pool to avoid shutdown issues.
*da0073e9SAndroid Build Coastguard Worker    static auto* event_pool = new EventPool();
*da0073e9SAndroid Build Coastguard Worker    return event_pool->get(idx);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void synchronize_and_free_events(
*da0073e9SAndroid Build Coastguard Worker      const std::shared_ptr<GatheredContext>& context) {
*da0073e9SAndroid Build Coastguard Worker    // Synchronize on outstanding events and then free associated blocks.
*da0073e9SAndroid Build Coastguard Worker    stats.num_sync_all_streams++;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // This function syncs, so capture should not be underway. Might as well
*da0073e9SAndroid Build Coastguard Worker    // make sure capture-deferred end of life events get processed too.
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(captures_underway.empty());
*da0073e9SAndroid Build Coastguard Worker    insert_events_deferred_until_no_capture(context);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    for (auto& st : cuda_events) {
*da0073e9SAndroid Build Coastguard Worker      for (auto& e : st.second) {
*da0073e9SAndroid Build Coastguard Worker        EventPool::Event event = std::move(e.first);
*da0073e9SAndroid Build Coastguard Worker        Block* block = e.second;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        C10_CUDA_CHECK(cudaEventSynchronize(*event));
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        block->event_count--;
*da0073e9SAndroid Build Coastguard Worker        if (block->event_count == 0) {
*da0073e9SAndroid Build Coastguard Worker          free_block(block, context);
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    cuda_events.clear();
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void remove_cudagraph_stream_uses(Block* block) {
*da0073e9SAndroid Build Coastguard Worker    // remove stream uses added during cudagraph capture
*da0073e9SAndroid Build Coastguard Worker    // (i.e., block->stream_uses - block->cudagraph_stream_uses)
*da0073e9SAndroid Build Coastguard Worker    if (C10_UNLIKELY(
*da0073e9SAndroid Build Coastguard Worker            block_to_cudagraph_stream_uses.find(block) !=
*da0073e9SAndroid Build Coastguard Worker            block_to_cudagraph_stream_uses.end())) {
*da0073e9SAndroid Build Coastguard Worker      stream_set streams(std::move(block->stream_uses));
*da0073e9SAndroid Build Coastguard Worker      AT_ASSERT(block->stream_uses.empty());
*da0073e9SAndroid Build Coastguard Worker      for (auto& stream : streams) {
*da0073e9SAndroid Build Coastguard Worker        if (block_to_cudagraph_stream_uses[block].find(stream) ==
*da0073e9SAndroid Build Coastguard Worker            block_to_cudagraph_stream_uses[block].end()) {
*da0073e9SAndroid Build Coastguard Worker          block->stream_uses.insert(stream);
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      block_to_cudagraph_stream_uses.erase(block);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void insert_events(Block* block) {
*da0073e9SAndroid Build Coastguard Worker    c10::DeviceIndex prev_device = 0;
*da0073e9SAndroid Build Coastguard Worker    C10_CUDA_CHECK(c10::cuda::GetDevice(&prev_device));
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    stream_set streams(std::move(block->stream_uses));
*da0073e9SAndroid Build Coastguard Worker    AT_ASSERT(block->stream_uses.empty());
*da0073e9SAndroid Build Coastguard Worker    for (auto& stream : streams) {
*da0073e9SAndroid Build Coastguard Worker      C10_CUDA_CHECK(c10::cuda::SetDevice(stream.device_index()));
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      EventPool::Event event = create_event_internal(stream.device_index());
*da0073e9SAndroid Build Coastguard Worker      C10_CUDA_CHECK(cudaEventRecord(*event, stream.stream()));
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      block->event_count++;
*da0073e9SAndroid Build Coastguard Worker      cuda_events[stream].emplace_back(std::move(event), block);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    C10_CUDA_CHECK(c10::cuda::MaybeSetDevice(prev_device));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void insert_events_deferred_until_no_capture(
*da0073e9SAndroid Build Coastguard Worker      const std::shared_ptr<GatheredContext>& context) {
*da0073e9SAndroid Build Coastguard Worker    if (C10_UNLIKELY(!needs_events_deferred_until_no_capture.empty())) {
*da0073e9SAndroid Build Coastguard Worker      for (auto* block : needs_events_deferred_until_no_capture) {
*da0073e9SAndroid Build Coastguard Worker        TORCH_INTERNAL_ASSERT(!block->stream_uses.empty());
*da0073e9SAndroid Build Coastguard Worker        // only streams recorded before cudagraph will be used to insert events
*da0073e9SAndroid Build Coastguard Worker        // since we know all streams recorded during cudagraph must have
*da0073e9SAndroid Build Coastguard Worker        // completed (refer to Section 3.2.8.7.3.1 Cross-stream Dependencies and
*da0073e9SAndroid Build Coastguard Worker        // Events in CUDA Programming Guide).
*da0073e9SAndroid Build Coastguard Worker        remove_cudagraph_stream_uses(block);
*da0073e9SAndroid Build Coastguard Worker        insert_events(block);
*da0073e9SAndroid Build Coastguard Worker        if (block->event_count == 0) {
*da0073e9SAndroid Build Coastguard Worker          free_block(block, context);
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      needs_events_deferred_until_no_capture.clear();
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void process_events(const std::shared_ptr<GatheredContext>& context) {
*da0073e9SAndroid Build Coastguard Worker    insert_events_deferred_until_no_capture(context);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // Process outstanding cudaEvents. Events that are completed are
*da0073e9SAndroid Build Coastguard Worker    // removed from the queue, and the 'event_count' for the
*da0073e9SAndroid Build Coastguard Worker    // corresponding allocation is decremented. We maintain a separate
*da0073e9SAndroid Build Coastguard Worker    // list of events per stream to avoid head-of-line delays if one
*da0073e9SAndroid Build Coastguard Worker    // or more streams has long-running operations.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // Iterate over different streams.
*da0073e9SAndroid Build Coastguard Worker    for (auto it = cuda_events.begin(); it != cuda_events.end();) {
*da0073e9SAndroid Build Coastguard Worker      // Iterate over this stream's (event, block) pairs.
*da0073e9SAndroid Build Coastguard Worker      while (!it->second.empty()) {
*da0073e9SAndroid Build Coastguard Worker        auto& e = it->second.front();
*da0073e9SAndroid Build Coastguard Worker        EventPool::Event event = std::move(e.first);
*da0073e9SAndroid Build Coastguard Worker        Block* block = e.second;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        cudaError_t err = C10_CUDA_ERROR_HANDLED(cudaEventQuery(*event));
*da0073e9SAndroid Build Coastguard Worker        if (err == cudaErrorNotReady) {
*da0073e9SAndroid Build Coastguard Worker          // ignore and clear the error if not ready
*da0073e9SAndroid Build Coastguard Worker          (void)cudaGetLastError();
*da0073e9SAndroid Build Coastguard Worker          // Return the ownership of the Event (unique ptr)
*da0073e9SAndroid Build Coastguard Worker          e.first = std::move(event);
*da0073e9SAndroid Build Coastguard Worker          break;
*da0073e9SAndroid Build Coastguard Worker        } else if (err != cudaSuccess) {
*da0073e9SAndroid Build Coastguard Worker          C10_CUDA_CHECK(err);
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        block->event_count--;
*da0073e9SAndroid Build Coastguard Worker        if (block->event_count == 0) {
*da0073e9SAndroid Build Coastguard Worker          free_block(block, context);
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker        it->second.pop_front();
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      if (it->second.empty()) {
*da0073e9SAndroid Build Coastguard Worker        it = cuda_events.erase(it);
*da0073e9SAndroid Build Coastguard Worker      } else {
*da0073e9SAndroid Build Coastguard Worker        it++;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Iterates over sizes of all memory blocks for given device in given pool
*da0073e9SAndroid Build Coastguard Worker  void cache_info_aux(const BlockPool& pool, size_t* largest) {
*da0073e9SAndroid Build Coastguard Worker    for (const auto& block : pool.blocks) {
*da0073e9SAndroid Build Coastguard Worker      const auto blocksize = block->size;
*da0073e9SAndroid Build Coastguard Worker      if (blocksize > *largest) {
*da0073e9SAndroid Build Coastguard Worker        *largest = blocksize;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void record_trace(
*da0073e9SAndroid Build Coastguard Worker      TraceEntry::Action action,
*da0073e9SAndroid Build Coastguard Worker      size_t addr,
*da0073e9SAndroid Build Coastguard Worker      size_t size,
*da0073e9SAndroid Build Coastguard Worker      cudaStream_t stream,
*da0073e9SAndroid Build Coastguard Worker      c10::DeviceIndex device,
*da0073e9SAndroid Build Coastguard Worker      std::shared_ptr<GatheredContext> context) {
*da0073e9SAndroid Build Coastguard Worker    if (!record_history && trace_trackers_.empty())
*da0073e9SAndroid Build Coastguard Worker      return;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    auto te = TraceEntry(
*da0073e9SAndroid Build Coastguard Worker        action,
*da0073e9SAndroid Build Coastguard Worker        device,
*da0073e9SAndroid Build Coastguard Worker        addr,
*da0073e9SAndroid Build Coastguard Worker        size,
*da0073e9SAndroid Build Coastguard Worker        stream,
*da0073e9SAndroid Build Coastguard Worker        getApproximateTime(),
*da0073e9SAndroid Build Coastguard Worker        record_context_ >= RecordContext::ALLOC ? std::move(context) : nullptr);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // Callbacks should not include any Pytorch call
*da0073e9SAndroid Build Coastguard Worker    for (const auto& cb : trace_trackers_) {
*da0073e9SAndroid Build Coastguard Worker      cb(te);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if (record_history) {
*da0073e9SAndroid Build Coastguard Worker      alloc_buffer.insertEntries(te);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// Returns whether to force all allocations to bypass the caching allocator and
*da0073e9SAndroid Build Coastguard Worker// go straight to cudaMalloc.  This setting is useful when debugging GPU memory
*da0073e9SAndroid Build Coastguard Worker// errors, since the caching allocator foils cuda-memcheck.
*da0073e9SAndroid Build Coastguard Workerbool forceUncachedAllocator() {
*da0073e9SAndroid Build Coastguard Worker  static bool force_uncached =
*da0073e9SAndroid Build Coastguard Worker      getenv("PYTORCH_NO_CUDA_MEMORY_CACHING") != nullptr;
*da0073e9SAndroid Build Coastguard Worker  return force_uncached;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstatic void uncached_delete(void* ptr) {
*da0073e9SAndroid Build Coastguard Worker  if (TORCH_SDT_IS_ENABLED(free)) {
*da0073e9SAndroid Build Coastguard Worker    TORCH_SDT_WITH_SEMAPHORE(free, ptr);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  const c10::impl::PyInterpreter* interp = c10::impl::GPUTrace::get_trace();
*da0073e9SAndroid Build Coastguard Worker  if (C10_UNLIKELY(interp)) {
*da0073e9SAndroid Build Coastguard Worker    (*interp)->trace_gpu_memory_deallocation(
*da0073e9SAndroid Build Coastguard Worker        c10::kCUDA, reinterpret_cast<uintptr_t>(ptr));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  C10_CUDA_CHECK(cudaFree(ptr));
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workervoid local_raw_delete(void* ptr);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass NativeCachingAllocator : public CUDAAllocator {
*da0073e9SAndroid Build Coastguard Worker private:
*da0073e9SAndroid Build Coastguard Worker  // Shard allocation region to have independent mutexes to reduce contention.
*da0073e9SAndroid Build Coastguard Worker  static constexpr size_t kNumMutexShard = 67;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // TODO: use std::hardware_destructive_interference_size once available
*da0073e9SAndroid Build Coastguard Worker  struct alignas(64) AlignedMutex {
*da0073e9SAndroid Build Coastguard Worker    std::mutex m;
*da0073e9SAndroid Build Coastguard Worker  };
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  std::array<AlignedMutex, kNumMutexShard> mutex;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // allocated blocks by device pointer
*da0073e9SAndroid Build Coastguard Worker  std::array<ska::flat_hash_map<void*, Block*>, kNumMutexShard>
*da0073e9SAndroid Build Coastguard Worker      allocated_blocks;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  static size_t get_mutex_shard_id(void* ptr) {
*da0073e9SAndroid Build Coastguard Worker    return twang_mix64((size_t)ptr) % kNumMutexShard;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void add_allocated_block(Block* block) {
*da0073e9SAndroid Build Coastguard Worker    // NOLINTNEXTLINE(clang-analyzer-core.CallAndMessage)
*da0073e9SAndroid Build Coastguard Worker    const auto mutex_shard_id = get_mutex_shard_id(block->ptr);
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::mutex> lock(mutex[mutex_shard_id].m);
*da0073e9SAndroid Build Coastguard Worker    allocated_blocks[mutex_shard_id][block->ptr] = block;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Variables by memory snapshot
*da0073e9SAndroid Build Coastguard Worker  c10::ApproximateClockToUnixTimeConverter clock_converter;
*da0073e9SAndroid Build Coastguard Worker  bool record_history = false;
*da0073e9SAndroid Build Coastguard Worker  RingBuffer<AnnotationEntry> annotation_buffer;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker public:
*da0073e9SAndroid Build Coastguard Worker  std::vector<std::unique_ptr<DeviceCachingAllocator>> device_allocator;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  Block* get_allocated_block(void* ptr, bool remove = false) {
*da0073e9SAndroid Build Coastguard Worker    const auto mutex_shard_id = get_mutex_shard_id(ptr);
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::mutex> lock(mutex[mutex_shard_id].m);
*da0073e9SAndroid Build Coastguard Worker    auto it = allocated_blocks[mutex_shard_id].find(ptr);
*da0073e9SAndroid Build Coastguard Worker    if (it == allocated_blocks[mutex_shard_id].end()) {
*da0073e9SAndroid Build Coastguard Worker      return nullptr;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    Block* block = it->second;
*da0073e9SAndroid Build Coastguard Worker    if (remove) {
*da0073e9SAndroid Build Coastguard Worker      allocated_blocks[mutex_shard_id].erase(it);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    return block;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void init(int device_count) override {
*da0073e9SAndroid Build Coastguard Worker    const auto size = static_cast<int64_t>(device_allocator.size());
*da0073e9SAndroid Build Coastguard Worker    if (size < device_count) {
*da0073e9SAndroid Build Coastguard Worker      device_allocator.resize(device_count);
*da0073e9SAndroid Build Coastguard Worker      for (const auto i : c10::irange(size, device_count)) {
*da0073e9SAndroid Build Coastguard Worker        device_allocator[i] = std::make_unique<DeviceCachingAllocator>();
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  bool initialized() override {
*da0073e9SAndroid Build Coastguard Worker    return !device_allocator.empty();
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  /** allocates a block which is safe to use from the provided stream */
*da0073e9SAndroid Build Coastguard Worker  void malloc(
*da0073e9SAndroid Build Coastguard Worker      void** devPtr,
*da0073e9SAndroid Build Coastguard Worker      c10::DeviceIndex device,
*da0073e9SAndroid Build Coastguard Worker      size_t size,
*da0073e9SAndroid Build Coastguard Worker      cudaStream_t stream) {
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(
*da0073e9SAndroid Build Coastguard Worker        0 <= device && static_cast<size_t>(device) < device_allocator.size(),
*da0073e9SAndroid Build Coastguard Worker        "Allocator not initialized for device ",
*da0073e9SAndroid Build Coastguard Worker        device,
*da0073e9SAndroid Build Coastguard Worker        ": did you call init?");
*da0073e9SAndroid Build Coastguard Worker    Block* block = device_allocator[device]->malloc(device, size, stream);
*da0073e9SAndroid Build Coastguard Worker    add_allocated_block(block);
*da0073e9SAndroid Build Coastguard Worker    *devPtr = (void*)block->ptr;
*da0073e9SAndroid Build Coastguard Worker    const c10::impl::PyInterpreter* interp = c10::impl::GPUTrace::get_trace();
*da0073e9SAndroid Build Coastguard Worker    if (C10_UNLIKELY(interp)) {
*da0073e9SAndroid Build Coastguard Worker      (*interp)->trace_gpu_memory_allocation(
*da0073e9SAndroid Build Coastguard Worker          c10::kCUDA, reinterpret_cast<uintptr_t>(*devPtr));
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void free(void* ptr) {
*da0073e9SAndroid Build Coastguard Worker    if (!ptr) {
*da0073e9SAndroid Build Coastguard Worker      return;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    Block* block = get_allocated_block(ptr, true /* remove */);
*da0073e9SAndroid Build Coastguard Worker    if (!block) {
*da0073e9SAndroid Build Coastguard Worker      TORCH_CHECK(false, "invalid device pointer: ", ptr);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    const c10::impl::PyInterpreter* interp = c10::impl::GPUTrace::get_trace();
*da0073e9SAndroid Build Coastguard Worker    if (C10_UNLIKELY(interp)) {
*da0073e9SAndroid Build Coastguard Worker      (*interp)->trace_gpu_memory_deallocation(
*da0073e9SAndroid Build Coastguard Worker          c10::kCUDA, reinterpret_cast<uintptr_t>(block->ptr));
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    device_allocator[block->device]->free(block);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void setMemoryFraction(double fraction, c10::DeviceIndex device) override {
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(
*da0073e9SAndroid Build Coastguard Worker        0 <= device && static_cast<size_t>(device) < device_allocator.size(),
*da0073e9SAndroid Build Coastguard Worker        "Allocator not initialized for device ",
*da0073e9SAndroid Build Coastguard Worker        device,
*da0073e9SAndroid Build Coastguard Worker        ": did you call init?");
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(
*da0073e9SAndroid Build Coastguard Worker        0 <= fraction && fraction <= 1,
*da0073e9SAndroid Build Coastguard Worker        "invalid fraction:",
*da0073e9SAndroid Build Coastguard Worker        fraction,
*da0073e9SAndroid Build Coastguard Worker        ". Please set within (0, 1).");
*da0073e9SAndroid Build Coastguard Worker    C10_CUDA_CHECK(c10::cuda::SetDevice(device));
*da0073e9SAndroid Build Coastguard Worker    device_allocator[device]->setMemoryFraction(fraction);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void recordHistory(
*da0073e9SAndroid Build Coastguard Worker      bool enabled,
*da0073e9SAndroid Build Coastguard Worker      CreateContextFn context_recorder,
*da0073e9SAndroid Build Coastguard Worker      size_t alloc_buffer_max_entries,
*da0073e9SAndroid Build Coastguard Worker      RecordContext when) override {
*da0073e9SAndroid Build Coastguard Worker    record_history = enabled;
*da0073e9SAndroid Build Coastguard Worker    annotation_buffer.setMaxEntries(alloc_buffer_max_entries);
*da0073e9SAndroid Build Coastguard Worker    annotation_buffer.clear();
*da0073e9SAndroid Build Coastguard Worker    for (auto& allocator : device_allocator) {
*da0073e9SAndroid Build Coastguard Worker      allocator->recordHistory(
*da0073e9SAndroid Build Coastguard Worker          enabled, context_recorder, alloc_buffer_max_entries, when);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void recordAnnotation(
*da0073e9SAndroid Build Coastguard Worker      const std::vector<std::pair<std::string, std::string>>& md) override {
*da0073e9SAndroid Build Coastguard Worker    if (!record_history) {
*da0073e9SAndroid Build Coastguard Worker      return;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    c10::DeviceIndex device = 0;
*da0073e9SAndroid Build Coastguard Worker    C10_CUDA_CHECK(c10::cuda::GetDevice(&device));
*da0073e9SAndroid Build Coastguard Worker    auto ae = AnnotationEntry(
*da0073e9SAndroid Build Coastguard Worker        /*device=*/device,
*da0073e9SAndroid Build Coastguard Worker        /*time=*/getApproximateTime());
*da0073e9SAndroid Build Coastguard Worker    for (const auto& md_pair : md) {
*da0073e9SAndroid Build Coastguard Worker      ae.recordUserMetadata(md_pair.first, md_pair.second);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    annotation_buffer.insertEntries(ae);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  bool isHistoryEnabled() override {
*da0073e9SAndroid Build Coastguard Worker    c10::DeviceIndex device = 0;
*da0073e9SAndroid Build Coastguard Worker    C10_CUDA_CHECK(c10::cuda::GetDevice(&device));
*da0073e9SAndroid Build Coastguard Worker    return device_allocator[device]->isHistoryEnabled();
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  bool checkPoolLiveAllocations(
*da0073e9SAndroid Build Coastguard Worker      c10::DeviceIndex device,
*da0073e9SAndroid Build Coastguard Worker      MempoolId_t mempool_id,
*da0073e9SAndroid Build Coastguard Worker      const std::unordered_set<void*>& expected_live_allocations) override {
*da0073e9SAndroid Build Coastguard Worker    return device_allocator[device]->checkPoolLiveAllocations(
*da0073e9SAndroid Build Coastguard Worker        mempool_id, expected_live_allocations);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void attachOutOfMemoryObserver(OutOfMemoryObserver observer) override {
*da0073e9SAndroid Build Coastguard Worker    for (auto& allocator : device_allocator) {
*da0073e9SAndroid Build Coastguard Worker      allocator->attachOutOfMemoryObserver(observer);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void attachAllocatorTraceTracker(AllocatorTraceTracker tracker) override {
*da0073e9SAndroid Build Coastguard Worker    for (auto& allocator : device_allocator) {
*da0073e9SAndroid Build Coastguard Worker      allocator->attachAllocatorTraceTracker(tracker);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void emptyCache() override {
*da0073e9SAndroid Build Coastguard Worker    for (auto& da : device_allocator)
*da0073e9SAndroid Build Coastguard Worker      da->emptyCache();
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void* getBaseAllocation(void* ptr, size_t* outSize) override {
*da0073e9SAndroid Build Coastguard Worker    Block* block = get_allocated_block(ptr);
*da0073e9SAndroid Build Coastguard Worker    if (!block) {
*da0073e9SAndroid Build Coastguard Worker      TORCH_CHECK(false, "invalid device pointer: ", ptr);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    return device_allocator[block->device]->getBaseAllocation(block, outSize);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  ShareableHandle shareIpcHandle(void* ptr) override {
*da0073e9SAndroid Build Coastguard Worker    Block* block = get_allocated_block(ptr);
*da0073e9SAndroid Build Coastguard Worker    if (!block) {
*da0073e9SAndroid Build Coastguard Worker      TORCH_CHECK(false, "invalid device pointer: ", ptr);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    return device_allocator[block->device]->shareIpcHandle(block);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void recordStream(const DataPtr& ptr, cuda::CUDAStream stream) override {
*da0073e9SAndroid Build Coastguard Worker    // Empty tensor's storage().data() might be a null ptr. As there is no
*da0073e9SAndroid Build Coastguard Worker    // blocks associated with those tensors, it is fine to do nothing here.
*da0073e9SAndroid Build Coastguard Worker    if (!ptr.get()) {
*da0073e9SAndroid Build Coastguard Worker      return;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // If a tensor is not allocated by this instance, simply skip
*da0073e9SAndroid Build Coastguard Worker    // This usually happens when CUDA tensors are shared across processes,
*da0073e9SAndroid Build Coastguard Worker    // we have implemented reference counting based sharing mechanism to
*da0073e9SAndroid Build Coastguard Worker    // guarantee tensors won't be accidentally freed by one process while
*da0073e9SAndroid Build Coastguard Worker    // they are still being used in another
*da0073e9SAndroid Build Coastguard Worker    if (ptr.get_deleter() != &local_raw_delete)
*da0073e9SAndroid Build Coastguard Worker      return;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Block* block = get_allocated_block(ptr.get());
*da0073e9SAndroid Build Coastguard Worker    // block must not be null reaching here
*da0073e9SAndroid Build Coastguard Worker    TORCH_INTERNAL_ASSERT(block != nullptr, "No allocated block can be found");
*da0073e9SAndroid Build Coastguard Worker    device_allocator[block->device]->recordStream(block, stream);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  SnapshotInfo snapshot() override {
*da0073e9SAndroid Build Coastguard Worker    // Set-up converter to convert timestamps from tsc to microseconds.
*da0073e9SAndroid Build Coastguard Worker    auto tsc_to_ns = clock_converter.makeConverter();
*da0073e9SAndroid Build Coastguard Worker    auto tsc_to_us = [=](approx_time_t t_approx) {
*da0073e9SAndroid Build Coastguard Worker      return tsc_to_ns(t_approx) / 1000;
*da0073e9SAndroid Build Coastguard Worker    };
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    SnapshotInfo result;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // Get AnnotationEntry list and convert the timestamps.
*da0073e9SAndroid Build Coastguard Worker    annotation_buffer.getEntries(result.external_annotations);
*da0073e9SAndroid Build Coastguard Worker    for (auto& ae : result.external_annotations) {
*da0073e9SAndroid Build Coastguard Worker      ae.time_.t_ = tsc_to_us(ae.time_.approx_t_);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // Get the device_traces' TraceEntry lists.
*da0073e9SAndroid Build Coastguard Worker    for (auto& da : device_allocator) {
*da0073e9SAndroid Build Coastguard Worker      result.device_traces.emplace_back(da->trace(tsc_to_us));
*da0073e9SAndroid Build Coastguard Worker      auto snap = da->snapshot();
*da0073e9SAndroid Build Coastguard Worker      result.segments.insert(result.segments.end(), snap.begin(), snap.end());
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    auto& md = result.config_metadata;
*da0073e9SAndroid Build Coastguard Worker    md.garbage_collection_threshold =
*da0073e9SAndroid Build Coastguard Worker        CUDAAllocatorConfig::garbage_collection_threshold();
*da0073e9SAndroid Build Coastguard Worker    md.max_split_size = CUDAAllocatorConfig::max_split_size();
*da0073e9SAndroid Build Coastguard Worker    md.pinned_num_register_threads =
*da0073e9SAndroid Build Coastguard Worker        CUDAAllocatorConfig::pinned_num_register_threads();
*da0073e9SAndroid Build Coastguard Worker    md.expandable_segments = CUDAAllocatorConfig::expandable_segments();
*da0073e9SAndroid Build Coastguard Worker    md.release_lock_on_malloc =
*da0073e9SAndroid Build Coastguard Worker        CUDAAllocatorConfig::release_lock_on_cudamalloc();
*da0073e9SAndroid Build Coastguard Worker    md.pinned_use_host_register =
*da0073e9SAndroid Build Coastguard Worker        CUDAAllocatorConfig::pinned_use_cuda_host_register();
*da0073e9SAndroid Build Coastguard Worker    md.last_allocator_settings = CUDAAllocatorConfig::last_allocator_settings();
*da0073e9SAndroid Build Coastguard Worker    md.roundup_power2_divisions =
*da0073e9SAndroid Build Coastguard Worker        CUDAAllocatorConfig::roundup_power2_divisions();
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return result;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  std::shared_ptr<AllocatorState> getCheckpointState(
*da0073e9SAndroid Build Coastguard Worker      c10::DeviceIndex device,
*da0073e9SAndroid Build Coastguard Worker      MempoolId_t id) override {
*da0073e9SAndroid Build Coastguard Worker    return device_allocator[device]->getCheckpointState(id);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  /**
*da0073e9SAndroid Build Coastguard Worker   * @brief Checkpoint the private pool state identified in `as` to its prior
*da0073e9SAndroid Build Coastguard Worker   * state
*da0073e9SAndroid Build Coastguard Worker   *
*da0073e9SAndroid Build Coastguard Worker   * @param device - device of the pool to manipulate
*da0073e9SAndroid Build Coastguard Worker   * @param as - allocator state
*da0073e9SAndroid Build Coastguard Worker   * @param stale_live_storages - storages of tensors which are currently
*da0073e9SAndroid Build Coastguard Worker   * allocated but which will be not be allocated after the checkpoint is set.
*da0073e9SAndroid Build Coastguard Worker   * For these storages we will remove their deleter function.
*da0073e9SAndroid Build Coastguard Worker   * @return CheckpointDelta - Freed Pointers and DataPtrs that contain deleter
*da0073e9SAndroid Build Coastguard Worker   * functions for all allocated blocks in the new checkpoint state.
*da0073e9SAndroid Build Coastguard Worker   */
*da0073e9SAndroid Build Coastguard Worker  CheckpointDelta setCheckpointPoolState(
*da0073e9SAndroid Build Coastguard Worker      c10::DeviceIndex device,
*da0073e9SAndroid Build Coastguard Worker      std::shared_ptr<AllocatorState> as) override {
*da0073e9SAndroid Build Coastguard Worker    std::shared_ptr<PrivatePoolState> pps =
*da0073e9SAndroid Build Coastguard Worker        std::dynamic_pointer_cast<PrivatePoolState>(as);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    TORCH_CHECK(pps, "Expected PrivatePoolState");
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    auto rr = device_allocator[device]->setCheckpointPoolState(*pps);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    CheckpointDelta cpd;
*da0073e9SAndroid Build Coastguard Worker    for (void* ptr : rr.allocations_freed) {
*da0073e9SAndroid Build Coastguard Worker      get_allocated_block(ptr, /*remove*/ true);
*da0073e9SAndroid Build Coastguard Worker      cpd.ptrs_freed.push_back(ptr);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    for (Block* block : rr.allocations_created) {
*da0073e9SAndroid Build Coastguard Worker      add_allocated_block(block);
*da0073e9SAndroid Build Coastguard Worker      cpd.dataptrs_allocd.emplace_back(
*da0073e9SAndroid Build Coastguard Worker          block->ptr,
*da0073e9SAndroid Build Coastguard Worker          block->ptr,
*da0073e9SAndroid Build Coastguard Worker          &local_raw_delete,
*da0073e9SAndroid Build Coastguard Worker          Device(DeviceType::CUDA, device));
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return cpd;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  DataPtr allocate(size_t size) override {
*da0073e9SAndroid Build Coastguard Worker    constexpr size_t one_exa_bytes = 1152921504606846976ULL;
*da0073e9SAndroid Build Coastguard Worker    TORCH_CHECK_WITH(
*da0073e9SAndroid Build Coastguard Worker        OutOfMemoryError,
*da0073e9SAndroid Build Coastguard Worker        size < one_exa_bytes,
*da0073e9SAndroid Build Coastguard Worker        "CUDA out of memory. Tried to allocate more than 1EB memory.");
*da0073e9SAndroid Build Coastguard Worker    c10::DeviceIndex device = 0;
*da0073e9SAndroid Build Coastguard Worker    C10_CUDA_CHECK(c10::cuda::GetDevice(&device));
*da0073e9SAndroid Build Coastguard Worker    void* devPtr = nullptr;
*da0073e9SAndroid Build Coastguard Worker    void (*deleteFunc)(void*) = &local_raw_delete;
*da0073e9SAndroid Build Coastguard Worker    CUDAStream stream = cuda::getCurrentCUDAStream(device);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if (forceUncachedAllocator()) {
*da0073e9SAndroid Build Coastguard Worker      deleteFunc = &uncached_delete;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      // Deliberately don't use cudaMallocMaybeCapturing here, to force an error
*da0073e9SAndroid Build Coastguard Worker      // if someone tries to use forceUncachedAllocator while capturing.
*da0073e9SAndroid Build Coastguard Worker      C10_CUDA_CHECK(cudaMalloc(&devPtr, size));
*da0073e9SAndroid Build Coastguard Worker      const c10::impl::PyInterpreter* interp = c10::impl::GPUTrace::get_trace();
*da0073e9SAndroid Build Coastguard Worker      if (C10_UNLIKELY(interp)) {
*da0073e9SAndroid Build Coastguard Worker        (*interp)->trace_gpu_memory_allocation(
*da0073e9SAndroid Build Coastguard Worker            c10::kCUDA, reinterpret_cast<uintptr_t>(devPtr));
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    } else {
*da0073e9SAndroid Build Coastguard Worker      if (size != 0) {
*da0073e9SAndroid Build Coastguard Worker        this->malloc(&devPtr, device, size, stream);
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if (size && TORCH_SDT_IS_ENABLED(malloc)) {
*da0073e9SAndroid Build Coastguard Worker      TORCH_SDT_WITH_SEMAPHORE(malloc, devPtr, device, size, stream.id());
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return {devPtr, devPtr, deleteFunc, Device(DeviceType::CUDA, device)};
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  DeleterFnPtr raw_deleter() const override {
*da0073e9SAndroid Build Coastguard Worker    if (forceUncachedAllocator()) {
*da0073e9SAndroid Build Coastguard Worker      return &uncached_delete;
*da0073e9SAndroid Build Coastguard Worker    } else {
*da0073e9SAndroid Build Coastguard Worker      return &local_raw_delete;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  void cacheInfo(c10::DeviceIndex device, size_t* largestBlock) override {
*da0073e9SAndroid Build Coastguard Worker    device_allocator[device]->cacheInfo(largestBlock);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  void assertValidDevice(c10::DeviceIndex device) {
*da0073e9SAndroid Build Coastguard Worker    const auto device_num = device_allocator.size();
*da0073e9SAndroid Build Coastguard Worker    TORCH_CHECK(
*da0073e9SAndroid Build Coastguard Worker        0 <= device && device < static_cast<int64_t>(device_num),
*da0073e9SAndroid Build Coastguard Worker        "Invalid device argument ",
*da0073e9SAndroid Build Coastguard Worker        device,
*da0073e9SAndroid Build Coastguard Worker        ": did you call init?");
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  DeviceStats getDeviceStats(c10::DeviceIndex device) override {
*da0073e9SAndroid Build Coastguard Worker    assertValidDevice(device);
*da0073e9SAndroid Build Coastguard Worker    return device_allocator[device]->getStats();
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void resetAccumulatedStats(c10::DeviceIndex device) override {
*da0073e9SAndroid Build Coastguard Worker    assertValidDevice(device);
*da0073e9SAndroid Build Coastguard Worker    device_allocator[device]->resetAccumulatedStats();
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void resetPeakStats(c10::DeviceIndex device) override {
*da0073e9SAndroid Build Coastguard Worker    assertValidDevice(device);
*da0073e9SAndroid Build Coastguard Worker    device_allocator[device]->resetPeakStats();
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  // CUDAGraph interactions
*da0073e9SAndroid Build Coastguard Worker  void beginAllocateToPool(
*da0073e9SAndroid Build Coastguard Worker      c10::DeviceIndex device,
*da0073e9SAndroid Build Coastguard Worker      MempoolId_t mempool_id,
*da0073e9SAndroid Build Coastguard Worker      std::function<bool(cudaStream_t)> filter) override {
*da0073e9SAndroid Build Coastguard Worker    assertValidDevice(device);
*da0073e9SAndroid Build Coastguard Worker    device_allocator[device]->beginAllocateToPool(
*da0073e9SAndroid Build Coastguard Worker        std::move(mempool_id), std::move(filter));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void endAllocateToPool(c10::DeviceIndex device, MempoolId_t mempool_id)
*da0073e9SAndroid Build Coastguard Worker      override {
*da0073e9SAndroid Build Coastguard Worker    assertValidDevice(device);
*da0073e9SAndroid Build Coastguard Worker    device_allocator[device]->endAllocateToPool(mempool_id);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void releasePool(c10::DeviceIndex device, MempoolId_t mempool_id) override {
*da0073e9SAndroid Build Coastguard Worker    assertValidDevice(device);
*da0073e9SAndroid Build Coastguard Worker    device_allocator[device]->releasePool(std::move(mempool_id));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void* raw_alloc(size_t nbytes) override {
*da0073e9SAndroid Build Coastguard Worker    if (nbytes == 0) {
*da0073e9SAndroid Build Coastguard Worker      return nullptr;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    c10::DeviceIndex device = 0;
*da0073e9SAndroid Build Coastguard Worker    C10_CUDA_CHECK(c10::cuda::GetDevice(&device));
*da0073e9SAndroid Build Coastguard Worker    void* r = nullptr;
*da0073e9SAndroid Build Coastguard Worker    malloc(&r, device, nbytes, cuda::getCurrentCUDAStream(device));
*da0073e9SAndroid Build Coastguard Worker    return r;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void* raw_alloc_with_stream(size_t nbytes, cudaStream_t stream) override {
*da0073e9SAndroid Build Coastguard Worker    if (nbytes == 0) {
*da0073e9SAndroid Build Coastguard Worker      return nullptr;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    c10::DeviceIndex device = 0;
*da0073e9SAndroid Build Coastguard Worker    C10_CUDA_CHECK(c10::cuda::GetDevice(&device));
*da0073e9SAndroid Build Coastguard Worker    void* r = nullptr;
*da0073e9SAndroid Build Coastguard Worker    malloc(&r, device, nbytes, stream);
*da0073e9SAndroid Build Coastguard Worker    return r;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void enablePeerAccess(c10::DeviceIndex dev, c10::DeviceIndex dev_to_access)
*da0073e9SAndroid Build Coastguard Worker      override {
*da0073e9SAndroid Build Coastguard Worker    c10::cuda::CUDAGuard device_guard(dev);
*da0073e9SAndroid Build Coastguard Worker    cudaError_t err = cudaDeviceEnablePeerAccess(dev_to_access, 0);
*da0073e9SAndroid Build Coastguard Worker    if (err == cudaErrorPeerAccessAlreadyEnabled) {
*da0073e9SAndroid Build Coastguard Worker      // ignore and clear the error if access was already enabled
*da0073e9SAndroid Build Coastguard Worker      (void)cudaGetLastError();
*da0073e9SAndroid Build Coastguard Worker    } else {
*da0073e9SAndroid Build Coastguard Worker      C10_CUDA_CHECK(err);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    device_allocator[dev_to_access]->addPeerAccess(dev);
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::mutex> lock(IpcMutex);
*da0073e9SAndroid Build Coastguard Worker    for (auto& entry : ipcMemHandle_to_devptr) {
*da0073e9SAndroid Build Coastguard Worker      if (entry.second.device_ == dev_to_access &&
*da0073e9SAndroid Build Coastguard Worker          entry.second.expandable_segment_) {
*da0073e9SAndroid Build Coastguard Worker        entry.second.expandable_segment_->addPeer(dev);
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  cudaError_t memcpyAsync(
*da0073e9SAndroid Build Coastguard Worker      void* dst,
*da0073e9SAndroid Build Coastguard Worker      int dstDevice,
*da0073e9SAndroid Build Coastguard Worker      const void* src,
*da0073e9SAndroid Build Coastguard Worker      int srcDevice,
*da0073e9SAndroid Build Coastguard Worker      size_t count,
*da0073e9SAndroid Build Coastguard Worker      cudaStream_t stream,
*da0073e9SAndroid Build Coastguard Worker      bool p2p_enabled) override {
*da0073e9SAndroid Build Coastguard Worker    if (p2p_enabled || // memcpy ok because memory is mapped in both devices
*da0073e9SAndroid Build Coastguard Worker        srcDevice == dstDevice || // memcpy ok on a single device
*da0073e9SAndroid Build Coastguard Worker        // memcpy ok because both dst and src must have come from cudaMalloc
*da0073e9SAndroid Build Coastguard Worker        (!device_allocator[dstDevice]->hasAllocatedExpandableSegments() &&
*da0073e9SAndroid Build Coastguard Worker         !device_allocator[srcDevice]->hasAllocatedExpandableSegments())) {
*da0073e9SAndroid Build Coastguard Worker      return cudaMemcpyAsync(dst, src, count, cudaMemcpyDeviceToDevice, stream);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    // when p2p is not enabled, only cudaMemcpyPeerAsync correctly handles
*da0073e9SAndroid Build Coastguard Worker    // memory not allocated via cudaMalloc
*da0073e9SAndroid Build Coastguard Worker    return cudaMemcpyPeerAsync(dst, dstDevice, src, srcDevice, count, stream);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  void raw_delete(void* ptr) override {
*da0073e9SAndroid Build Coastguard Worker    this->free(ptr);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // In CUDA IPC, sender sends a tensor to receiver via shareIPCHandle,
*da0073e9SAndroid Build Coastguard Worker  // getIpcDevPtr is called by the receiving process to map the CUDA memory from
*da0073e9SAndroid Build Coastguard Worker  // the sending process into its own address space.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // When allocated with cudaMalloc we use the cudaIPCMemHandle_t APIs.
*da0073e9SAndroid Build Coastguard Worker  // These APIs only allow sharing a big memory block associated with a
*da0073e9SAndroid Build Coastguard Worker  // cudaIpcMemHandle_t and it can be opened only **once** per context per
*da0073e9SAndroid Build Coastguard Worker  // process. There can be multiple types of storage in the same IPC mem block,
*da0073e9SAndroid Build Coastguard Worker  // so we must cache the device ptr to construct typed storage as it comes.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // When using cuMemCreate, via expandable segments, we use
*da0073e9SAndroid Build Coastguard Worker  // cuMemExportToShareableHandle to create a file descriptor that can be sent
*da0073e9SAndroid Build Coastguard Worker  // to the other process to sort the object. Then we recreate part of the
*da0073e9SAndroid Build Coastguard Worker  // exandable segment necessary to load the allocation.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // ipcMemHandle_to_devptr caches the mapping from shareable handle to
*da0073e9SAndroid Build Coastguard Worker  // this process' memory mapping information for that share to ensure we do not
*da0073e9SAndroid Build Coastguard Worker  // create it twice. When the shared_ptr is no longer in use we clean up the
*da0073e9SAndroid Build Coastguard Worker  // cache.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  std::mutex IpcMutex;
*da0073e9SAndroid Build Coastguard Worker  struct MemHandleCacheEntry {
*da0073e9SAndroid Build Coastguard Worker    MemHandleCacheEntry(
*da0073e9SAndroid Build Coastguard Worker        c10::DeviceIndex device,
*da0073e9SAndroid Build Coastguard Worker        std::string& handle,
*da0073e9SAndroid Build Coastguard Worker        const DeviceCachingAllocator& allocator)
*da0073e9SAndroid Build Coastguard Worker        : device_(device),
*da0073e9SAndroid Build Coastguard Worker          expandable_segment_(nullptr),
*da0073e9SAndroid Build Coastguard Worker          cuda_ipc_ptr_(nullptr) {
*da0073e9SAndroid Build Coastguard Worker      int type = SHAREABLE_CUDA_MALLOC;
*da0073e9SAndroid Build Coastguard Worker      std::istringstream ss(handle);
*da0073e9SAndroid Build Coastguard Worker      if (handle.size() != CUDA_IPC_HANDLE_SIZE) {
*da0073e9SAndroid Build Coastguard Worker        auto version = ss.get();
*da0073e9SAndroid Build Coastguard Worker        TORCH_CHECK(
*da0073e9SAndroid Build Coastguard Worker            version <= SHAREABLE_HANDLE_VERSION,
*da0073e9SAndroid Build Coastguard Worker            "received sharable handle from a future version of torch that this version does not know how to handle")
*da0073e9SAndroid Build Coastguard Worker        type = ss.get();
*da0073e9SAndroid Build Coastguard Worker      } // otherwise this is coming from an old pytorch where it has to be a raw
*da0073e9SAndroid Build Coastguard Worker        // SHARABLE_CUDA_MALLOC
*da0073e9SAndroid Build Coastguard Worker      if (type == SHAREABLE_CUDA_MALLOC) {
*da0073e9SAndroid Build Coastguard Worker        cudaIpcMemHandle_t cuda_handle;
*da0073e9SAndroid Build Coastguard Worker        ss.read((char*)&cuda_handle, CUDA_IPC_HANDLE_SIZE);
*da0073e9SAndroid Build Coastguard Worker        C10_CUDA_CHECK(cudaIpcOpenMemHandle(
*da0073e9SAndroid Build Coastguard Worker            &cuda_ipc_ptr_, cuda_handle, cudaIpcMemLazyEnablePeerAccess));
*da0073e9SAndroid Build Coastguard Worker      } else if (type == SHAREABLE_CUDA_EXPANDABLE_SEGMENT) {
*da0073e9SAndroid Build Coastguard Worker        expandable_segment_ =
*da0073e9SAndroid Build Coastguard Worker            ExpandableSegment::fromShared(device, allocator.peers(), ss)
*da0073e9SAndroid Build Coastguard Worker                .release();
*da0073e9SAndroid Build Coastguard Worker      } else {
*da0073e9SAndroid Build Coastguard Worker        TORCH_INTERNAL_ASSERT(
*da0073e9SAndroid Build Coastguard Worker            false, "unexpected or illformed shareable handle type");
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    // this struct expects that clear is explicitly called to
*da0073e9SAndroid Build Coastguard Worker    // free resources, because we only want this code running when
*da0073e9SAndroid Build Coastguard Worker    // the shared pointer to this entry is destructed, not during
*da0073e9SAndroid Build Coastguard Worker    // deinitialization when cuda may already have been shutdown.
*da0073e9SAndroid Build Coastguard Worker    // This replicates the previous behavior of this map when it
*da0073e9SAndroid Build Coastguard Worker    // stored raw cuda_ipc_ptr_ handles.
*da0073e9SAndroid Build Coastguard Worker    void clear() {
*da0073e9SAndroid Build Coastguard Worker      if (cuda_ipc_ptr_) {
*da0073e9SAndroid Build Coastguard Worker        cuda::CUDAGuard device_guard(device_);
*da0073e9SAndroid Build Coastguard Worker        C10_CUDA_CHECK(cudaIpcCloseMemHandle(cuda_ipc_ptr_));
*da0073e9SAndroid Build Coastguard Worker        cuda_ipc_ptr_ = nullptr;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      if (expandable_segment_) {
*da0073e9SAndroid Build Coastguard Worker        delete expandable_segment_;
*da0073e9SAndroid Build Coastguard Worker        expandable_segment_ = nullptr;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    void* ptr() {
*da0073e9SAndroid Build Coastguard Worker      if (cuda_ipc_ptr_) {
*da0073e9SAndroid Build Coastguard Worker        return cuda_ipc_ptr_;
*da0073e9SAndroid Build Coastguard Worker      } else {
*da0073e9SAndroid Build Coastguard Worker        return expandable_segment_->ptr();
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    c10::DeviceIndex device_;
*da0073e9SAndroid Build Coastguard Worker    ExpandableSegment* expandable_segment_;
*da0073e9SAndroid Build Coastguard Worker    void* cuda_ipc_ptr_; // nullptr if expandable_segment_ is not null
*da0073e9SAndroid Build Coastguard Worker    std::weak_ptr<void> wp_;
*da0073e9SAndroid Build Coastguard Worker  };
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  ska::flat_hash_map<std::string, MemHandleCacheEntry> ipcMemHandle_to_devptr;
*da0073e9SAndroid Build Coastguard Worker  std::shared_ptr<void> getIpcDevPtr(std::string handle) override {
*da0073e9SAndroid Build Coastguard Worker    std::lock_guard<std::mutex> lock(IpcMutex);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    auto iter = ipcMemHandle_to_devptr.find(handle);
*da0073e9SAndroid Build Coastguard Worker    if (iter != ipcMemHandle_to_devptr.end()) {
*da0073e9SAndroid Build Coastguard Worker      auto devptr = iter->second.wp_.lock();
*da0073e9SAndroid Build Coastguard Worker      // the weak_ptr should always be valid because we delete the entry from
*da0073e9SAndroid Build Coastguard Worker      // the cache when the shared_ptr is destructed, so we should never get
*da0073e9SAndroid Build Coastguard Worker      // here.
*da0073e9SAndroid Build Coastguard Worker      TORCH_INTERNAL_ASSERT(devptr, "entry in cache has missing shared_ptr");
*da0073e9SAndroid Build Coastguard Worker      return devptr;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    c10::DeviceIndex curr_device = 0;
*da0073e9SAndroid Build Coastguard Worker    C10_CUDA_CHECK(c10::cuda::GetDevice(&curr_device));
*da0073e9SAndroid Build Coastguard Worker    auto inserted = ipcMemHandle_to_devptr.insert(
*da0073e9SAndroid Build Coastguard Worker        iter,
*da0073e9SAndroid Build Coastguard Worker        {handle,
*da0073e9SAndroid Build Coastguard Worker         MemHandleCacheEntry(
*da0073e9SAndroid Build Coastguard Worker             curr_device, handle, *device_allocator[curr_device])});
*da0073e9SAndroid Build Coastguard Worker    auto sp = std::shared_ptr<void>(
*da0073e9SAndroid Build Coastguard Worker        inserted->second.ptr(), [handle, this](void* ptr) {
*da0073e9SAndroid Build Coastguard Worker          std::lock_guard<std::mutex> deleter_lock(IpcMutex);
*da0073e9SAndroid Build Coastguard Worker          auto it = ipcMemHandle_to_devptr.find(handle);
*da0073e9SAndroid Build Coastguard Worker          TORCH_INTERNAL_ASSERT(it != ipcMemHandle_to_devptr.end());
*da0073e9SAndroid Build Coastguard Worker          it->second.clear();
*da0073e9SAndroid Build Coastguard Worker          ipcMemHandle_to_devptr.erase(it);
*da0073e9SAndroid Build Coastguard Worker        });
*da0073e9SAndroid Build Coastguard Worker    inserted->second.wp_ = sp;
*da0073e9SAndroid Build Coastguard Worker    return sp;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  std::string name() override {
*da0073e9SAndroid Build Coastguard Worker    return "native";
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  void copy_data(void* dest, const void* src, std::size_t count) const final {
*da0073e9SAndroid Build Coastguard Worker    C10_CUDA_CHECK(
*da0073e9SAndroid Build Coastguard Worker        cudaMemcpy(dest, src, count, cudaMemcpyKind::cudaMemcpyDeviceToDevice));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerNativeCachingAllocator allocator;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workervoid local_raw_delete(void* ptr) {
*da0073e9SAndroid Build Coastguard Worker  if (TORCH_SDT_IS_ENABLED(free)) {
*da0073e9SAndroid Build Coastguard Worker    TORCH_SDT_WITH_SEMAPHORE(free, ptr);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  allocator.free(ptr);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker} // namespace Native
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workernamespace CudaMallocAsync {
*da0073e9SAndroid Build Coastguard Worker// If this is put in its own header file, it gets incorrectly renamed in HIPify.
*da0073e9SAndroid Build Coastguard WorkerCUDAAllocator* allocator();
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker} // namespace CudaMallocAsync
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstruct BackendStaticInitializer {
*da0073e9SAndroid Build Coastguard Worker  // Parses env for backend at load time, duplicating some logic from
*da0073e9SAndroid Build Coastguard Worker  // CUDAAllocatorConfig. CUDAAllocatorConfig double-checks it later (at
*da0073e9SAndroid Build Coastguard Worker  // runtime). Defers verbose exceptions and error checks, including Cuda
*da0073e9SAndroid Build Coastguard Worker  // version checks, to CUDAAllocatorConfig's runtime doublecheck. If this
*da0073e9SAndroid Build Coastguard Worker  // works, maybe we should move all of CUDAAllocatorConfig here?
*da0073e9SAndroid Build Coastguard Worker  CUDAAllocator* parseEnvForBackend() {
*da0073e9SAndroid Build Coastguard Worker    const char* val = getenv("PYTORCH_CUDA_ALLOC_CONF");
*da0073e9SAndroid Build Coastguard Worker    if (val != nullptr) {
*da0073e9SAndroid Build Coastguard Worker      const std::string config(val);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      std::regex exp("[\\s,]+");
*da0073e9SAndroid Build Coastguard Worker      std::sregex_token_iterator it(config.begin(), config.end(), exp, -1);
*da0073e9SAndroid Build Coastguard Worker      std::sregex_token_iterator end;
*da0073e9SAndroid Build Coastguard Worker      std::vector<std::string> options(it, end);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker      for (auto option : options) {
*da0073e9SAndroid Build Coastguard Worker        std::regex exp2("[:]+");
*da0073e9SAndroid Build Coastguard Worker        std::sregex_token_iterator it2(option.begin(), option.end(), exp2, -1);
*da0073e9SAndroid Build Coastguard Worker        std::sregex_token_iterator end2;
*da0073e9SAndroid Build Coastguard Worker        std::vector<std::string> kv(it2, end2);
*da0073e9SAndroid Build Coastguard Worker        if (kv.size() >= 2) {
*da0073e9SAndroid Build Coastguard Worker          if (kv[0] == "backend") {
*da0073e9SAndroid Build Coastguard Worker            if (kv[1] == "cudaMallocAsync")
*da0073e9SAndroid Build Coastguard Worker              return CudaMallocAsync::allocator();
*da0073e9SAndroid Build Coastguard Worker            if (kv[1] == "native")
*da0073e9SAndroid Build Coastguard Worker              return &Native::allocator;
*da0073e9SAndroid Build Coastguard Worker          }
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    return &Native::allocator;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  BackendStaticInitializer() {
*da0073e9SAndroid Build Coastguard Worker    auto r = parseEnvForBackend();
*da0073e9SAndroid Build Coastguard Worker    allocator.store(r);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstd::atomic<CUDAAllocator*> allocator;
*da0073e9SAndroid Build Coastguard WorkerBackendStaticInitializer backend_static_initializer;
*da0073e9SAndroid Build Coastguard Worker} // namespace cuda::CUDACachingAllocator
*da0073e9SAndroid Build Coastguard Worker} // namespace c10
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workernamespace c10::cuda {
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// uid_ is incremented when a user creates a MemPool,
*da0073e9SAndroid Build Coastguard Worker// for example: using graph_pool_handle() or c10::cuda::MemPool().
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// uuid_ is incremented when CUDAGraph creates a MemPool
*da0073e9SAndroid Build Coastguard Worker// as a result of a user not providing a pool.
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// MempoolId_t of {0, 0} is used to denote when no MemPool has been
*da0073e9SAndroid Build Coastguard Worker// passed to a function, either by user or CUDAGraphs. For example,
*da0073e9SAndroid Build Coastguard Worker// default value of MempoolId_t for capture_begin function is {0, 0}.
*da0073e9SAndroid Build Coastguard Worker// That's why uid_ and uuid_ start at 1.
*da0073e9SAndroid Build Coastguard Workerstd::atomic<CaptureId_t> MemPool::uid_{1};
*da0073e9SAndroid Build Coastguard Workerstd::atomic<CaptureId_t> MemPool::uuid_{1};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerMemPool::MemPool(
*da0073e9SAndroid Build Coastguard Worker    CUDACachingAllocator::CUDAAllocator* allocator,
*da0073e9SAndroid Build Coastguard Worker    bool is_user_created)
*da0073e9SAndroid Build Coastguard Worker    : allocator_(allocator), is_user_created_(is_user_created) {
*da0073e9SAndroid Build Coastguard Worker  if (is_user_created_) {
*da0073e9SAndroid Build Coastguard Worker    id_ = {0, uid_++};
*da0073e9SAndroid Build Coastguard Worker  } else {
*da0073e9SAndroid Build Coastguard Worker    id_ = {uuid_++, 0};
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerMempoolId_t MemPool::id() {
*da0073e9SAndroid Build Coastguard Worker  return id_;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerCUDACachingAllocator::CUDAAllocator* MemPool::allocator() {
*da0073e9SAndroid Build Coastguard Worker  return allocator_;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// Note that active_mempool_ is a global variable here
*da0073e9SAndroid Build Coastguard Worker// and not inside MemPoolContext class, because in windows we
*da0073e9SAndroid Build Coastguard Worker// can't use __declspec(dllexport) and __declspec(thread)
*da0073e9SAndroid Build Coastguard Worker// together: https://stackoverflow.com/a/50967977
*da0073e9SAndroid Build Coastguard Workerstatic thread_local MemPool* active_mempool_ = nullptr;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerMemPoolContext::MemPoolContext(MemPool* mempool)
*da0073e9SAndroid Build Coastguard Worker    : prev_mempool_(active_mempool_) {
*da0073e9SAndroid Build Coastguard Worker  active_mempool_ = mempool;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerMemPoolContext::~MemPoolContext() {
*da0073e9SAndroid Build Coastguard Worker  active_mempool_ = prev_mempool_;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerMemPool* MemPoolContext::getActiveMemPool() {
*da0073e9SAndroid Build Coastguard Worker  return active_mempool_;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker} // namespace c10::cuda