c10/cuda/CUDADeviceAssertionHost.cpp

*da0073e9SAndroid Build Coastguard Worker#include <c10/cuda/CUDADeviceAssertionHost.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/cuda/CUDAException.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/cuda/CUDAFunctions.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/util/Backtrace.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/util/Exception.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/util/irange.h>
*da0073e9SAndroid Build Coastguard Worker#include <cuda_runtime.h>
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker#include <memory>
*da0073e9SAndroid Build Coastguard Worker#include <string>
*da0073e9SAndroid Build Coastguard Worker#ifdef TORCH_USE_CUDA_DSA
*da0073e9SAndroid Build Coastguard Worker#include <chrono>
*da0073e9SAndroid Build Coastguard Worker#include <thread>
*da0073e9SAndroid Build Coastguard Worker#endif
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker#define C10_CUDA_CHECK_WO_DSA(EXPR)                                 \
*da0073e9SAndroid Build Coastguard Worker  do {                                                              \
*da0073e9SAndroid Build Coastguard Worker    const cudaError_t __err = EXPR;                                 \
*da0073e9SAndroid Build Coastguard Worker    c10::cuda::c10_cuda_check_implementation(                       \
*da0073e9SAndroid Build Coastguard Worker        static_cast<int32_t>(__err),                                \
*da0073e9SAndroid Build Coastguard Worker        __FILE__,                                                   \
*da0073e9SAndroid Build Coastguard Worker        __func__, /* Line number data type not well-defined between \
*da0073e9SAndroid Build Coastguard Worker                      compilers, so we perform an explicit cast */  \
*da0073e9SAndroid Build Coastguard Worker        static_cast<uint32_t>(__LINE__),                            \
*da0073e9SAndroid Build Coastguard Worker        false);                                                     \
*da0073e9SAndroid Build Coastguard Worker  } while (0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workernamespace c10::cuda {
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workernamespace {
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker#ifdef TORCH_USE_CUDA_DSA
*da0073e9SAndroid Build Coastguard Worker/// Get current device id
*da0073e9SAndroid Build Coastguard Worker/// We need our own implementation of this function to prevent
*da0073e9SAndroid Build Coastguard Worker/// an infinite initialization loop for CUDAKernelLaunchRegistry
*da0073e9SAndroid Build Coastguard Workerint dsa_get_device_id() {
*da0073e9SAndroid Build Coastguard Worker  c10::DeviceIndex device = -1;
*da0073e9SAndroid Build Coastguard Worker  C10_CUDA_CHECK_WO_DSA(c10::cuda::GetDevice(&device));
*da0073e9SAndroid Build Coastguard Worker  return device;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker/// Get a device's compute capability - note that this dangerously assumes
*da0073e9SAndroid Build Coastguard Worker/// that if one CUDA GPU supports device-side assertions they all do. This is
*da0073e9SAndroid Build Coastguard Worker/// probably fine since the latest CUDA GPU that doesn't support UVM is the
*da0073e9SAndroid Build Coastguard Worker/// K80 released 2014-11-17. Mixing that GPU with a newer one is likely to be
*da0073e9SAndroid Build Coastguard Worker/// rare enough that the defensive
*da0073e9SAndroid Build Coastguard Worker/// We need our own implementation of this function to prevent
*da0073e9SAndroid Build Coastguard Worker/// an infinite initialization loop for CUDAKernelLaunchRegistry
*da0073e9SAndroid Build Coastguard Workerint dsa_get_device_compute_capability(const int device_num) {
*da0073e9SAndroid Build Coastguard Worker  int compute_capability = -1;
*da0073e9SAndroid Build Coastguard Worker  C10_CUDA_CHECK_WO_DSA(cudaDeviceGetAttribute(
*da0073e9SAndroid Build Coastguard Worker      &compute_capability, cudaDevAttrComputeCapabilityMajor, device_num));
*da0073e9SAndroid Build Coastguard Worker  return compute_capability;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker#endif
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker/// Get the number of CUDA devices
*da0073e9SAndroid Build Coastguard Worker/// We need our own implementation of this function to prevent
*da0073e9SAndroid Build Coastguard Worker/// an infinite initialization loop for CUDAKernelLaunchRegistry
*da0073e9SAndroid Build Coastguard Workerint dsa_get_device_count() {
*da0073e9SAndroid Build Coastguard Worker  int device_count = -1;
*da0073e9SAndroid Build Coastguard Worker  C10_CUDA_CHECK_WO_DSA(c10::cuda::GetDeviceCount(&device_count));
*da0073e9SAndroid Build Coastguard Worker  return device_count;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerbool dsa_check_if_all_devices_support_managed_memory() {
*da0073e9SAndroid Build Coastguard Worker// It looks as though this'll work best on CUDA GPUs with Pascal
*da0073e9SAndroid Build Coastguard Worker// architectures or newer, per
*da0073e9SAndroid Build Coastguard Worker// https://developer.nvidia.com/blog/unified-memory-cuda-beginners/
*da0073e9SAndroid Build Coastguard Worker#ifdef TORCH_USE_CUDA_DSA
*da0073e9SAndroid Build Coastguard Worker  for (const auto i : c10::irange(dsa_get_device_count())) {
*da0073e9SAndroid Build Coastguard Worker    if (dsa_get_device_compute_capability(i) < 6) {
*da0073e9SAndroid Build Coastguard Worker      return false;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  return true;
*da0073e9SAndroid Build Coastguard Worker#else
*da0073e9SAndroid Build Coastguard Worker  return false;
*da0073e9SAndroid Build Coastguard Worker#endif
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerbool env_flag_set(const char* env_var_name) {
*da0073e9SAndroid Build Coastguard Worker  const char* const env_string = std::getenv(env_var_name);
*da0073e9SAndroid Build Coastguard Worker  return (env_string == nullptr) ? false : std::strcmp(env_string, "0");
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker/// Deleter for UVM/managed memory pointers
*da0073e9SAndroid Build Coastguard Workervoid uvm_deleter(DeviceAssertionsData* uvm_assertions_ptr) {
*da0073e9SAndroid Build Coastguard Worker  // Ignore error in destructor
*da0073e9SAndroid Build Coastguard Worker  if (uvm_assertions_ptr) {
*da0073e9SAndroid Build Coastguard Worker    C10_CUDA_IGNORE_ERROR(cudaFree(uvm_assertions_ptr));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker} // namespace
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker/// Check that kernels ran correctly by checking the message buffer. BLOCKING.
*da0073e9SAndroid Build Coastguard Workerstd::string c10_retrieve_device_side_assertion_info() {
*da0073e9SAndroid Build Coastguard Worker#ifdef TORCH_USE_CUDA_DSA
*da0073e9SAndroid Build Coastguard Worker  const auto& launch_registry = CUDAKernelLaunchRegistry::get_singleton_ref();
*da0073e9SAndroid Build Coastguard Worker  if (!launch_registry.enabled_at_runtime) {
*da0073e9SAndroid Build Coastguard Worker    return "Device-side assertion tracking was not enabled by user.";
*da0073e9SAndroid Build Coastguard Worker  } else if (!launch_registry.do_all_devices_support_managed_memory) {
*da0073e9SAndroid Build Coastguard Worker    return "Device-side assertions disabled because not all devices support managed memory.";
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Hack that saves a lot of challenging sync logic.
*da0073e9SAndroid Build Coastguard Worker  // The GPU increments the number of errors it's observed and the CPU can see
*da0073e9SAndroid Build Coastguard Worker  // that happening immediately which means we can make it here before the GPU
*da0073e9SAndroid Build Coastguard Worker  // is done writing information about those errors to memory.
*da0073e9SAndroid Build Coastguard Worker  // A short pause gives it time to finish. Since something's gone wrong, this
*da0073e9SAndroid Build Coastguard Worker  // pause shouldn't affect perf.
*da0073e9SAndroid Build Coastguard Worker  std::this_thread::sleep_for(std::chrono::seconds(1));
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // The snapshot causes a brief block. That's okay because this function only
*da0073e9SAndroid Build Coastguard Worker  // executes if something's gone wrong such that speed is no longer a priority.
*da0073e9SAndroid Build Coastguard Worker  const auto launch_data = launch_registry.snapshot();
*da0073e9SAndroid Build Coastguard Worker  const auto& assertion_data = launch_data.first;
*da0073e9SAndroid Build Coastguard Worker  const auto& launch_infos = launch_data.second;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  std::stringstream oss;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  oss << "Looking for device-side assertion failure information...\n";
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Loop over each device that could be managed by the process
*da0073e9SAndroid Build Coastguard Worker  for (const auto device_num : c10::irange(assertion_data.size())) {
*da0073e9SAndroid Build Coastguard Worker    const auto& assertion_data_for_device = assertion_data.at(device_num);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // Did anything fail?
*da0073e9SAndroid Build Coastguard Worker    const auto failures_found = std::min(
*da0073e9SAndroid Build Coastguard Worker        assertion_data_for_device.assertion_count,
*da0073e9SAndroid Build Coastguard Worker        C10_CUDA_DSA_ASSERTION_COUNT);
*da0073e9SAndroid Build Coastguard Worker    if (failures_found == 0) {
*da0073e9SAndroid Build Coastguard Worker      continue;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // Something failed, let's talk about that
*da0073e9SAndroid Build Coastguard Worker    oss << failures_found
*da0073e9SAndroid Build Coastguard Worker        << " CUDA device-side assertion failures were found on GPU #"
*da0073e9SAndroid Build Coastguard Worker        << device_num << "!" << std::endl;
*da0073e9SAndroid Build Coastguard Worker    if (assertion_data_for_device.assertion_count >
*da0073e9SAndroid Build Coastguard Worker        C10_CUDA_DSA_ASSERTION_COUNT) {
*da0073e9SAndroid Build Coastguard Worker      oss << "But at least " << assertion_data_for_device.assertion_count
*da0073e9SAndroid Build Coastguard Worker          << " assertion failures occurred on the device" << std::endl;
*da0073e9SAndroid Build Coastguard Worker      oss << "Adjust `C10_CUDA_DSA_ASSERTION_COUNT` if you need more assertion failure info"
*da0073e9SAndroid Build Coastguard Worker          << std::endl;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    for (const auto i : c10::irange(failures_found)) {
*da0073e9SAndroid Build Coastguard Worker      const auto& self = assertion_data_for_device.assertions[i];
*da0073e9SAndroid Build Coastguard Worker      const auto& launch_info = launch_infos[self.caller % launch_infos.size()];
*da0073e9SAndroid Build Coastguard Worker      oss << "Assertion failure " << i << std::endl;
*da0073e9SAndroid Build Coastguard Worker      oss << "  GPU assertion failure message = " << self.assertion_msg
*da0073e9SAndroid Build Coastguard Worker          << std::endl;
*da0073e9SAndroid Build Coastguard Worker      oss << "  File containing assertion = " << self.filename << ":"
*da0073e9SAndroid Build Coastguard Worker          << self.line_number << std::endl;
*da0073e9SAndroid Build Coastguard Worker      oss << "  Device function containing assertion = " << self.function_name
*da0073e9SAndroid Build Coastguard Worker          << std::endl;
*da0073e9SAndroid Build Coastguard Worker      oss << "  Thread ID that failed assertion = [" << self.thread_id[0] << ","
*da0073e9SAndroid Build Coastguard Worker          << self.thread_id[1] << "," << self.thread_id[2] << "]" << std::endl;
*da0073e9SAndroid Build Coastguard Worker      oss << "  Block ID that failed assertion = [" << self.block_id[0] << ","
*da0073e9SAndroid Build Coastguard Worker          << self.block_id[1] << "," << self.block_id[2] << "]" << std::endl;
*da0073e9SAndroid Build Coastguard Worker      if (launch_info.generation_number == self.caller) {
*da0073e9SAndroid Build Coastguard Worker        oss << "  File containing kernel launch = "
*da0073e9SAndroid Build Coastguard Worker            << launch_info.launch_filename << ":" << launch_info.launch_linenum
*da0073e9SAndroid Build Coastguard Worker            << std::endl;
*da0073e9SAndroid Build Coastguard Worker        oss << "  Function containing kernel launch = "
*da0073e9SAndroid Build Coastguard Worker            << launch_info.launch_function << std::endl;
*da0073e9SAndroid Build Coastguard Worker        oss << "  Name of kernel launched that led to failure = "
*da0073e9SAndroid Build Coastguard Worker            << launch_info.kernel_name << std::endl;
*da0073e9SAndroid Build Coastguard Worker        oss << "  Device that launched kernel = " << launch_info.device
*da0073e9SAndroid Build Coastguard Worker            << std::endl;
*da0073e9SAndroid Build Coastguard Worker        oss << "  Stream kernel was launched on = " << launch_info.stream
*da0073e9SAndroid Build Coastguard Worker            << std::endl;
*da0073e9SAndroid Build Coastguard Worker        oss << "  Backtrace of kernel launch site = ";
*da0073e9SAndroid Build Coastguard Worker        if (launch_registry.gather_launch_stacktrace) {
*da0073e9SAndroid Build Coastguard Worker          oss << "Launch stacktracing disabled." << std::endl;
*da0073e9SAndroid Build Coastguard Worker        } else {
*da0073e9SAndroid Build Coastguard Worker          oss << "\n" << launch_info.launch_stacktrace << std::endl;
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker      } else {
*da0073e9SAndroid Build Coastguard Worker        oss << "  CPU launch site info: Unavailable, the circular queue wrapped around. Increase `CUDAKernelLaunchRegistry::max_size`."
*da0073e9SAndroid Build Coastguard Worker            << std::endl;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  return oss.str();
*da0073e9SAndroid Build Coastguard Worker#else
*da0073e9SAndroid Build Coastguard Worker  return "Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.\n";
*da0073e9SAndroid Build Coastguard Worker#endif
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerCUDAKernelLaunchRegistry::CUDAKernelLaunchRegistry()
*da0073e9SAndroid Build Coastguard Worker    : do_all_devices_support_managed_memory(
*da0073e9SAndroid Build Coastguard Worker          dsa_check_if_all_devices_support_managed_memory()),
*da0073e9SAndroid Build Coastguard Worker      gather_launch_stacktrace(check_env_for_enable_launch_stacktracing()),
*da0073e9SAndroid Build Coastguard Worker      enabled_at_runtime(check_env_for_dsa_enabled()) {
*da0073e9SAndroid Build Coastguard Worker  for (C10_UNUSED const auto _ : c10::irange(dsa_get_device_count())) {
*da0073e9SAndroid Build Coastguard Worker    uvm_assertions.emplace_back(nullptr, uvm_deleter);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  kernel_launches.resize(max_kernel_launches);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerbool CUDAKernelLaunchRegistry::check_env_for_enable_launch_stacktracing()
*da0073e9SAndroid Build Coastguard Worker    const {
*da0073e9SAndroid Build Coastguard Worker  return env_flag_set("PYTORCH_CUDA_DSA_STACKTRACING");
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerbool CUDAKernelLaunchRegistry::check_env_for_dsa_enabled() const {
*da0073e9SAndroid Build Coastguard Worker  return env_flag_set("PYTORCH_USE_CUDA_DSA");
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workeruint32_t CUDAKernelLaunchRegistry::insert(
*da0073e9SAndroid Build Coastguard Worker    const char* launch_filename,
*da0073e9SAndroid Build Coastguard Worker    const char* launch_function,
*da0073e9SAndroid Build Coastguard Worker    const uint32_t launch_linenum,
*da0073e9SAndroid Build Coastguard Worker    const char* kernel_name,
*da0073e9SAndroid Build Coastguard Worker    const int32_t stream_id) {
*da0073e9SAndroid Build Coastguard Worker#ifdef TORCH_USE_CUDA_DSA
*da0073e9SAndroid Build Coastguard Worker  if (!enabled_at_runtime) {
*da0073e9SAndroid Build Coastguard Worker    return 0;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  const auto backtrace = gather_launch_stacktrace ? c10::get_backtrace() : "";
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  const std::lock_guard<std::mutex> lock(read_write_mutex);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  const auto my_gen_number = generation_number++;
*da0073e9SAndroid Build Coastguard Worker  // TODO: It would probably be good to get a stack trace here so that
*da0073e9SAndroid Build Coastguard Worker  // we can better indicate which launch caused the failure.
*da0073e9SAndroid Build Coastguard Worker  kernel_launches[my_gen_number % max_kernel_launches] = {
*da0073e9SAndroid Build Coastguard Worker      launch_filename,
*da0073e9SAndroid Build Coastguard Worker      launch_function,
*da0073e9SAndroid Build Coastguard Worker      launch_linenum,
*da0073e9SAndroid Build Coastguard Worker      backtrace,
*da0073e9SAndroid Build Coastguard Worker      kernel_name,
*da0073e9SAndroid Build Coastguard Worker      dsa_get_device_id(),
*da0073e9SAndroid Build Coastguard Worker      stream_id,
*da0073e9SAndroid Build Coastguard Worker      my_gen_number};
*da0073e9SAndroid Build Coastguard Worker  return my_gen_number;
*da0073e9SAndroid Build Coastguard Worker#else
*da0073e9SAndroid Build Coastguard Worker  return 0;
*da0073e9SAndroid Build Coastguard Worker#endif
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstd::pair<std::vector<DeviceAssertionsData>, std::vector<CUDAKernelLaunchInfo>>
*da0073e9SAndroid Build Coastguard WorkerCUDAKernelLaunchRegistry::snapshot() const {
*da0073e9SAndroid Build Coastguard Worker  // This is likely to be the longest-lasting hold on the mutex, but
*da0073e9SAndroid Build Coastguard Worker  // we only expect it to be called in cases where we're already failing
*da0073e9SAndroid Build Coastguard Worker  // and speed is no longer important
*da0073e9SAndroid Build Coastguard Worker  const std::lock_guard<std::mutex> lock(read_write_mutex);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  std::vector<DeviceAssertionsData> device_assertions_data;
*da0073e9SAndroid Build Coastguard Worker  for (const auto& x : uvm_assertions) {
*da0073e9SAndroid Build Coastguard Worker    if (x) {
*da0073e9SAndroid Build Coastguard Worker      device_assertions_data.push_back(*x);
*da0073e9SAndroid Build Coastguard Worker    } else {
*da0073e9SAndroid Build Coastguard Worker      device_assertions_data.emplace_back();
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  return std::make_pair(device_assertions_data, kernel_launches);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerDeviceAssertionsData* CUDAKernelLaunchRegistry::
*da0073e9SAndroid Build Coastguard Worker    get_uvm_assertions_ptr_for_current_device() {
*da0073e9SAndroid Build Coastguard Worker#ifdef TORCH_USE_CUDA_DSA
*da0073e9SAndroid Build Coastguard Worker  if (!enabled_at_runtime) {
*da0073e9SAndroid Build Coastguard Worker    return nullptr;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  const auto device_num = dsa_get_device_id();
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // If we've already set up this GPU with managed memory, return a pointer to
*da0073e9SAndroid Build Coastguard Worker  // the managed memory. This is a lock-free quick-return path.
*da0073e9SAndroid Build Coastguard Worker  if (uvm_assertions.at(device_num)) {
*da0073e9SAndroid Build Coastguard Worker    return uvm_assertions.at(device_num).get();
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Need a lock here so there's not race-condition on creating the new device
*da0073e9SAndroid Build Coastguard Worker  // assertions buffer
*da0073e9SAndroid Build Coastguard Worker  const std::lock_guard<std::mutex> lock(gpu_alloc_mutex);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // If we've already set up this GPU with managed memory, return a pointer to
*da0073e9SAndroid Build Coastguard Worker  // the managed memory. This locked path ensures that the device memory is
*da0073e9SAndroid Build Coastguard Worker  // allocated only once
*da0073e9SAndroid Build Coastguard Worker  if (uvm_assertions.at(device_num)) {
*da0073e9SAndroid Build Coastguard Worker    return uvm_assertions.at(device_num).get();
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Otherwise, set up the GPU to be able to use the device-side assertion
*da0073e9SAndroid Build Coastguard Worker  // system
*da0073e9SAndroid Build Coastguard Worker  DeviceAssertionsData* uvm_assertions_ptr = nullptr;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  C10_CUDA_CHECK_WO_DSA(
*da0073e9SAndroid Build Coastguard Worker      cudaMallocManaged(&uvm_assertions_ptr, sizeof(DeviceAssertionsData)));
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  C10_CUDA_CHECK_WO_DSA(cudaMemAdvise(
*da0073e9SAndroid Build Coastguard Worker      uvm_assertions_ptr,
*da0073e9SAndroid Build Coastguard Worker      sizeof(DeviceAssertionsData),
*da0073e9SAndroid Build Coastguard Worker      cudaMemAdviseSetPreferredLocation,
*da0073e9SAndroid Build Coastguard Worker      cudaCpuDeviceId));
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // GPU will establish direct mapping of data in CPU memory, no page faults
*da0073e9SAndroid Build Coastguard Worker  // will be generated
*da0073e9SAndroid Build Coastguard Worker  C10_CUDA_CHECK_WO_DSA(cudaMemAdvise(
*da0073e9SAndroid Build Coastguard Worker      uvm_assertions_ptr,
*da0073e9SAndroid Build Coastguard Worker      sizeof(DeviceAssertionsData),
*da0073e9SAndroid Build Coastguard Worker      cudaMemAdviseSetAccessedBy,
*da0073e9SAndroid Build Coastguard Worker      cudaCpuDeviceId));
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Initialize the memory from the CPU; otherwise, pages may have to be created
*da0073e9SAndroid Build Coastguard Worker  // on demand. We think that UVM documentation indicates that first access may
*da0073e9SAndroid Build Coastguard Worker  // not honor preferred location, which would be bad, if true, because we want
*da0073e9SAndroid Build Coastguard Worker  // this memory on the host so we can access it post-assertion. Initializing
*da0073e9SAndroid Build Coastguard Worker  // this on the CPU helps ensure that that's where the memory will live.
*da0073e9SAndroid Build Coastguard Worker  *uvm_assertions_ptr = DeviceAssertionsData();
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Ownership and lifetime management of `uvm_assertions_ptr` now passes to the
*da0073e9SAndroid Build Coastguard Worker  // uvm_assertions unique_ptr vector
*da0073e9SAndroid Build Coastguard Worker  uvm_assertions.at(device_num).reset(uvm_assertions_ptr);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  return uvm_assertions_ptr;
*da0073e9SAndroid Build Coastguard Worker#else
*da0073e9SAndroid Build Coastguard Worker  return nullptr;
*da0073e9SAndroid Build Coastguard Worker#endif
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerCUDAKernelLaunchRegistry& CUDAKernelLaunchRegistry::get_singleton_ref() {
*da0073e9SAndroid Build Coastguard Worker  static CUDAKernelLaunchRegistry launch_registry;
*da0073e9SAndroid Build Coastguard Worker  return launch_registry;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerbool CUDAKernelLaunchRegistry::has_failed() const {
*da0073e9SAndroid Build Coastguard Worker  for (const auto& x : uvm_assertions) {
*da0073e9SAndroid Build Coastguard Worker    if (x && x->assertion_count > 0) {
*da0073e9SAndroid Build Coastguard Worker      return true;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  return false;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker} // namespace c10::cuda