src/ATen/LegacyBatchedFallback.cpp

*da0073e9SAndroid Build Coastguard Worker#include <ATen/Context.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/LegacyBatchedFallback.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/MatrixRef.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/LegacyVmapTransforms.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/core/dispatch/Dispatcher.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/util/accumulate.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/util/llvmMathExtras.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/util/irange.h>
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workernamespace at {
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// Given a linear index, return the actual index.
*da0073e9SAndroid Build Coastguard Worker// Example: Given linear_idx = 3, sizes = [5, 2], we would return [1, 0]
*da0073e9SAndroid Build Coastguard Workerstatic SmallVector<indexing::TensorIndex,kVmapStaticDimVecSize>
*da0073e9SAndroid Build Coastguard WorkercomputeIndex(int64_t linear_idx, IntArrayRef sizes) {
*da0073e9SAndroid Build Coastguard Worker  SmallVector<indexing::TensorIndex,kVmapStaticDimVecSize> result;
*da0073e9SAndroid Build Coastguard Worker  result.reserve(sizes.size());
*da0073e9SAndroid Build Coastguard Worker  for (auto it = sizes.rbegin(); it != sizes.rend(); it++) {
*da0073e9SAndroid Build Coastguard Worker    auto remainder = linear_idx % *it;
*da0073e9SAndroid Build Coastguard Worker    result.push_back(remainder);
*da0073e9SAndroid Build Coastguard Worker    linear_idx -= remainder;
*da0073e9SAndroid Build Coastguard Worker    linear_idx /= *it;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  std::reverse(std::begin(result), std::end(result));
*da0073e9SAndroid Build Coastguard Worker  return result;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstatic bool areAllReturnsTensors(const FunctionSchema& schema) {
*da0073e9SAndroid Build Coastguard Worker  return std::all_of(
*da0073e9SAndroid Build Coastguard Worker      schema.returns().begin(),
*da0073e9SAndroid Build Coastguard Worker      schema.returns().end(),
*da0073e9SAndroid Build Coastguard Worker      [] (const Argument& arg) { return arg.type() == TensorType::get(); });
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstatic bool areAnyArgumentsTensorList(const FunctionSchema& schema) {
*da0073e9SAndroid Build Coastguard Worker  return std::any_of(
*da0073e9SAndroid Build Coastguard Worker      schema.arguments().begin(),
*da0073e9SAndroid Build Coastguard Worker      schema.arguments().end(),
*da0073e9SAndroid Build Coastguard Worker      [] (const Argument& arg) { return arg.type()->isSubtypeOf(*ListType::ofTensors()); });
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// Returns if an operator is in-place. An operator is inplace if:
*da0073e9SAndroid Build Coastguard Worker// 1. The first argument is a Tensor and it is being written to
*da0073e9SAndroid Build Coastguard Worker// 2. The first argument is being returned
*da0073e9SAndroid Build Coastguard Worker// 3. No other arguments are aliased
*da0073e9SAndroid Build Coastguard Worker// Here is an example of an in-place operator:
*da0073e9SAndroid Build Coastguard Worker// add_(Tensor(a!) self, Tensor other, *, Scalar alpha=1) -> Tensor(a!)
*da0073e9SAndroid Build Coastguard Workerstatic bool isInplaceOp(const c10::FunctionSchema& schema) {
*da0073e9SAndroid Build Coastguard Worker  if (!schema.is_mutable() || schema.returns().size() != 1) {
*da0073e9SAndroid Build Coastguard Worker    return false;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  // Check that the first argument is being written to
*da0073e9SAndroid Build Coastguard Worker  const AliasInfo* first_arg_alias_info = schema.arguments().begin()->alias_info();
*da0073e9SAndroid Build Coastguard Worker  if (!first_arg_alias_info || !first_arg_alias_info->isWrite()) {
*da0073e9SAndroid Build Coastguard Worker    return false;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  // Check that none of the other args are being aliased
*da0073e9SAndroid Build Coastguard Worker  for (auto it = schema.arguments().begin() + 1; it != schema.arguments().end(); ++it) {
*da0073e9SAndroid Build Coastguard Worker    const AliasInfo* alias_info = it->alias_info();
*da0073e9SAndroid Build Coastguard Worker    if (alias_info) {
*da0073e9SAndroid Build Coastguard Worker      return false;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  // Check that the first tensor is being returned (i.e., output has a (a!))
*da0073e9SAndroid Build Coastguard Worker  const AliasInfo* return_alias_info = schema.returns()[0].alias_info();
*da0073e9SAndroid Build Coastguard Worker  return return_alias_info && return_alias_info->isWrite();
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstatic void warnFallback(const c10::FunctionSchema& schema) {
*da0073e9SAndroid Build Coastguard Worker  if (!globalContext().areVmapFallbackWarningsEnabled()) {
*da0073e9SAndroid Build Coastguard Worker    return;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  TORCH_WARN("There is a performance drop because we have not yet implemented ",
*da0073e9SAndroid Build Coastguard Worker             "the batching rule for ", schema.operator_name(), ". ",
*da0073e9SAndroid Build Coastguard Worker             "You are using the legacy vmap prototype (torch._vmap_internals.vmap). ",
*da0073e9SAndroid Build Coastguard Worker             "If you are using torch.autograd.functional.{jacobian, hessian} ",
*da0073e9SAndroid Build Coastguard Worker             "or torch._vmap_internals.vmap: please switch to using ",
*da0073e9SAndroid Build Coastguard Worker             "torch.func.{jacrev, jacfwd, hessian} and/or torch.vmap instead ",
*da0073e9SAndroid Build Coastguard Worker             "for better operator coverage and performance improvements .");
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// The general flow of the algorithm is as follows.
*da0073e9SAndroid Build Coastguard Worker// - First, we figure out which arguments are BatchedTensors and save them
*da0073e9SAndroid Build Coastguard Worker//   to a vector. We also store a vector of which index of the arguments list
*da0073e9SAndroid Build Coastguard Worker//   each BatchedTensor appears in. This will be useful for bookkeeping later.
*da0073e9SAndroid Build Coastguard Worker// - Next, we apply the MultiBatchVmapTransform to all of the BatchedTensors.
*da0073e9SAndroid Build Coastguard Worker//   This returns a vector of VmapPhysicalView that hold tensors that contain
*da0073e9SAndroid Build Coastguard Worker//   all of the collective batch dimensions at the front of the tensors.
*da0073e9SAndroid Build Coastguard Worker// - Then, we attempt to call `op` once per slice of the inputs. To do this,
*da0073e9SAndroid Build Coastguard Worker//   we repeatedly we slice the input arguments (if they are BatchedTensors),
*da0073e9SAndroid Build Coastguard Worker//   put the sliced (or a not-sliced) version of the input onto the stack, invoke
*da0073e9SAndroid Build Coastguard Worker//   the operator, and then pop the results off the stack.
*da0073e9SAndroid Build Coastguard Workerstatic void batchedTensorInplaceForLoopFallback(const c10::OperatorHandle& op, torch::jit::Stack* stack) {
*da0073e9SAndroid Build Coastguard Worker  const auto& schema = op.schema();
*da0073e9SAndroid Build Coastguard Worker  warnFallback(schema);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  const auto num_arguments = static_cast<int64_t>(schema.arguments().size());
*da0073e9SAndroid Build Coastguard Worker  const auto arguments = torch::jit::last(stack, num_arguments);
*da0073e9SAndroid Build Coastguard Worker  const auto arguments_begin = stack->size() - num_arguments;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // `self` is the Tensor being modified in-place
*da0073e9SAndroid Build Coastguard Worker  Tensor self = arguments[0].toTensor();
*da0073e9SAndroid Build Coastguard Worker  const auto* self_impl = maybeGetBatchedImpl(self);
*da0073e9SAndroid Build Coastguard Worker  std::bitset<kVmapMaxTensorDims> self_vmap_levels;
*da0073e9SAndroid Build Coastguard Worker  if (self_impl) {
*da0073e9SAndroid Build Coastguard Worker    self_vmap_levels = createVmapLevelsBitset(self_impl->bdims());
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Figure out which arguments are BatchedTensor. Save them to a vector.
*da0073e9SAndroid Build Coastguard Worker  // For each BatchedTensor, also record what position of `arguments` they came from.
*da0073e9SAndroid Build Coastguard Worker  SmallVector<Tensor,kVmapTransformStaticInputSize> batched_tensor_inputs;
*da0073e9SAndroid Build Coastguard Worker  VmapDimVector batched_tensor_inputs_position;
*da0073e9SAndroid Build Coastguard Worker  for (const auto idx : c10::irange(arguments.size())) {
*da0073e9SAndroid Build Coastguard Worker    const auto& ivalue = arguments[idx];
*da0073e9SAndroid Build Coastguard Worker    if (!ivalue.isTensor()) {
*da0073e9SAndroid Build Coastguard Worker      continue;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    const auto& tensor = ivalue.toTensor();
*da0073e9SAndroid Build Coastguard Worker    if (!tensor.defined()) {
*da0073e9SAndroid Build Coastguard Worker      continue;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    const auto* batched = maybeGetBatchedImpl(tensor);
*da0073e9SAndroid Build Coastguard Worker    if (!batched) {
*da0073e9SAndroid Build Coastguard Worker      continue;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // NOTE: [vmap-incompatible in-place operations]
*da0073e9SAndroid Build Coastguard Worker    // In-place operations on `self` are not possible if there exists some vmap
*da0073e9SAndroid Build Coastguard Worker    // level `l` such that `self` is not being vmapped on that level but another
*da0073e9SAndroid Build Coastguard Worker    // argument is. For example, let B0 be a batch dim inside vmap and consider
*da0073e9SAndroid Build Coastguard Worker    // vmap(Tensor.add_, in_dims=(None, 0))(torch.ones(3), torch.ones(B0, 3))
*da0073e9SAndroid Build Coastguard Worker    // - self is torch.ones(3) and does not participate in this vmap
*da0073e9SAndroid Build Coastguard Worker    // - other is BatchedTensor(torch.ones(B0, 3))
*da0073e9SAndroid Build Coastguard Worker    // There's no way to do self.add_(other) because `other` has more elements
*da0073e9SAndroid Build Coastguard Worker    // elements than `self` due to being vmapped over.
*da0073e9SAndroid Build Coastguard Worker    //
*da0073e9SAndroid Build Coastguard Worker    // In the vmap fallback, we should error out when we detect this.
*da0073e9SAndroid Build Coastguard Worker    auto other_vmap_levels = createVmapLevelsBitset(batched->bdims());
*da0073e9SAndroid Build Coastguard Worker    if (self_vmap_levels != (self_vmap_levels | other_vmap_levels)) {
*da0073e9SAndroid Build Coastguard Worker      // Find one vmap level to complain about
*da0073e9SAndroid Build Coastguard Worker      auto additional_bdims = (self_vmap_levels | other_vmap_levels) ^ self_vmap_levels;
*da0073e9SAndroid Build Coastguard Worker      [[maybe_unused]] auto offending_level = llvm::findLastSet(additional_bdims.to_ulong());
*da0073e9SAndroid Build Coastguard Worker      // The following prints out "vmap: aten::add_(tensor, ...) is not possible",
*da0073e9SAndroid Build Coastguard Worker      // but it would be better to print out "tensor.add_(...) is not possible".
*da0073e9SAndroid Build Coastguard Worker      // Afaict there's no official way to get the add_ and there is no way to
*da0073e9SAndroid Build Coastguard Worker      // tell if an operator has method or function variants.
*da0073e9SAndroid Build Coastguard Worker      TORCH_CHECK(false,
*da0073e9SAndroid Build Coastguard Worker        "vmap: ", schema.name(), "(self, *extra_args) is not possible because ",
*da0073e9SAndroid Build Coastguard Worker        "there exists a Tensor `other` in extra_args that has more elements ",
*da0073e9SAndroid Build Coastguard Worker        "than `self`. This happened due to `other` being vmapped over but ",
*da0073e9SAndroid Build Coastguard Worker        "`self` not being vmapped over at level ", offending_level, ". ",
*da0073e9SAndroid Build Coastguard Worker        "Please try to use out-of-place operators instead of ", schema.name(), ". ",
*da0073e9SAndroid Build Coastguard Worker        "If said operator is being called inside the PyTorch framework, ",
*da0073e9SAndroid Build Coastguard Worker        "please file a bug report instead.");
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    batched_tensor_inputs.push_back(tensor);
*da0073e9SAndroid Build Coastguard Worker    batched_tensor_inputs_position.push_back(idx);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  TORCH_INTERNAL_ASSERT(!batched_tensor_inputs.empty());
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // MultiBatchVmapTransform the BatchedTensor arguments. This returns
*da0073e9SAndroid Build Coastguard Worker  // VmapPhysicalViews that contain all of the batch dimensions.
*da0073e9SAndroid Build Coastguard Worker  const auto input_physical_views = MultiBatchVmapTransform::logicalToPhysical(
*da0073e9SAndroid Build Coastguard Worker      batched_tensor_inputs);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Compute the total number of batches
*da0073e9SAndroid Build Coastguard Worker  auto num_batch_dims = input_physical_views.front().numBatchDims();
*da0073e9SAndroid Build Coastguard Worker  auto first_physical_view_sizes = input_physical_views.front().tensor().sizes();
*da0073e9SAndroid Build Coastguard Worker  auto batch_sizes = ArrayRef<int64_t>(
*da0073e9SAndroid Build Coastguard Worker      first_physical_view_sizes.begin(), first_physical_view_sizes.begin() + num_batch_dims);
*da0073e9SAndroid Build Coastguard Worker  const auto num_batches = c10::multiply_integers(batch_sizes);
*da0073e9SAndroid Build Coastguard Worker  // Without a shape-checking API, we're unable to compute the correct shape of
*da0073e9SAndroid Build Coastguard Worker  // the output so we just error out.
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(num_batches > 0,
*da0073e9SAndroid Build Coastguard Worker      "Batching rule not implemented for ", schema.operator_name(), ". ",
*da0073e9SAndroid Build Coastguard Worker      "The fallback path does not support vmap over dims of size 0.");
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Strategy: For each batch, we are going to push slices (where applicable)
*da0073e9SAndroid Build Coastguard Worker  // of the arguments onto `stack`, and call `op`.
*da0073e9SAndroid Build Coastguard Worker  for (const auto linear_idx : c10::irange(num_batches)) {
*da0073e9SAndroid Build Coastguard Worker    auto index = computeIndex(linear_idx, batch_sizes);
*da0073e9SAndroid Build Coastguard Worker    auto batched_tensor_inputs_pos_iter = batched_tensor_inputs_position.begin();
*da0073e9SAndroid Build Coastguard Worker    auto input_physical_views_iter = input_physical_views.begin();
*da0073e9SAndroid Build Coastguard Worker    for (const auto arg_idx : c10::irange(num_arguments)) {
*da0073e9SAndroid Build Coastguard Worker      // We assume that torch::jit::Stack is backed by vector<IValue> for
*da0073e9SAndroid Build Coastguard Worker      // simplicity. When that is not the case, this code should be updated.
*da0073e9SAndroid Build Coastguard Worker      const auto& argument = (*stack)[arguments_begin + arg_idx];
*da0073e9SAndroid Build Coastguard Worker      if (batched_tensor_inputs_pos_iter == batched_tensor_inputs_position.end()
*da0073e9SAndroid Build Coastguard Worker          || arg_idx != *batched_tensor_inputs_pos_iter) {
*da0073e9SAndroid Build Coastguard Worker        // argument isn't a BatchedTensor
*da0073e9SAndroid Build Coastguard Worker        torch::jit::push(stack, argument);
*da0073e9SAndroid Build Coastguard Worker        continue;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      // argument is a BatchedTensor
*da0073e9SAndroid Build Coastguard Worker      TORCH_INTERNAL_ASSERT(input_physical_views_iter != input_physical_views.end());
*da0073e9SAndroid Build Coastguard Worker      const auto& physical_view_for_argument = *input_physical_views_iter;
*da0073e9SAndroid Build Coastguard Worker      torch::jit::push(stack, physical_view_for_argument.tensor().index(index));
*da0073e9SAndroid Build Coastguard Worker      batched_tensor_inputs_pos_iter++;
*da0073e9SAndroid Build Coastguard Worker      input_physical_views_iter++;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    op.callBoxed(stack);
*da0073e9SAndroid Build Coastguard Worker    torch::jit::drop(stack, 1);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Return the tensor that was written to in-place
*da0073e9SAndroid Build Coastguard Worker  torch::jit::drop(stack, num_arguments);
*da0073e9SAndroid Build Coastguard Worker  torch::jit::push(stack, self);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstatic Tensor safeStack(TensorList tensors) {
*da0073e9SAndroid Build Coastguard Worker  auto is_defined = [](const Tensor& t) { return t.defined(); };
*da0073e9SAndroid Build Coastguard Worker  if (std::all_of(tensors.begin(), tensors.end(), is_defined)) {
*da0073e9SAndroid Build Coastguard Worker    return at::stack(tensors);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  // NOTE [vmap through backward and undefined grad]
*da0073e9SAndroid Build Coastguard Worker  // While vmapping through backward functions (to compute batched grad), it
*da0073e9SAndroid Build Coastguard Worker  // is possible for the backward function to return an undefined grad for some
*da0073e9SAndroid Build Coastguard Worker  // grad_input for each example. In that case, we return an undefined grad.
*da0073e9SAndroid Build Coastguard Worker  //
*da0073e9SAndroid Build Coastguard Worker  // It is theoretically posssible for *some* of the examples to produce an
*da0073e9SAndroid Build Coastguard Worker  // undefined grad (a kernel could peek at the gradient values and return an
*da0073e9SAndroid Build Coastguard Worker  // undefined tensor if it determines the gradient is full of zeros). We
*da0073e9SAndroid Build Coastguard Worker  // could handle this by treating the undefined grad as a zero-filled tensor
*da0073e9SAndroid Build Coastguard Worker  // of the correct shape while stacking the tensors together. However I expect
*da0073e9SAndroid Build Coastguard Worker  // this to happen very rarely (I have not been able to find an example in our
*da0073e9SAndroid Build Coastguard Worker  // codebase) so we just error out in this case.
*da0073e9SAndroid Build Coastguard Worker  if (std::none_of(tensors.begin(), tensors.end(), is_defined)) {
*da0073e9SAndroid Build Coastguard Worker    return Tensor();
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(false,
*da0073e9SAndroid Build Coastguard Worker      "vmap: slow fallback received a mix of undefined and defined tensors ",
*da0073e9SAndroid Build Coastguard Worker      "as the result of an operation. This is not supported, please file us ",
*da0073e9SAndroid Build Coastguard Worker      "an issue on github.");
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// The general flow of the algorithm is as follows.
*da0073e9SAndroid Build Coastguard Worker// - First, we figure out which arguments are BatchedTensors and save them
*da0073e9SAndroid Build Coastguard Worker//   to a vector. We also store a vector of which index of the arguments list
*da0073e9SAndroid Build Coastguard Worker//   each BatchedTensor appears in. This will be useful for bookkeeping later.
*da0073e9SAndroid Build Coastguard Worker// - Next, we apply the MultiBatchVmapTransform to all of the BatchedTensors.
*da0073e9SAndroid Build Coastguard Worker//   This returns a vector of VmapPhysicalView that hold tensors that contain
*da0073e9SAndroid Build Coastguard Worker//   all of the collective batch dimensions at the front of the tensors.
*da0073e9SAndroid Build Coastguard Worker// - Then, we attempt to call `op` once per slice of the inputs. To do this,
*da0073e9SAndroid Build Coastguard Worker//   we repeatedly we slice the input arguments (if they are BatchedTensors),
*da0073e9SAndroid Build Coastguard Worker//   put the sliced (or a not-sliced) version of the input onto the stack, invoke
*da0073e9SAndroid Build Coastguard Worker//   the operator, and then pop the results off the stack.
*da0073e9SAndroid Build Coastguard Worker// - Each result obtained from the previous step is a slice of the total result,
*da0073e9SAndroid Build Coastguard Worker//   so we stack those tensors together to form the final result.
*da0073e9SAndroid Build Coastguard Workervoid batchedTensorForLoopFallback(const c10::OperatorHandle& op, torch::jit::Stack* stack) {
*da0073e9SAndroid Build Coastguard Worker  const auto& schema = op.schema();
*da0073e9SAndroid Build Coastguard Worker  const auto num_returns = schema.returns().size();
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  if (isInplaceOp(schema)) {
*da0073e9SAndroid Build Coastguard Worker    batchedTensorInplaceForLoopFallback(op, stack);
*da0073e9SAndroid Build Coastguard Worker    return;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(!schema.is_mutable() && !schema.hasAnyAliasInfo(),
*da0073e9SAndroid Build Coastguard Worker              "Batching rule not implemented for ", schema.operator_name(), "; ",
*da0073e9SAndroid Build Coastguard Worker              "the fallback path doesn't work on out= or view ops.");
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(areAllReturnsTensors(schema) && !areAnyArgumentsTensorList(schema),
*da0073e9SAndroid Build Coastguard Worker              "Batching rule not implemented for ", schema.operator_name(), ". ",
*da0073e9SAndroid Build Coastguard Worker              "We could not generate a fallback.");
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(num_returns >= 1,
*da0073e9SAndroid Build Coastguard Worker              "Batching rule not implemented for ", schema.operator_name(), ". ",
*da0073e9SAndroid Build Coastguard Worker              "The fallback path does not support operations with no returns.");
*da0073e9SAndroid Build Coastguard Worker  warnFallback(schema);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  const auto num_arguments = static_cast<int64_t>(schema.arguments().size());
*da0073e9SAndroid Build Coastguard Worker  const auto arguments = torch::jit::last(stack, num_arguments);
*da0073e9SAndroid Build Coastguard Worker  const auto arguments_begin = stack->size() - num_arguments;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Figure out which arguments are BatchedTensor. Save them to a vector.
*da0073e9SAndroid Build Coastguard Worker  // For each BatchedTensor, also record what position of `arguments` they came from.
*da0073e9SAndroid Build Coastguard Worker  SmallVector<Tensor,kVmapTransformStaticInputSize> batched_tensor_inputs;
*da0073e9SAndroid Build Coastguard Worker  VmapDimVector batched_tensor_inputs_position;
*da0073e9SAndroid Build Coastguard Worker  for (const auto idx : c10::irange(arguments.size())) {
*da0073e9SAndroid Build Coastguard Worker    const auto& ivalue = arguments[idx];
*da0073e9SAndroid Build Coastguard Worker    if (!ivalue.isTensor()) {
*da0073e9SAndroid Build Coastguard Worker      continue;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    const auto& tensor = ivalue.toTensor();
*da0073e9SAndroid Build Coastguard Worker    if (!tensor.defined()) {
*da0073e9SAndroid Build Coastguard Worker      continue;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    const auto* batched = maybeGetBatchedImpl(tensor);
*da0073e9SAndroid Build Coastguard Worker    if (!batched) {
*da0073e9SAndroid Build Coastguard Worker      continue;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    batched_tensor_inputs.push_back(tensor);
*da0073e9SAndroid Build Coastguard Worker    batched_tensor_inputs_position.push_back(idx);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  TORCH_INTERNAL_ASSERT(!batched_tensor_inputs.empty());
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // MultiBatchVmapTransform the BatchedTensor arguments. This returns
*da0073e9SAndroid Build Coastguard Worker  // VmapPhysicalViews that contain all of the batch dimensions.
*da0073e9SAndroid Build Coastguard Worker  const auto input_physical_views = MultiBatchVmapTransform::logicalToPhysical(
*da0073e9SAndroid Build Coastguard Worker      batched_tensor_inputs);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Compute the total number of batches
*da0073e9SAndroid Build Coastguard Worker  auto num_batch_dims = input_physical_views.front().numBatchDims();
*da0073e9SAndroid Build Coastguard Worker  auto some_sizes = input_physical_views.front().tensor().sizes();
*da0073e9SAndroid Build Coastguard Worker  auto batch_sizes = ArrayRef<int64_t>(some_sizes.begin(), some_sizes.begin() + num_batch_dims);
*da0073e9SAndroid Build Coastguard Worker  const auto num_batches = c10::multiply_integers(batch_sizes);
*da0073e9SAndroid Build Coastguard Worker  // Without a shape-checking API, we're unable to compute the correct shape of
*da0073e9SAndroid Build Coastguard Worker  // the output so we just error out.
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(num_batches > 0,
*da0073e9SAndroid Build Coastguard Worker      "Batching rule not implemented for ", schema.operator_name(), ". ",
*da0073e9SAndroid Build Coastguard Worker      "The fallback path does not support vmap over dims of size 0.");
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Strategy: For each batch, we are going to push slices (where applicable)
*da0073e9SAndroid Build Coastguard Worker  // of the arguments onto `stack`, call `op`, and store the result in
*da0073e9SAndroid Build Coastguard Worker  // `output_shards`.
*da0073e9SAndroid Build Coastguard Worker  //
*da0073e9SAndroid Build Coastguard Worker  // NOTE: [Output shards layout]
*da0073e9SAndroid Build Coastguard Worker  // Assume that the operator has three outputs: a, b, c.
*da0073e9SAndroid Build Coastguard Worker  // The layout of output_shards is as follows:
*da0073e9SAndroid Build Coastguard Worker  // [ a0, a1, a2, a3, b0, b1, b2, b3, c0, c1, c2, c3]
*da0073e9SAndroid Build Coastguard Worker  // This is so that we can call at::stack([a0...a3]), at::stack([b0...b3])
*da0073e9SAndroid Build Coastguard Worker  // more easily in the next step.
*da0073e9SAndroid Build Coastguard Worker  std::vector<Tensor> output_shards(num_batches * num_returns);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  for (const auto linear_idx : c10::irange(num_batches)) {
*da0073e9SAndroid Build Coastguard Worker    auto index = computeIndex(linear_idx, batch_sizes);
*da0073e9SAndroid Build Coastguard Worker    auto batched_tensor_inputs_pos_iter = batched_tensor_inputs_position.begin();
*da0073e9SAndroid Build Coastguard Worker    auto input_physical_views_iter = input_physical_views.begin();
*da0073e9SAndroid Build Coastguard Worker    for (const auto arg_idx : c10::irange(num_arguments)) {
*da0073e9SAndroid Build Coastguard Worker      // We assume that torch::jit::Stack is backed by vector<IValue> for
*da0073e9SAndroid Build Coastguard Worker      // simplicity. When that is not the case, this code should be updated.
*da0073e9SAndroid Build Coastguard Worker      const auto& argument = (*stack)[arguments_begin + arg_idx];
*da0073e9SAndroid Build Coastguard Worker      if (batched_tensor_inputs_pos_iter == batched_tensor_inputs_position.end()
*da0073e9SAndroid Build Coastguard Worker          || arg_idx != *batched_tensor_inputs_pos_iter) {
*da0073e9SAndroid Build Coastguard Worker        // argument isn't a BatchedTensor
*da0073e9SAndroid Build Coastguard Worker        torch::jit::push(stack, argument);
*da0073e9SAndroid Build Coastguard Worker        continue;
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker      // argument is a BatchedTensor
*da0073e9SAndroid Build Coastguard Worker      TORCH_INTERNAL_ASSERT(input_physical_views_iter != input_physical_views.end());
*da0073e9SAndroid Build Coastguard Worker      const auto& physical_view_for_argument = *input_physical_views_iter;
*da0073e9SAndroid Build Coastguard Worker      torch::jit::push(stack, physical_view_for_argument.tensor().index(index));
*da0073e9SAndroid Build Coastguard Worker      batched_tensor_inputs_pos_iter++;
*da0073e9SAndroid Build Coastguard Worker      input_physical_views_iter++;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    op.callBoxed(stack);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    // Store the result into `output_shards`. See NOTE: [Output shards layout]
*da0073e9SAndroid Build Coastguard Worker    // to learn about the details of how we store the shards.
*da0073e9SAndroid Build Coastguard Worker    const auto returns = torch::jit::last(stack, num_returns);
*da0073e9SAndroid Build Coastguard Worker    for (const auto return_idx : c10::irange(returns.size())) {
*da0073e9SAndroid Build Coastguard Worker      output_shards[num_batches * return_idx + linear_idx] = returns[return_idx].toTensor();
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    torch::jit::drop(stack, num_returns);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // For each output Tensor, stack the shards of the tensor together to form a return
*da0073e9SAndroid Build Coastguard Worker  torch::jit::drop(stack, num_arguments);
*da0073e9SAndroid Build Coastguard Worker  auto output_shards_chunks = MatrixRef<Tensor>(output_shards, num_batches);
*da0073e9SAndroid Build Coastguard Worker  for (const auto return_idx : c10::irange(num_returns)) {
*da0073e9SAndroid Build Coastguard Worker    auto shards = output_shards_chunks[return_idx];
*da0073e9SAndroid Build Coastguard Worker    auto flat_output = safeStack(shards);
*da0073e9SAndroid Build Coastguard Worker    // See NOTE [vmap through backward and undefined grad]
*da0073e9SAndroid Build Coastguard Worker    if (!flat_output.defined()) {
*da0073e9SAndroid Build Coastguard Worker      torch::jit::push(stack, flat_output);
*da0073e9SAndroid Build Coastguard Worker      continue;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    VmapDimVector output_sizes(batch_sizes);
*da0073e9SAndroid Build Coastguard Worker    output_sizes.insert(
*da0073e9SAndroid Build Coastguard Worker        output_sizes.end(),
*da0073e9SAndroid Build Coastguard Worker        flat_output.sizes().begin() + 1,
*da0073e9SAndroid Build Coastguard Worker        flat_output.sizes().end());
*da0073e9SAndroid Build Coastguard Worker    torch::jit::push(
*da0073e9SAndroid Build Coastguard Worker        stack,
*da0073e9SAndroid Build Coastguard Worker        input_physical_views.front().getPhysicalToLogicalMap().apply(flat_output.view(output_sizes)));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker} // namespace at