pytorch/test/test_transformers.py

*da0073e9SAndroid Build Coastguard Worker# Owner(s): ["module: nn"]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport contextlib
*da0073e9SAndroid Build Coastguard Workerfrom functools import partial
*da0073e9SAndroid Build Coastguard Workerfrom collections import namedtuple
*da0073e9SAndroid Build Coastguard Workerimport sys
*da0073e9SAndroid Build Coastguard Workerimport torch
*da0073e9SAndroid Build Coastguard Workerimport torch.nn as nn
*da0073e9SAndroid Build Coastguard Workerimport torch.nn.functional as F
*da0073e9SAndroid Build Coastguard Workerfrom torch.nn.functional import scaled_dot_product_attention
*da0073e9SAndroid Build Coastguard Workerfrom torch.nn.attention import sdpa_kernel, SDPBackend
*da0073e9SAndroid Build Coastguard Workerfrom torch.nn.attention.bias import CausalVariant, causal_lower_right, causal_upper_left
*da0073e9SAndroid Build Coastguard Workerfrom torch.nn.parameter import Parameter
*da0073e9SAndroid Build Coastguard Workerimport unittest
*da0073e9SAndroid Build Coastguard Workerfrom unittest.mock import patch, MagicMock, ANY
*da0073e9SAndroid Build Coastguard Workerimport math
*da0073e9SAndroid Build Coastguard Workerimport torch.optim as optim
*da0073e9SAndroid Build Coastguard Workerfrom torch.testing._internal.common_device_type import instantiate_device_type_tests, onlyCUDA, onlyCPU
*da0073e9SAndroid Build Coastguard Workerfrom typing import List, Tuple, Optional
*da0073e9SAndroid Build Coastguard Workerfrom torch.testing._internal.common_nn import NNTestCase
*da0073e9SAndroid Build Coastguard Workerfrom torch.testing._internal.common_utils import (
*da0073e9SAndroid Build Coastguard Worker    TEST_WITH_ROCM,
*da0073e9SAndroid Build Coastguard Worker    skipIfRocm,
*da0073e9SAndroid Build Coastguard Worker    skipIfTorchDynamo,
*da0073e9SAndroid Build Coastguard Worker    TEST_FAIRSEQ,
*da0073e9SAndroid Build Coastguard Worker    run_tests,
*da0073e9SAndroid Build Coastguard Worker    parametrize,
*da0073e9SAndroid Build Coastguard Worker    freeze_rng_state,
*da0073e9SAndroid Build Coastguard Worker    TEST_WITH_CROSSREF,
*da0073e9SAndroid Build Coastguard Worker    slowTest,
*da0073e9SAndroid Build Coastguard Worker    set_default_dtype,
*da0073e9SAndroid Build Coastguard Worker    gradcheck,
*da0073e9SAndroid Build Coastguard Worker    make_tensor,
*da0073e9SAndroid Build Coastguard Worker    NOTEST_CPU,
*da0073e9SAndroid Build Coastguard Worker    IS_WINDOWS,
*da0073e9SAndroid Build Coastguard Worker    TEST_WITH_TORCHDYNAMO,
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard Workerfrom torch._dynamo.testing import CompileCounterWithBackend
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerfrom torch.testing._internal.common_methods_invocations import wrapper_set_seed
*da0073e9SAndroid Build Coastguard Workerfrom torch.testing._internal.common_cuda import (
*da0073e9SAndroid Build Coastguard Worker    IS_JETSON, SM80OrLater, PLATFORM_SUPPORTS_FLASH_ATTENTION,
*da0073e9SAndroid Build Coastguard Worker    PLATFORM_SUPPORTS_MEM_EFF_ATTENTION,
*da0073e9SAndroid Build Coastguard Worker    PLATFORM_SUPPORTS_FUSED_ATTENTION,
*da0073e9SAndroid Build Coastguard Worker    PLATFORM_SUPPORTS_CUDNN_ATTENTION
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerif TEST_FAIRSEQ:
*da0073e9SAndroid Build Coastguard Worker    import fairseq.models.transformer as fairseq_transformer
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerSdpaShape = namedtuple('Sdpa_Shape', ['batch', 'num_heads', 'seq_len', 'head_dim'])
*da0073e9SAndroid Build Coastguard WorkerTolerances = namedtuple('Tolerances', ['atol', 'rtol'])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker@contextlib.contextmanager
*da0073e9SAndroid Build Coastguard Workerdef use_deterministic_algorithims(mode: bool, warn_only: bool):
*da0073e9SAndroid Build Coastguard Worker    r"""
*da0073e9SAndroid Build Coastguard Worker    This context manager can be used to temporarily enable or disable deterministic algorithms.
*da0073e9SAndroid Build Coastguard Worker    Upon exiting the context manager, the previous state of the flag will be restored.
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    previous_mode: bool = torch.are_deterministic_algorithms_enabled()
*da0073e9SAndroid Build Coastguard Worker    previous_warn_only: bool = torch.is_deterministic_algorithms_warn_only_enabled()
*da0073e9SAndroid Build Coastguard Worker    try:
*da0073e9SAndroid Build Coastguard Worker        torch.use_deterministic_algorithms(mode, warn_only=warn_only)
*da0073e9SAndroid Build Coastguard Worker        yield {}
*da0073e9SAndroid Build Coastguard Worker    finally:
*da0073e9SAndroid Build Coastguard Worker        torch.use_deterministic_algorithms(previous_mode, warn_only=previous_warn_only)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker# Found in torch/testing/_comparison.py
*da0073e9SAndroid Build Coastguard Workerdefault_atol = {torch.float16: 1e-3, torch.bfloat16: 1e-3, torch.float32: 1e-5}
*da0073e9SAndroid Build Coastguard Workerdefault_rtol = {torch.float16: 1e-3, torch.bfloat16: 1.6e-2, torch.float32: 1.3e-6}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerisSM8XDevice = torch.cuda.is_available() and torch.cuda.get_device_capability() in [(8, 6), (8, 7), (8, 9)]
*da0073e9SAndroid Build Coastguard WorkerisSM90Device = torch.cuda.is_available() and torch.cuda.get_device_capability() == (9, 0)
*da0073e9SAndroid Build Coastguard WorkerisSM5xDevice = torch.cuda.is_available() and torch.cuda.get_device_capability()[0] == 5
*da0073e9SAndroid Build Coastguard WorkerisLessThanSM80Device = torch.cuda.is_available() and torch.cuda.get_device_capability()[0] < 8
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef get_rtol(true_value: torch.Tensor, computed_value: torch.Tensor) -> float:
*da0073e9SAndroid Build Coastguard Worker    deviation = true_value - computed_value
*da0073e9SAndroid Build Coastguard Worker    deviation = torch.abs(deviation / true_value)
*da0073e9SAndroid Build Coastguard Worker    # Fill in the nans with the default rtol
*da0073e9SAndroid Build Coastguard Worker    torch.nan_to_num_(deviation, nan=default_rtol[computed_value.dtype])
*da0073e9SAndroid Build Coastguard Worker    return deviation.max().item()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef get_atol(true_value: torch.Tensor, computed_value: torch.Tensor) -> float:
*da0073e9SAndroid Build Coastguard Worker    deviation = true_value - computed_value
*da0073e9SAndroid Build Coastguard Worker    atol = torch.abs(deviation).max().item()
*da0073e9SAndroid Build Coastguard Worker    return atol
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef get_tolerances(
*da0073e9SAndroid Build Coastguard Worker    true_value: torch.Tensor,
*da0073e9SAndroid Build Coastguard Worker    computed_value: torch.Tensor,
*da0073e9SAndroid Build Coastguard Worker    fudge_factor: Optional[float] = None,
*da0073e9SAndroid Build Coastguard Worker) -> Tuple[float, float]:
*da0073e9SAndroid Build Coastguard Worker    """Returns the absolute and relative tolerances for comparing two tensors."""
*da0073e9SAndroid Build Coastguard Worker    fudge_factor = fudge_factor if fudge_factor is not None else 1.0
*da0073e9SAndroid Build Coastguard Worker    atol = get_atol(true_value, computed_value)
*da0073e9SAndroid Build Coastguard Worker    rtol = get_rtol(true_value, computed_value)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    atol = fudge_factor * max(atol, default_atol[computed_value.dtype])
*da0073e9SAndroid Build Coastguard Worker    rtol = fudge_factor * max(rtol, default_rtol[computed_value.dtype])
*da0073e9SAndroid Build Coastguard Worker    # torch.isclose() has weird behavior around see:
*da0073e9SAndroid Build Coastguard Worker    # https://github.com/pytorch/pytorch/issues/102400
*da0073e9SAndroid Build Coastguard Worker    if rtol > 1e30:
*da0073e9SAndroid Build Coastguard Worker        rtol = default_rtol[computed_value.dtype]
*da0073e9SAndroid Build Coastguard Worker    return atol, rtol
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef query_key_value_clones(query: torch.Tensor, key: torch.Tensor, value: torch.Tensor, dtype: torch.dtype = None):
*da0073e9SAndroid Build Coastguard Worker    """ Clones the query, key, and value tensors and moves them to the specified dtype. """
*da0073e9SAndroid Build Coastguard Worker    if dtype is None:
*da0073e9SAndroid Build Coastguard Worker        dtype = query.dtype
*da0073e9SAndroid Build Coastguard Worker    query_ref = query.clone().detach().to(dtype).requires_grad_(query.requires_grad)
*da0073e9SAndroid Build Coastguard Worker    key_ref = key.clone().detach().to(dtype).requires_grad_(key.requires_grad)
*da0073e9SAndroid Build Coastguard Worker    value_ref = value.clone().detach().to(dtype).requires_grad_(value.requires_grad)
*da0073e9SAndroid Build Coastguard Worker    return query_ref, key_ref, value_ref
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef get_platform_specific_sdpa():
*da0073e9SAndroid Build Coastguard Worker    ret = []
*da0073e9SAndroid Build Coastguard Worker    if PLATFORM_SUPPORTS_FLASH_ATTENTION:
*da0073e9SAndroid Build Coastguard Worker        ret.append(SDPBackend.FLASH_ATTENTION)
*da0073e9SAndroid Build Coastguard Worker    if PLATFORM_SUPPORTS_MEM_EFF_ATTENTION:
*da0073e9SAndroid Build Coastguard Worker        ret.append(SDPBackend.EFFICIENT_ATTENTION)
*da0073e9SAndroid Build Coastguard Worker    if PLATFORM_SUPPORTS_CUDNN_ATTENTION:
*da0073e9SAndroid Build Coastguard Worker        ret.append(SDPBackend.CUDNN_ATTENTION)
*da0073e9SAndroid Build Coastguard Worker    if not ret:
*da0073e9SAndroid Build Coastguard Worker        # Add a placeholder, an empty list causes "An empty arg_values was passed to @parametrize"
*da0073e9SAndroid Build Coastguard Worker        ret.append(SDPBackend.EFFICIENT_ATTENTION)
*da0073e9SAndroid Build Coastguard Worker    return ret
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerPLATFORM_SPECIFIC_SDPA = get_platform_specific_sdpa()
*da0073e9SAndroid Build Coastguard Worker# Indicate the Efficient attention backend can support:
*da0073e9SAndroid Build Coastguard Worker# 1. sequence longher than 512
*da0073e9SAndroid Build Coastguard Worker# 2. head dimsion larger than 64
*da0073e9SAndroid Build Coastguard WorkerMEM_EFF_CAPABILITY_MATCHES_SM80 = SM80OrLater or TEST_WITH_ROCM
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef rand_sdpa_tensor(shape: SdpaShape, device: str, dtype: torch.dtype, type: str,
*da0073e9SAndroid Build Coastguard Worker                     requires_grad: bool = False, packed: bool = False) -> torch.Tensor:
*da0073e9SAndroid Build Coastguard Worker    """Creates rand dense or nested tensor with given shape and type.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Args:
*da0073e9SAndroid Build Coastguard Worker        shape (Tuple[int]): Shape of Tensor to construct
*da0073e9SAndroid Build Coastguard Worker        device (str): which device to create tensor on
*da0073e9SAndroid Build Coastguard Worker        dtype (torch.dtype): Tensors' dtype
*da0073e9SAndroid Build Coastguard Worker        type (str): Nested or Dense
*da0073e9SAndroid Build Coastguard Worker        requires_grad (bool, optional): Tensors grad status. Defaults to False.
*da0073e9SAndroid Build Coastguard Worker        packed (bool, optional): Whether to create a single QKV packed or not. Defaults to False.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Returns:
*da0073e9SAndroid Build Coastguard Worker        torch.Tensor: A new tensor
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    batch, num_heads, seq_len, head_dim = shape.batch, shape.num_heads, shape.seq_len, shape.head_dim
*da0073e9SAndroid Build Coastguard Worker    if type == "nested":
*da0073e9SAndroid Build Coastguard Worker        if isinstance(seq_len, list):
*da0073e9SAndroid Build Coastguard Worker            def _size(i):
*da0073e9SAndroid Build Coastguard Worker                return (seq_len[i], num_heads, head_dim) if not packed else (seq_len[i], 3 * num_heads * head_dim)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            return torch.nested.nested_tensor([
*da0073e9SAndroid Build Coastguard Worker                torch.randn(_size(i), device=device, dtype=dtype, requires_grad=requires_grad)
*da0073e9SAndroid Build Coastguard Worker                for i in range(batch)])
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            size = (seq_len, num_heads, head_dim) if not packed else (seq_len, 3 * num_heads * head_dim)
*da0073e9SAndroid Build Coastguard Worker            return torch.nested.nested_tensor([
*da0073e9SAndroid Build Coastguard Worker                torch.randn(size, device=device, dtype=dtype, requires_grad=requires_grad)
*da0073e9SAndroid Build Coastguard Worker                for _ in range(batch)])
*da0073e9SAndroid Build Coastguard Worker    else:
*da0073e9SAndroid Build Coastguard Worker        assert (isinstance(seq_len, int))
*da0073e9SAndroid Build Coastguard Worker        size = (batch, seq_len, num_heads, head_dim) if not packed else (batch, seq_len, 3 * num_heads * head_dim)
*da0073e9SAndroid Build Coastguard Worker        return torch.randn(size, device=device, dtype=dtype, requires_grad=requires_grad)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef calculate_nt_tolerances(nt_ref_hp, nt_ref_lp, default_dtype, fudge_factor=1):
*da0073e9SAndroid Build Coastguard Worker    # TODO use NT ops when we have implemented Max for NestedTensor instead of unrolling
*da0073e9SAndroid Build Coastguard Worker    ref_atol = default_atol[default_dtype]
*da0073e9SAndroid Build Coastguard Worker    ref_rtol = default_rtol[default_dtype]
*da0073e9SAndroid Build Coastguard Worker    for tensor_component_ref, tensor_component_ref_lp in zip(nt_ref_hp.unbind(), nt_ref_lp.unbind()):
*da0073e9SAndroid Build Coastguard Worker        ref_atol = max((fudge_factor * torch.abs(tensor_component_ref - tensor_component_ref_lp)).max().item(), ref_atol)
*da0073e9SAndroid Build Coastguard Worker        ref_rtol = max(get_rtol(tensor_component_ref, tensor_component_ref_lp), ref_rtol)
*da0073e9SAndroid Build Coastguard Worker    return ref_atol, ref_rtol
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass TestTransformers(NNTestCase):
*da0073e9SAndroid Build Coastguard Worker    _do_cuda_memory_leak_check = True
*da0073e9SAndroid Build Coastguard Worker    _do_cuda_non_default_stream = True
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skip("4D mask not supported yet - activate when 4D mask supported")
*da0073e9SAndroid Build Coastguard Worker    def test_self_attn_TxT_attn_mask(self, device):
*da0073e9SAndroid Build Coastguard Worker        embed_dim = 16
*da0073e9SAndroid Build Coastguard Worker        num_heads = 4
*da0073e9SAndroid Build Coastguard Worker        batch_size = 10
*da0073e9SAndroid Build Coastguard Worker        tgt_len = 16
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query = torch.rand(batch_size, tgt_len, embed_dim, device=device)  # [N, T, D]
*da0073e9SAndroid Build Coastguard Worker        attn_mask = torch.randint(0, 2, (tgt_len, tgt_len)).cuda().float()  # [T, T]
*da0073e9SAndroid Build Coastguard Worker        attn_mask = attn_mask.masked_fill(attn_mask == 0, float('-inf')).masked_fill(attn_mask == 1, 0.0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        attn_mask_4d = attn_mask.expand(batch_size, num_heads, tgt_len, tgt_len)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        mta_model = torch.nn.MultiheadAttention(embed_dim, num_heads, batch_first=True).cuda()
*da0073e9SAndroid Build Coastguard Worker        mta_model.eval()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Generate 3D results
*da0073e9SAndroid Build Coastguard Worker        with torch.inference_mode():
*da0073e9SAndroid Build Coastguard Worker            output_mask_4d = mta_model(query, query, query, attn_mask=attn_mask_4d)[0]
*da0073e9SAndroid Build Coastguard Worker            output_mask_4d = output_mask_4d.transpose(0, 1)  # [N, T, D]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            output_mask_TxT = mta_model(query, query, query, attn_mask=attn_mask)[0]
*da0073e9SAndroid Build Coastguard Worker            output_mask_TxT = output_mask_TxT.transpose(0, 1)  # [N, T, D]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(output_mask_4d, output_mask_TxT)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @slowTest
*da0073e9SAndroid Build Coastguard Worker    def test_train_with_pad_and_catch_error(self, device):
*da0073e9SAndroid Build Coastguard Worker        iters = 100
*da0073e9SAndroid Build Coastguard Worker        pad_mask = torch.tensor([[1, 1, 0, 0]], dtype=torch.bool).to(device)
*da0073e9SAndroid Build Coastguard Worker        layer = nn.TransformerEncoderLayer(
*da0073e9SAndroid Build Coastguard Worker            d_model=2,
*da0073e9SAndroid Build Coastguard Worker            dim_feedforward=4,
*da0073e9SAndroid Build Coastguard Worker            nhead=2,
*da0073e9SAndroid Build Coastguard Worker            batch_first=True,
*da0073e9SAndroid Build Coastguard Worker            activation="gelu",
*da0073e9SAndroid Build Coastguard Worker            dropout=0,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        criterion = nn.MSELoss()
*da0073e9SAndroid Build Coastguard Worker        encoder = nn.TransformerEncoder(layer, 2).to(device)
*da0073e9SAndroid Build Coastguard Worker        optimizer = optim.SGD(encoder.parameters(), lr=0.1, momentum=0.9)
*da0073e9SAndroid Build Coastguard Worker        encoder.train()
*da0073e9SAndroid Build Coastguard Worker        for i in range(iters):
*da0073e9SAndroid Build Coastguard Worker            encoder.train()
*da0073e9SAndroid Build Coastguard Worker            optimizer.zero_grad()
*da0073e9SAndroid Build Coastguard Worker            inputs = torch.cat([torch.randn(1, 2, 2), torch.zeros(1, 2, 2)], dim=1).to(device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            outputs = encoder(inputs, src_key_padding_mask=pad_mask)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            loss = criterion(outputs[:, 0:2, :], inputs[:, 0:2, :])
*da0073e9SAndroid Build Coastguard Worker            loss.backward()
*da0073e9SAndroid Build Coastguard Worker            optimizer.step()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker                test = torch.cat([torch.randn(1, 2, 2), torch.zeros(1, 2, 2)], dim=1).to(device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # Expect uint8 type not supported
*da0073e9SAndroid Build Coastguard Worker                ex = None
*da0073e9SAndroid Build Coastguard Worker                try:
*da0073e9SAndroid Build Coastguard Worker                    test_train_uint8 = encoder(test, src_key_padding_mask=pad_mask.to(torch.uint8))
*da0073e9SAndroid Build Coastguard Worker                except AssertionError as e:
*da0073e9SAndroid Build Coastguard Worker                    continue
*da0073e9SAndroid Build Coastguard Worker                self.assertFalse(e, "Failed to catch unsupported uint8 type exception")  # noqa: F821
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                test_train_bool = encoder(test, src_key_padding_mask=pad_mask)
*da0073e9SAndroid Build Coastguard Worker                encoder.eval()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # Expect long type not supported
*da0073e9SAndroid Build Coastguard Worker                ex = None
*da0073e9SAndroid Build Coastguard Worker                try:
*da0073e9SAndroid Build Coastguard Worker                    test_eval_uint8 = encoder(test, src_key_padding_mask=pad_mask.to(torch.int64))
*da0073e9SAndroid Build Coastguard Worker                except AssertionError as e:
*da0073e9SAndroid Build Coastguard Worker                    continue
*da0073e9SAndroid Build Coastguard Worker                self.assertFalse(e, "Failed to catch unsupported Long type exception")  # noqa: F821
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                test_eval_bool = encoder(test, src_key_padding_mask=pad_mask)
*da0073e9SAndroid Build Coastguard Worker                l1_bool = nn.L1Loss()(test_train_bool[:, 0:2, :], test_eval_bool[:, 0:2, :]).item()
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(l1_bool < 1e-4, "Eval/Train difference in pad_mask BOOL")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @parametrize("attn_mask_dim", [2, 3, None])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("key_padding_mask_dim", [2, None])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("mask_dtype", [torch.bool, torch.float32])
*da0073e9SAndroid Build Coastguard Worker    def test_multiheadattention_fastpath_attn_mask(self, device, attn_mask_dim, key_padding_mask_dim, mask_dtype):
*da0073e9SAndroid Build Coastguard Worker        with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker            B = 2
*da0073e9SAndroid Build Coastguard Worker            L = 4
*da0073e9SAndroid Build Coastguard Worker            D = 8
*da0073e9SAndroid Build Coastguard Worker            H = 4
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if attn_mask_dim == 2:
*da0073e9SAndroid Build Coastguard Worker                attn_mask = make_tensor((L, L), dtype=mask_dtype, device=device)
*da0073e9SAndroid Build Coastguard Worker            elif attn_mask_dim == 3:
*da0073e9SAndroid Build Coastguard Worker                attn_mask = make_tensor((B * H, L, L), dtype=mask_dtype, device=device)
*da0073e9SAndroid Build Coastguard Worker            elif attn_mask_dim is None:
*da0073e9SAndroid Build Coastguard Worker                attn_mask = None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if key_padding_mask_dim == 2:
*da0073e9SAndroid Build Coastguard Worker                key_padding_mask = make_tensor((B, L), dtype=mask_dtype, device=device)
*da0073e9SAndroid Build Coastguard Worker            elif key_padding_mask_dim is None:
*da0073e9SAndroid Build Coastguard Worker                key_padding_mask = None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            mha = nn.MultiheadAttention(D, H, batch_first=True, device=device)
*da0073e9SAndroid Build Coastguard Worker            X = torch.randn(B, L, D, device=device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            mha.train()  # disable fast path
*da0073e9SAndroid Build Coastguard Worker            out, _ = mha(X, X, X, attn_mask=attn_mask, key_padding_mask=key_padding_mask, need_weights=False)
*da0073e9SAndroid Build Coastguard Worker            mha.eval()  # enable fast path
*da0073e9SAndroid Build Coastguard Worker            out_fp, _ = mha(X, X, X, attn_mask=attn_mask, key_padding_mask=key_padding_mask, need_weights=False)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(out, out_fp)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @parametrize("nhead", [1, 4, 8])
*da0073e9SAndroid Build Coastguard Worker    def test_transformerencoderlayer_src_mask(self, device, nhead):
*da0073e9SAndroid Build Coastguard Worker        batch_size = 2
*da0073e9SAndroid Build Coastguard Worker        seqlen = 4
*da0073e9SAndroid Build Coastguard Worker        d_model = 8
*da0073e9SAndroid Build Coastguard Worker        dim_feedforward = 32
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        model = torch.nn.TransformerEncoderLayer(
*da0073e9SAndroid Build Coastguard Worker            d_model=d_model,
*da0073e9SAndroid Build Coastguard Worker            nhead=nhead,
*da0073e9SAndroid Build Coastguard Worker            dim_feedforward=dim_feedforward,
*da0073e9SAndroid Build Coastguard Worker            batch_first=True).to(device)
*da0073e9SAndroid Build Coastguard Worker        src = torch.rand(batch_size, seqlen, d_model).to(device)  # bs, seqlen, d_model
*da0073e9SAndroid Build Coastguard Worker        src_mask = torch.zeros(seqlen, seqlen).to(torch.bool).to(device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        model(src, src_mask=src_mask)
*da0073e9SAndroid Build Coastguard Worker        model.eval()
*da0073e9SAndroid Build Coastguard Worker        with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker            model(src, src_mask=src_mask)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @parametrize("use_torchscript", [False])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("enable_nested_tensor", [True, False])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("use_autocast", [True, False])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("d_model", [12, 256])
*da0073e9SAndroid Build Coastguard Worker    def test_transformerencoder_fastpath(self, device, use_torchscript, enable_nested_tensor, use_autocast, d_model):
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        Test TransformerEncoder fastpath output matches slowpath output
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        torch.manual_seed(1234)
*da0073e9SAndroid Build Coastguard Worker        nhead = 4
*da0073e9SAndroid Build Coastguard Worker        dim_feedforward = d_model
*da0073e9SAndroid Build Coastguard Worker        batch_first = True
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        model = torch.nn.TransformerEncoder(
*da0073e9SAndroid Build Coastguard Worker            torch.nn.TransformerEncoderLayer(
*da0073e9SAndroid Build Coastguard Worker                d_model=d_model,
*da0073e9SAndroid Build Coastguard Worker                nhead=nhead,
*da0073e9SAndroid Build Coastguard Worker                dim_feedforward=dim_feedforward,
*da0073e9SAndroid Build Coastguard Worker                batch_first=batch_first),
*da0073e9SAndroid Build Coastguard Worker            num_layers=2,
*da0073e9SAndroid Build Coastguard Worker            enable_nested_tensor=enable_nested_tensor
*da0073e9SAndroid Build Coastguard Worker        ).to(device).eval()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if use_torchscript:
*da0073e9SAndroid Build Coastguard Worker            model = torch.jit.script(model)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # each input is (input, mask)
*da0073e9SAndroid Build Coastguard Worker        input_mask_pairs = [
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                torch.rand(3, 2, d_model),
*da0073e9SAndroid Build Coastguard Worker                [
*da0073e9SAndroid Build Coastguard Worker                    [0, 1],
*da0073e9SAndroid Build Coastguard Worker                    [0, 1],
*da0073e9SAndroid Build Coastguard Worker                    [1, 1]
*da0073e9SAndroid Build Coastguard Worker                ]
*da0073e9SAndroid Build Coastguard Worker            ),
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                torch.rand(2, 100, d_model),
*da0073e9SAndroid Build Coastguard Worker                [
*da0073e9SAndroid Build Coastguard Worker                    [0] * 98 + [1] * 2,
*da0073e9SAndroid Build Coastguard Worker                    [0] * 90 + [1] * 10
*da0073e9SAndroid Build Coastguard Worker                ]
*da0073e9SAndroid Build Coastguard Worker            ),
*da0073e9SAndroid Build Coastguard Worker            # softmax.cu switches from fast->slowpath at masked seqlen 1024. test 1024.
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                torch.rand(2, 1024, d_model),
*da0073e9SAndroid Build Coastguard Worker                [
*da0073e9SAndroid Build Coastguard Worker                    [0] * 1020 + [1] * 4,
*da0073e9SAndroid Build Coastguard Worker                    [0] * 1024,
*da0073e9SAndroid Build Coastguard Worker                ]
*da0073e9SAndroid Build Coastguard Worker            ),
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                torch.rand(1, 1026, d_model),
*da0073e9SAndroid Build Coastguard Worker                [[0] * 1024 + [1] * 2]
*da0073e9SAndroid Build Coastguard Worker            ),
*da0073e9SAndroid Build Coastguard Worker            # softmax.cu switches from fast->slowpath at masked seqlen 1024. test range of masks above 1024.
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                torch.rand(4, 1040, d_model),
*da0073e9SAndroid Build Coastguard Worker                [
*da0073e9SAndroid Build Coastguard Worker                    [0] * 1024 + [1] * 16,
*da0073e9SAndroid Build Coastguard Worker                    [0] * 1025 + [1] * 15,
*da0073e9SAndroid Build Coastguard Worker                    [0] * 1031 + [1] * 9,
*da0073e9SAndroid Build Coastguard Worker                    [0] * 1040,
*da0073e9SAndroid Build Coastguard Worker                ]
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker        input_mask_pairs = [
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                torch.tensor(pair[0], device=device, dtype=torch.get_default_dtype()),  # float input
*da0073e9SAndroid Build Coastguard Worker                torch.tensor(pair[1], device=device, dtype=torch.bool)  # bool mask
*da0073e9SAndroid Build Coastguard Worker            ) for pair in input_mask_pairs
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        maybe_autocast = torch.autocast("cuda", dtype=torch.float16) if use_autocast else contextlib.nullcontext()
*da0073e9SAndroid Build Coastguard Worker        with maybe_autocast:
*da0073e9SAndroid Build Coastguard Worker            for input, src_key_padding_mask in input_mask_pairs:
*da0073e9SAndroid Build Coastguard Worker                with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker                    fastpath_output = model(input, src_key_padding_mask=src_key_padding_mask)
*da0073e9SAndroid Build Coastguard Worker                slowpath_output = model(input, src_key_padding_mask=src_key_padding_mask)  # reference
*da0073e9SAndroid Build Coastguard Worker                # Make sure fastpath_output is same shape as slowpath_output and mask.
*da0073e9SAndroid Build Coastguard Worker                # When enable_nested_tensor=true, fastpath_output may be smaller than input tensor.
*da0073e9SAndroid Build Coastguard Worker                # Eg if input bs=1, seqlen=6, and we mask out 2 tokens, fastpath_output will have bs=1, seqlen=4.
*da0073e9SAndroid Build Coastguard Worker                # Expand back to old size to match.
*da0073e9SAndroid Build Coastguard Worker                bs, true_seqlen, embed_dim = fastpath_output.shape
*da0073e9SAndroid Build Coastguard Worker                expanded_seqlen = src_key_padding_mask.shape[1]
*da0073e9SAndroid Build Coastguard Worker                fastpath_output_expanded = torch.zeros(bs, expanded_seqlen, embed_dim, device=device)
*da0073e9SAndroid Build Coastguard Worker                fastpath_output_expanded[:, :true_seqlen, :] = fastpath_output
*da0073e9SAndroid Build Coastguard Worker                # no garauntees on output corresponding to masked tokens, so they may vary between slow/fast path. set all to 0.
*da0073e9SAndroid Build Coastguard Worker                fastpath_output_expanded = fastpath_output_expanded.masked_fill(src_key_padding_mask.unsqueeze(-1), 0)
*da0073e9SAndroid Build Coastguard Worker                slowpath_output = slowpath_output.masked_fill(src_key_padding_mask.unsqueeze(-1), 0)
*da0073e9SAndroid Build Coastguard Worker                torch.testing.assert_close(fastpath_output_expanded, slowpath_output, rtol=1e-7, atol=1e-5)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @parametrize("with_no_grad", [True, False])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("training", [True, False])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("enable_nested_tensor", [False])
*da0073e9SAndroid Build Coastguard Worker    def test_transformerencoder_square_input(self, with_no_grad, training, enable_nested_tensor, device):
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        Test for edge cases when input of shape (batch size, sequence length, embedding dimension) has
*da0073e9SAndroid Build Coastguard Worker        batch size == sequence length
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        model = torch.nn.TransformerEncoder(
*da0073e9SAndroid Build Coastguard Worker            torch.nn.TransformerEncoderLayer(d_model=4, nhead=2, dim_feedforward=16, dropout=0.0, batch_first=True),
*da0073e9SAndroid Build Coastguard Worker            num_layers=2,
*da0073e9SAndroid Build Coastguard Worker            enable_nested_tensor=enable_nested_tensor
*da0073e9SAndroid Build Coastguard Worker        ).to(device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker            # set constant weights of the model
*da0073e9SAndroid Build Coastguard Worker            for idx, p in enumerate(model.parameters()):
*da0073e9SAndroid Build Coastguard Worker                x = p.data
*da0073e9SAndroid Build Coastguard Worker                sz = x.view(-1).size(0)
*da0073e9SAndroid Build Coastguard Worker                shape = x.shape
*da0073e9SAndroid Build Coastguard Worker                x = torch.cos(torch.arange(0, sz).float().view(shape))
*da0073e9SAndroid Build Coastguard Worker                p.data.copy_(x)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if training:
*da0073e9SAndroid Build Coastguard Worker            model = model.train()
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            model = model.eval()
*da0073e9SAndroid Build Coastguard Worker        x = torch.arange(0, 16).reshape(2, 2, 4).to(torch.get_default_dtype()).to(device)
*da0073e9SAndroid Build Coastguard Worker        src_mask = torch.Tensor([[0, 1], [0, 0]]).to(torch.bool).to(device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if with_no_grad:
*da0073e9SAndroid Build Coastguard Worker            cm = torch.no_grad()
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            cm = contextlib.nullcontext()
*da0073e9SAndroid Build Coastguard Worker        with cm:
*da0073e9SAndroid Build Coastguard Worker            result = model(x, mask=src_mask)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        ref_output = torch.Tensor([[[2.420306205749512, 0.017629241570830, -0.607857942581177, -0.085519507527351],
*da0073e9SAndroid Build Coastguard Worker                                    [2.420306205749512, 0.017629241570830, -0.607857942581177, -0.085519507527351]],
*da0073e9SAndroid Build Coastguard Worker                                   [[2.419836044311523, 0.017548924311996, -0.608187675476074, -0.085347734391689],
*da0073e9SAndroid Build Coastguard Worker                                    [2.419836044311523, 0.017548924311996, -0.608187675476074, -0.085347734391689]]]
*da0073e9SAndroid Build Coastguard Worker                                  ).to(device)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(tuple(result.shape), tuple(ref_output.shape))
*da0073e9SAndroid Build Coastguard Worker        torch.testing.assert_close(result, ref_output, rtol=1e-7, atol=1e-5)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @parametrize("batch_first", [True, False])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("training", [True, False])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("enable_nested_tensor", [True, False])
*da0073e9SAndroid Build Coastguard Worker    def test_transformerencoder(self, batch_first, training, enable_nested_tensor, device):
*da0073e9SAndroid Build Coastguard Worker        def get_a_test_layer(activation, batch_first=False):
*da0073e9SAndroid Build Coastguard Worker            d_model = 4
*da0073e9SAndroid Build Coastguard Worker            nhead = 2
*da0073e9SAndroid Build Coastguard Worker            dim_feedforward = 16
*da0073e9SAndroid Build Coastguard Worker            dropout = 0.0
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            layer = nn.TransformerEncoderLayer(
*da0073e9SAndroid Build Coastguard Worker                d_model,
*da0073e9SAndroid Build Coastguard Worker                nhead,
*da0073e9SAndroid Build Coastguard Worker                dim_feedforward=dim_feedforward,
*da0073e9SAndroid Build Coastguard Worker                dropout=dropout,
*da0073e9SAndroid Build Coastguard Worker                activation=activation,
*da0073e9SAndroid Build Coastguard Worker                batch_first=batch_first,
*da0073e9SAndroid Build Coastguard Worker            ).to(device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker                # set constant weights of the model
*da0073e9SAndroid Build Coastguard Worker                for idx, p in enumerate(layer.parameters()):
*da0073e9SAndroid Build Coastguard Worker                    x = p.data
*da0073e9SAndroid Build Coastguard Worker                    sz = x.view(-1).size(0)
*da0073e9SAndroid Build Coastguard Worker                    shape = x.shape
*da0073e9SAndroid Build Coastguard Worker                    x = torch.cos(torch.arange(0, sz).float().view(shape))
*da0073e9SAndroid Build Coastguard Worker                    p.data.copy_(x)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            return layer
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # this is a deterministic test for TransformerEncoder
*da0073e9SAndroid Build Coastguard Worker        activation = F.relu
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def _test(batch_first, training, enable_nested_tensor):
*da0073e9SAndroid Build Coastguard Worker            def perm_fn(x):
*da0073e9SAndroid Build Coastguard Worker                return x.transpose(1, 0) if batch_first else x
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            encoder_layer = get_a_test_layer(activation=activation,
*da0073e9SAndroid Build Coastguard Worker                                             batch_first=batch_first)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            model = nn.TransformerEncoder(
*da0073e9SAndroid Build Coastguard Worker                encoder_layer, 1, enable_nested_tensor=enable_nested_tensor
*da0073e9SAndroid Build Coastguard Worker            ).to(device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if not training:
*da0073e9SAndroid Build Coastguard Worker                model = model.eval()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # deterministic input
*da0073e9SAndroid Build Coastguard Worker            encoder_input = perm_fn(torch.tensor([[[0.7462, 0.6653, 0.5679, 0.4891],
*da0073e9SAndroid Build Coastguard Worker                                                   [0.5387, 0.1655, 0.3565, 0.0471]],
*da0073e9SAndroid Build Coastguard Worker                                                  [[0.8335, 0.2799, 0.5031, 0.2947],
*da0073e9SAndroid Build Coastguard Worker                                                   [0.1402, 0.0318, 0.7636, 0.1346]],
*da0073e9SAndroid Build Coastguard Worker                                                  [[0.6333, 0.9344, 0.1376, 0.9938],
*da0073e9SAndroid Build Coastguard Worker                                                   [0.8924, 0.2872, 0.6692, 0.2944]],
*da0073e9SAndroid Build Coastguard Worker                                                  [[0.9897, 0.6915, 0.3154, 0.1733],
*da0073e9SAndroid Build Coastguard Worker                                                   [0.8645, 0.3513, 0.3064, 0.0767]],
*da0073e9SAndroid Build Coastguard Worker                                                  [[0.8117, 0.2366, 0.4838, 0.7881],
*da0073e9SAndroid Build Coastguard Worker                                                   [0.3718, 0.4945, 0.9511, 0.0864]]]
*da0073e9SAndroid Build Coastguard Worker                                                 )).to(device)
*da0073e9SAndroid Build Coastguard Worker            result = model(encoder_input)
*da0073e9SAndroid Build Coastguard Worker            ref_output = perm_fn(torch.tensor([[[2.428589, 0.020835, -0.602055, -0.085249],
*da0073e9SAndroid Build Coastguard Worker                                                [2.427987, 0.021213, -0.602496, -0.084103]],
*da0073e9SAndroid Build Coastguard Worker                                               [[2.424689, 0.019155, -0.604793, -0.085672],
*da0073e9SAndroid Build Coastguard Worker                                                [2.413863, 0.022211, -0.612486, -0.072490]],
*da0073e9SAndroid Build Coastguard Worker                                               [[2.433774, 0.021598, -0.598343, -0.087548],
*da0073e9SAndroid Build Coastguard Worker                                                [2.425104, 0.019748, -0.604515, -0.084839]],
*da0073e9SAndroid Build Coastguard Worker                                               [[2.436185, 0.022682, -0.596625, -0.087261],
*da0073e9SAndroid Build Coastguard Worker                                                [2.433556, 0.021891, -0.598509, -0.086832]],
*da0073e9SAndroid Build Coastguard Worker                                               [[2.416246, 0.017512, -0.610712, -0.082961],
*da0073e9SAndroid Build Coastguard Worker                                                [2.422901, 0.024187, -0.606178, -0.074929]]]
*da0073e9SAndroid Build Coastguard Worker                                              )).to(device)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(tuple(result.shape), tuple(ref_output.shape))
*da0073e9SAndroid Build Coastguard Worker            torch.testing.assert_close(result, ref_output, rtol=1e-7, atol=1e-5)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # all 0 src_mask
*da0073e9SAndroid Build Coastguard Worker            src_mask = torch.zeros([5, 5]).to(device) == 1
*da0073e9SAndroid Build Coastguard Worker            result = model(encoder_input, mask=src_mask)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(tuple(result.shape), tuple(ref_output.shape))
*da0073e9SAndroid Build Coastguard Worker            torch.testing.assert_close(result, ref_output, rtol=1e-7, atol=1e-5)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # all 0
*da0073e9SAndroid Build Coastguard Worker            mask = torch.zeros([2, 5]).to(device) == 1
*da0073e9SAndroid Build Coastguard Worker            result = model(encoder_input, src_key_padding_mask=mask)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(tuple(result.shape), tuple(ref_output.shape))
*da0073e9SAndroid Build Coastguard Worker            torch.testing.assert_close(result, ref_output, rtol=1e-7, atol=1e-5)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            mask[0, 1] = 1
*da0073e9SAndroid Build Coastguard Worker            mask[1, 3] = 1
*da0073e9SAndroid Build Coastguard Worker            mask[1, 4] = 1
*da0073e9SAndroid Build Coastguard Worker            result = model(encoder_input, src_key_padding_mask=mask)
*da0073e9SAndroid Build Coastguard Worker            ref_output = perm_fn(torch.tensor([[[2.429026, 0.020793, -0.601741, -0.085642],
*da0073e9SAndroid Build Coastguard Worker                                                [2.428811, 0.021445, -0.601912, -0.084252]],
*da0073e9SAndroid Build Coastguard Worker                                               [[2.425009, 0.019155, -0.604566, -0.085899],
*da0073e9SAndroid Build Coastguard Worker                                                [2.415408, 0.02249, -0.611415, -0.073]],
*da0073e9SAndroid Build Coastguard Worker                                               [[2.434199, 0.021682, -0.598039, -0.087699],
*da0073e9SAndroid Build Coastguard Worker                                                [2.42598, 0.019941, -0.603896, -0.085091]],
*da0073e9SAndroid Build Coastguard Worker                                               [[2.436457, 0.022736, -0.59643, -0.08736],
*da0073e9SAndroid Build Coastguard Worker                                                [2.434021, 0.022093, -0.598179, -0.08679]],
*da0073e9SAndroid Build Coastguard Worker                                               [[2.416531, 0.017498, -0.610513, -0.083181],
*da0073e9SAndroid Build Coastguard Worker                                                [2.4242, 0.024653, -0.605266, -0.074959]]]
*da0073e9SAndroid Build Coastguard Worker                                              )).to(device)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(tuple(result.shape), tuple(ref_output.shape))
*da0073e9SAndroid Build Coastguard Worker            torch.testing.assert_close(result, ref_output, rtol=1e-7, atol=1e-5)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # test case 2, multiple layers no norm
*da0073e9SAndroid Build Coastguard Worker            model = nn.TransformerEncoder(encoder_layer, 2, enable_nested_tensor=enable_nested_tensor).to(device)
*da0073e9SAndroid Build Coastguard Worker            if not training:
*da0073e9SAndroid Build Coastguard Worker                model = model.eval()
*da0073e9SAndroid Build Coastguard Worker            result = model(encoder_input, src_key_padding_mask=mask)
*da0073e9SAndroid Build Coastguard Worker            ref_output = perm_fn(torch.tensor([[[2.419051, 0.017446, -0.608738, -0.085003],
*da0073e9SAndroid Build Coastguard Worker                                                [2.419102, 0.017452, -0.608703, -0.085026]],
*da0073e9SAndroid Build Coastguard Worker                                               [[2.419043, 0.017445, -0.608744, -0.084999],
*da0073e9SAndroid Build Coastguard Worker                                                [2.419052, 0.017446, -0.608738, -0.085004]],
*da0073e9SAndroid Build Coastguard Worker                                               [[2.419067, 0.017448, -0.608727, -0.085010],
*da0073e9SAndroid Build Coastguard Worker                                                [2.419098, 0.017452, -0.608706, -0.085024]],
*da0073e9SAndroid Build Coastguard Worker                                               [[2.419072, 0.017449, -0.608724, -0.085012],
*da0073e9SAndroid Build Coastguard Worker                                                [2.419119, 0.017455, -0.608691, -0.085034]],
*da0073e9SAndroid Build Coastguard Worker                                               [[2.419019, 0.017442, -0.608761, -0.084989],
*da0073e9SAndroid Build Coastguard Worker                                                [2.419075, 0.017449, -0.608722, -0.085014]]]
*da0073e9SAndroid Build Coastguard Worker                                              )).to(device)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(tuple(result.shape), tuple(ref_output.shape))
*da0073e9SAndroid Build Coastguard Worker            torch.testing.assert_close(result, ref_output, rtol=1e-7, atol=1e-5)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            model = nn.TransformerEncoder(encoder_layer, 6, enable_nested_tensor=enable_nested_tensor).to(device)
*da0073e9SAndroid Build Coastguard Worker            if not training:
*da0073e9SAndroid Build Coastguard Worker                model = model.eval()
*da0073e9SAndroid Build Coastguard Worker            result = model(encoder_input, src_key_padding_mask=mask)
*da0073e9SAndroid Build Coastguard Worker            ref_output = perm_fn(torch.tensor([[[2.419101, 0.017453, -0.608703, -0.085025],
*da0073e9SAndroid Build Coastguard Worker                                                [2.419101, 0.017453, -0.608704, -0.085025]],
*da0073e9SAndroid Build Coastguard Worker                                               [[2.419101, 0.017453, -0.608703, -0.085025],
*da0073e9SAndroid Build Coastguard Worker                                                [2.419101, 0.017453, -0.608704, -0.085025]],
*da0073e9SAndroid Build Coastguard Worker                                               [[2.419101, 0.017453, -0.608703, -0.085025],
*da0073e9SAndroid Build Coastguard Worker                                                [2.419101, 0.017453, -0.608704, -0.085025]],
*da0073e9SAndroid Build Coastguard Worker                                               [[2.419101, 0.017453, -0.608703, -0.085025],
*da0073e9SAndroid Build Coastguard Worker                                                [2.419101, 0.017453, -0.608704, -0.085025]],
*da0073e9SAndroid Build Coastguard Worker                                               [[2.419101, 0.017453, -0.608703, -0.085025],
*da0073e9SAndroid Build Coastguard Worker                                                [2.419101, 0.017453, -0.608704, -0.085025]]]
*da0073e9SAndroid Build Coastguard Worker                                              )).to(device)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(tuple(result.shape), tuple(ref_output.shape))
*da0073e9SAndroid Build Coastguard Worker            torch.testing.assert_close(result, ref_output, rtol=1e-7, atol=1e-5)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # test case 3, multiple layers with norm
*da0073e9SAndroid Build Coastguard Worker            # d_model = 4
*da0073e9SAndroid Build Coastguard Worker            norm = nn.LayerNorm(4)
*da0073e9SAndroid Build Coastguard Worker            model = nn.TransformerEncoder(encoder_layer, 2, norm=norm,
*da0073e9SAndroid Build Coastguard Worker                                          enable_nested_tensor=enable_nested_tensor).to(device)
*da0073e9SAndroid Build Coastguard Worker            if not training:
*da0073e9SAndroid Build Coastguard Worker                model = model.eval()
*da0073e9SAndroid Build Coastguard Worker            result = model(encoder_input, src_key_padding_mask=mask)
*da0073e9SAndroid Build Coastguard Worker            ref_output = perm_fn(torch.tensor([[[1.695949, -0.357635, -0.893077, -0.445238],
*da0073e9SAndroid Build Coastguard Worker                                                [1.695955, -0.357639, -0.893050, -0.445266]],
*da0073e9SAndroid Build Coastguard Worker                                               [[1.695948, -0.357634, -0.893082, -0.445233],
*da0073e9SAndroid Build Coastguard Worker                                                [1.695950, -0.357635, -0.893077, -0.445238]],
*da0073e9SAndroid Build Coastguard Worker                                               [[1.695951, -0.357636, -0.893069, -0.445246],
*da0073e9SAndroid Build Coastguard Worker                                                [1.695955, -0.357639, -0.893052, -0.445264]],
*da0073e9SAndroid Build Coastguard Worker                                               [[1.695952, -0.357636, -0.893066, -0.445249],
*da0073e9SAndroid Build Coastguard Worker                                                [1.695957, -0.357641, -0.893041, -0.445276]],
*da0073e9SAndroid Build Coastguard Worker                                               [[1.695946, -0.357632, -0.893095, -0.445220],
*da0073e9SAndroid Build Coastguard Worker                                                [1.695952, -0.357637, -0.893065, -0.445251]]]
*da0073e9SAndroid Build Coastguard Worker                                              )).to(device)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(tuple(result.shape), tuple(ref_output.shape))
*da0073e9SAndroid Build Coastguard Worker            torch.testing.assert_close(result, ref_output, rtol=1e-7, atol=1e-5)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            model = nn.TransformerEncoder(encoder_layer, 6, norm=norm,
*da0073e9SAndroid Build Coastguard Worker                                          enable_nested_tensor=enable_nested_tensor).to(device)
*da0073e9SAndroid Build Coastguard Worker            if not training:
*da0073e9SAndroid Build Coastguard Worker                model = model.eval()
*da0073e9SAndroid Build Coastguard Worker            result = model(encoder_input, src_key_padding_mask=mask)
*da0073e9SAndroid Build Coastguard Worker            ref_output = perm_fn(torch.tensor([[[1.695955, -0.357639, -0.893051, -0.445265],
*da0073e9SAndroid Build Coastguard Worker                                                [1.695955, -0.357639, -0.893051, -0.445265]],
*da0073e9SAndroid Build Coastguard Worker                                               [[1.695955, -0.357639, -0.893051, -0.445265],
*da0073e9SAndroid Build Coastguard Worker                                                [1.695955, -0.357639, -0.893051, -0.445265]],
*da0073e9SAndroid Build Coastguard Worker                                               [[1.695955, -0.357639, -0.893051, -0.445265],
*da0073e9SAndroid Build Coastguard Worker                                                [1.695955, -0.357639, -0.893051, -0.445265]],
*da0073e9SAndroid Build Coastguard Worker                                               [[1.695955, -0.357639, -0.893051, -0.445265],
*da0073e9SAndroid Build Coastguard Worker                                                [1.695955, -0.357639, -0.893051, -0.445265]],
*da0073e9SAndroid Build Coastguard Worker                                               [[1.695955, -0.357639, -0.893051, -0.445265],
*da0073e9SAndroid Build Coastguard Worker                                                [1.695955, -0.357639, -0.893051, -0.445265]]]
*da0073e9SAndroid Build Coastguard Worker                                              )).to(device)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(tuple(result.shape), tuple(ref_output.shape))
*da0073e9SAndroid Build Coastguard Worker            torch.testing.assert_close(result, ref_output, rtol=1e-7, atol=1e-5)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # TODO: remove set default dtype to double by making ref_output more precise.
*da0073e9SAndroid Build Coastguard Worker        # Added because this test was copied from test_nn.py, which has default
*da0073e9SAndroid Build Coastguard Worker        # dtype double. If default dtype is float, tests will say tensors not close because
*da0073e9SAndroid Build Coastguard Worker        # ref output precision too low
*da0073e9SAndroid Build Coastguard Worker        with set_default_dtype(torch.double):
*da0073e9SAndroid Build Coastguard Worker            if training:
*da0073e9SAndroid Build Coastguard Worker                cm = contextlib.nullcontext()
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                cm = torch.no_grad()  # transformer fast path requires no grad
*da0073e9SAndroid Build Coastguard Worker            with cm:
*da0073e9SAndroid Build Coastguard Worker                _test(batch_first, training, enable_nested_tensor)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(sys.version_info < (3, 11), "not supported on pre-3.11 Python")
*da0073e9SAndroid Build Coastguard Worker    def test_encoder_padding_and_src_mask_bool(self):
*da0073e9SAndroid Build Coastguard Worker        encoder_layer = nn.TransformerEncoderLayer(
*da0073e9SAndroid Build Coastguard Worker            d_model=16,
*da0073e9SAndroid Build Coastguard Worker            nhead=2,
*da0073e9SAndroid Build Coastguard Worker            dim_feedforward=32,
*da0073e9SAndroid Build Coastguard Worker            dropout=0.1,
*da0073e9SAndroid Build Coastguard Worker            activation='relu',
*da0073e9SAndroid Build Coastguard Worker            batch_first=True,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        encoder_norm = nn.LayerNorm(16)
*da0073e9SAndroid Build Coastguard Worker        encoder = nn.TransformerEncoder(
*da0073e9SAndroid Build Coastguard Worker            encoder_layer, 2, encoder_norm
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        inputs = torch.randn(2, 3, 16)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        src_mask = torch.ones(3, 3, dtype=torch.bool).triu_(diagonal=1)
*da0073e9SAndroid Build Coastguard Worker        input_seq_len = torch.tensor([3, 2])
*da0073e9SAndroid Build Coastguard Worker        padding_mask = (
*da0073e9SAndroid Build Coastguard Worker            torch.arange(3)[None, :].cpu() >= input_seq_len[:, None]
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with (self.assertNoLogs(None) if not TEST_WITH_TORCHDYNAMO else contextlib.nullcontext()):
*da0073e9SAndroid Build Coastguard Worker            encoder(
*da0073e9SAndroid Build Coastguard Worker                inputs,
*da0073e9SAndroid Build Coastguard Worker                mask=src_mask,
*da0073e9SAndroid Build Coastguard Worker                src_key_padding_mask=padding_mask,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(sys.version_info < (3, 11), "not supported on pre-3.11 Python")
*da0073e9SAndroid Build Coastguard Worker    def test_decoder_padding_and_src_mask_bool(self):
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def transformer_decoder(inputs, input_seq_len, memory):
*da0073e9SAndroid Build Coastguard Worker            decoder_layer = nn.TransformerDecoderLayer(
*da0073e9SAndroid Build Coastguard Worker                d_model=16,
*da0073e9SAndroid Build Coastguard Worker                nhead=2,
*da0073e9SAndroid Build Coastguard Worker                dim_feedforward=32,
*da0073e9SAndroid Build Coastguard Worker                dropout=0.1,
*da0073e9SAndroid Build Coastguard Worker                activation='relu',
*da0073e9SAndroid Build Coastguard Worker                batch_first=True,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            decoder_norm = nn.LayerNorm(16)
*da0073e9SAndroid Build Coastguard Worker            decoder = nn.TransformerDecoder(
*da0073e9SAndroid Build Coastguard Worker                decoder_layer, 2, decoder_norm
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            src_mask = torch.ones(
*da0073e9SAndroid Build Coastguard Worker                inputs.shape[1], inputs.shape[1], dtype=torch.bool
*da0073e9SAndroid Build Coastguard Worker            ).triu_(diagonal=1)
*da0073e9SAndroid Build Coastguard Worker            padding_mask = (
*da0073e9SAndroid Build Coastguard Worker                torch.arange(inputs.shape[1])[None, :].cpu()
*da0073e9SAndroid Build Coastguard Worker                >= input_seq_len[:, None]
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            return decoder(
*da0073e9SAndroid Build Coastguard Worker                inputs,
*da0073e9SAndroid Build Coastguard Worker                memory,
*da0073e9SAndroid Build Coastguard Worker                tgt_mask=src_mask,
*da0073e9SAndroid Build Coastguard Worker                tgt_key_padding_mask=padding_mask,
*da0073e9SAndroid Build Coastguard Worker                memory_key_padding_mask=padding_mask,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        inputs = torch.randn(2, 3, 16)
*da0073e9SAndroid Build Coastguard Worker        memory = torch.randn(2, 3, 16)
*da0073e9SAndroid Build Coastguard Worker        input_seq_len = torch.tensor([3, 2])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.assertNoLogs(None):
*da0073e9SAndroid Build Coastguard Worker            transformer_decoder(inputs, input_seq_len, memory)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_encoder_is_causal(self):
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        d_model = 3
*da0073e9SAndroid Build Coastguard Worker        layer = torch.nn.TransformerEncoderLayer(d_model, 1, 6, batch_first=True)
*da0073e9SAndroid Build Coastguard Worker        layer.eval()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(1, 5, d_model)
*da0073e9SAndroid Build Coastguard Worker        unmasked_output = layer(x)
*da0073e9SAndroid Build Coastguard Worker        mask = torch.nn.Transformer.generate_square_subsequent_mask(x.size(1))
*da0073e9SAndroid Build Coastguard Worker        is_causal_output = layer(x, src_mask=mask, is_causal=True)
*da0073e9SAndroid Build Coastguard Worker        masked_output = layer(x, src_mask=mask)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(masked_output, is_causal_output)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @parametrize("nb_heads", [1, 8])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("bias", [True, False])
*da0073e9SAndroid Build Coastguard Worker    def test_mha_native_args(self, nb_heads, bias):
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        B, L, F = 8, 100, 128
*da0073e9SAndroid Build Coastguard Worker        batch_first = True
*da0073e9SAndroid Build Coastguard Worker        fast_path = True
*da0073e9SAndroid Build Coastguard Worker        use_pad_mask = (bias % 2) == 1
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        mha = nn.MultiheadAttention(
*da0073e9SAndroid Build Coastguard Worker            embed_dim=F,
*da0073e9SAndroid Build Coastguard Worker            num_heads=nb_heads,
*da0073e9SAndroid Build Coastguard Worker            batch_first=batch_first,
*da0073e9SAndroid Build Coastguard Worker            bias=bias
*da0073e9SAndroid Build Coastguard Worker        ).cuda()
*da0073e9SAndroid Build Coastguard Worker        mha.eval()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        ctx = torch.no_grad if fast_path else contextlib.nullcontext
*da0073e9SAndroid Build Coastguard Worker        with ctx():
*da0073e9SAndroid Build Coastguard Worker            x = torch.randn(B, L, F).cuda()
*da0073e9SAndroid Build Coastguard Worker            if not batch_first:
*da0073e9SAndroid Build Coastguard Worker                x = x.transpose(0, 1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            pad_mask = None
*da0073e9SAndroid Build Coastguard Worker            if use_pad_mask:
*da0073e9SAndroid Build Coastguard Worker                pad_mask = torch.zeros((B, L), dtype=torch.bool).cuda()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            mha(query=x, key=x, value=x, key_padding_mask=pad_mask)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_kpm_mask_trailing_column_with_nested_tensor(self, device):
*da0073e9SAndroid Build Coastguard Worker        encoder_layer = nn.TransformerEncoderLayer(
*da0073e9SAndroid Build Coastguard Worker            d_model=256,
*da0073e9SAndroid Build Coastguard Worker            nhead=4,
*da0073e9SAndroid Build Coastguard Worker            dim_feedforward=512,
*da0073e9SAndroid Build Coastguard Worker            activation='gelu',
*da0073e9SAndroid Build Coastguard Worker            norm_first=False,
*da0073e9SAndroid Build Coastguard Worker            batch_first=False,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=3, enable_nested_tensor=True).to(device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(10, 6, 256).to(device)
*da0073e9SAndroid Build Coastguard Worker        mask = torch.ones(6, 10)
*da0073e9SAndroid Build Coastguard Worker        mask[0, :] = 0  # here I masked 5 columns instead of just one
*da0073e9SAndroid Build Coastguard Worker        mask = mask.bool().to(device)
*da0073e9SAndroid Build Coastguard Worker        out = transformer_encoder(src=x, src_key_padding_mask=mask)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(out.shape[1], 6)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # CPU unit test has_torch_functions in test environment,
*da0073e9SAndroid Build Coastguard Worker    #   preventing successful completion
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    def test_with_nested_tensor_input(self, device):
*da0073e9SAndroid Build Coastguard Worker        encoder_layer = nn.TransformerEncoderLayer(
*da0073e9SAndroid Build Coastguard Worker            d_model=256,
*da0073e9SAndroid Build Coastguard Worker            nhead=4,
*da0073e9SAndroid Build Coastguard Worker            dim_feedforward=512,
*da0073e9SAndroid Build Coastguard Worker            activation='gelu',
*da0073e9SAndroid Build Coastguard Worker            norm_first=False,
*da0073e9SAndroid Build Coastguard Worker            batch_first=True,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=3, enable_nested_tensor=True).to(device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        transformer_encoder.eval()
*da0073e9SAndroid Build Coastguard Worker        with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker            x = torch.randn(6, 10, 256).to(device)
*da0073e9SAndroid Build Coastguard Worker            mask = torch.ones(6, 10)
*da0073e9SAndroid Build Coastguard Worker            mask[0, 0:] = 0  # here I masked 5 columns instead of just one
*da0073e9SAndroid Build Coastguard Worker            mask[2, 2:] = 0  # here I masked 5 columns instead of just one
*da0073e9SAndroid Build Coastguard Worker            mask[4, 4:] = 0  # here I masked 5 columns instead of just one
*da0073e9SAndroid Build Coastguard Worker            mask[5, 8:] = 0  # here I masked 5 columns instead of just one
*da0073e9SAndroid Build Coastguard Worker            mask = mask.bool().to(device)
*da0073e9SAndroid Build Coastguard Worker            x = torch._nested_tensor_from_mask(x, mask.logical_not(), mask_check=False)
*da0073e9SAndroid Build Coastguard Worker            out = transformer_encoder(src=x, src_key_padding_mask=None)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(out.is_nested, True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_script_encoder_subclass(self, device):
*da0073e9SAndroid Build Coastguard Worker        class MyCustomLayer(nn.TransformerEncoderLayer):
*da0073e9SAndroid Build Coastguard Worker            pass
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        encoder = nn.TransformerEncoder(
*da0073e9SAndroid Build Coastguard Worker            MyCustomLayer(d_model=256, nhead=8), num_layers=6
*da0073e9SAndroid Build Coastguard Worker        ).to(device=device)
*da0073e9SAndroid Build Coastguard Worker        torch.jit.script(encoder)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # brazenly adapted from test_transformerencoderlayer_src_mask to test execution of
*da0073e9SAndroid Build Coastguard Worker    # torchscripted transformerencoderlayer subclass
*da0073e9SAndroid Build Coastguard Worker    def test_transformerencoderlayer_subclass(self, device):
*da0073e9SAndroid Build Coastguard Worker        class MyCustomLayer(nn.TransformerEncoderLayer):
*da0073e9SAndroid Build Coastguard Worker            pass
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        nhead = 4
*da0073e9SAndroid Build Coastguard Worker        batch_size = 2
*da0073e9SAndroid Build Coastguard Worker        seqlen = 4
*da0073e9SAndroid Build Coastguard Worker        d_model = 8
*da0073e9SAndroid Build Coastguard Worker        dim_feedforward = 32
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        model = MyCustomLayer(
*da0073e9SAndroid Build Coastguard Worker            d_model=d_model,
*da0073e9SAndroid Build Coastguard Worker            nhead=nhead,
*da0073e9SAndroid Build Coastguard Worker            dim_feedforward=dim_feedforward,
*da0073e9SAndroid Build Coastguard Worker            batch_first=True).to(device)
*da0073e9SAndroid Build Coastguard Worker        script_model = torch.jit.script(model)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        src = torch.rand(batch_size, seqlen, d_model).to(device)  # bs, seqlen, d_model
*da0073e9SAndroid Build Coastguard Worker        src_mask = torch.zeros(seqlen, seqlen).to(torch.bool).to(device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch.manual_seed(42)
*da0073e9SAndroid Build Coastguard Worker        result = model(src, src_mask=src_mask)
*da0073e9SAndroid Build Coastguard Worker        torch.manual_seed(42)
*da0073e9SAndroid Build Coastguard Worker        scripted_result = script_model(src, src_mask=src_mask)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(result, scripted_result)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        model.eval()
*da0073e9SAndroid Build Coastguard Worker        script_model = torch.jit.script(model)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker            result = model(src, src_mask=src_mask)
*da0073e9SAndroid Build Coastguard Worker            scripted_result = script_model(src, src_mask=src_mask)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(result, scripted_result)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_transformerencoderlayer_subclass_model(self, device):
*da0073e9SAndroid Build Coastguard Worker        class MyCustomLayer(nn.TransformerEncoderLayer):
*da0073e9SAndroid Build Coastguard Worker            pass
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        nhead = 4
*da0073e9SAndroid Build Coastguard Worker        batch_size = 2
*da0073e9SAndroid Build Coastguard Worker        seqlen = 4
*da0073e9SAndroid Build Coastguard Worker        d_model = 8
*da0073e9SAndroid Build Coastguard Worker        dim_feedforward = 32
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        layer = MyCustomLayer(
*da0073e9SAndroid Build Coastguard Worker            d_model=d_model,
*da0073e9SAndroid Build Coastguard Worker            nhead=nhead,
*da0073e9SAndroid Build Coastguard Worker            dim_feedforward=dim_feedforward,
*da0073e9SAndroid Build Coastguard Worker            batch_first=True)
*da0073e9SAndroid Build Coastguard Worker        model = nn.TransformerEncoder(
*da0073e9SAndroid Build Coastguard Worker            layer, num_layers=6
*da0073e9SAndroid Build Coastguard Worker        ).to(device=device)
*da0073e9SAndroid Build Coastguard Worker        script_model = torch.jit.script(model)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        src = torch.rand(batch_size, seqlen, d_model).to(device)  # bs, seqlen, d_model
*da0073e9SAndroid Build Coastguard Worker        src_mask = torch.zeros(seqlen, seqlen).to(torch.bool).to(device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch.manual_seed(42)
*da0073e9SAndroid Build Coastguard Worker        result = model(src, mask=src_mask)
*da0073e9SAndroid Build Coastguard Worker        torch.manual_seed(42)
*da0073e9SAndroid Build Coastguard Worker        scripted_result = script_model(src, mask=src_mask)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(result, scripted_result)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        model.eval()
*da0073e9SAndroid Build Coastguard Worker        script_model = torch.jit.script(model)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker            result = model(src, mask=src_mask)
*da0073e9SAndroid Build Coastguard Worker            scripted_result = script_model(src, mask=src_mask)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(result, scripted_result)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not TEST_FAIRSEQ, "Fairseq not found")
*da0073e9SAndroid Build Coastguard Worker    def test_decoder_only_layer(self):
*da0073e9SAndroid Build Coastguard Worker        DEFAULT_PADDING_IDX = 0
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        class FairseqDecoder(torch.nn.Module):
*da0073e9SAndroid Build Coastguard Worker            def __init__(
*da0073e9SAndroid Build Coastguard Worker                self,
*da0073e9SAndroid Build Coastguard Worker                embed_dim,
*da0073e9SAndroid Build Coastguard Worker                attention_heads,
*da0073e9SAndroid Build Coastguard Worker                ffn_embed_dim,
*da0073e9SAndroid Build Coastguard Worker                num_layers,
*da0073e9SAndroid Build Coastguard Worker                embedding_layer,  # torch.nn.Embedding. Must have a padding_idx field
*da0073e9SAndroid Build Coastguard Worker                dropout=0,
*da0073e9SAndroid Build Coastguard Worker                normalize_before=False,
*da0073e9SAndroid Build Coastguard Worker                torch_encoder=None,  # torch encoder that you can map weights from
*da0073e9SAndroid Build Coastguard Worker                activation="relu",
*da0073e9SAndroid Build Coastguard Worker            ):
*da0073e9SAndroid Build Coastguard Worker                super().__init__()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                cfg = fairseq_transformer.TransformerConfig()
*da0073e9SAndroid Build Coastguard Worker                cfg.decoder.embed_dim = embed_dim
*da0073e9SAndroid Build Coastguard Worker                cfg.decoder.output_dim = embed_dim
*da0073e9SAndroid Build Coastguard Worker                cfg.decoder.attention_heads = attention_heads
*da0073e9SAndroid Build Coastguard Worker                cfg.decoder.ffn_embed_dim = ffn_embed_dim
*da0073e9SAndroid Build Coastguard Worker                cfg.dropout = dropout
*da0073e9SAndroid Build Coastguard Worker                cfg.decoder.normalize_before = normalize_before
*da0073e9SAndroid Build Coastguard Worker                cfg.decoder.layers = num_layers
*da0073e9SAndroid Build Coastguard Worker                # make embedding behavior same as other encoders
*da0073e9SAndroid Build Coastguard Worker                cfg.no_token_positional_embeddings = True
*da0073e9SAndroid Build Coastguard Worker                cfg.no_scale_embedding = True
*da0073e9SAndroid Build Coastguard Worker                cfg.activation_fn = activation
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                dictionary = {}  # TODO: verify what this is
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                self.decoder = fairseq_transformer.TransformerDecoder(
*da0073e9SAndroid Build Coastguard Worker                    cfg,
*da0073e9SAndroid Build Coastguard Worker                    dictionary,
*da0073e9SAndroid Build Coastguard Worker                    embedding_layer,
*da0073e9SAndroid Build Coastguard Worker                    no_encoder_attn=True,
*da0073e9SAndroid Build Coastguard Worker                    output_projection=None,
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                if torch_encoder is not None:
*da0073e9SAndroid Build Coastguard Worker                    self.decoder = torch_to_fairseq(torch_encoder, self.decoder)  # noqa: F821
*da0073e9SAndroid Build Coastguard Worker                self.decoder = self.decoder.eval().cuda().half()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def forward(
*da0073e9SAndroid Build Coastguard Worker                self,
*da0073e9SAndroid Build Coastguard Worker                tokens,
*da0073e9SAndroid Build Coastguard Worker                src_lengths=None,
*da0073e9SAndroid Build Coastguard Worker                with_triangle_mask=False,
*da0073e9SAndroid Build Coastguard Worker                incremental_state=None,
*da0073e9SAndroid Build Coastguard Worker            ):
*da0073e9SAndroid Build Coastguard Worker                return self.decoder(
*da0073e9SAndroid Build Coastguard Worker                    prev_output_tokens=tokens,
*da0073e9SAndroid Build Coastguard Worker                    encoder_out=None,
*da0073e9SAndroid Build Coastguard Worker                    incremental_state=incremental_state,
*da0073e9SAndroid Build Coastguard Worker                    features_only=True,
*da0073e9SAndroid Build Coastguard Worker                    full_context_alignment=not with_triangle_mask,
*da0073e9SAndroid Build Coastguard Worker                    alignment_layer=None,
*da0073e9SAndroid Build Coastguard Worker                    alignment_heads=None,
*da0073e9SAndroid Build Coastguard Worker                    src_lengths=src_lengths,
*da0073e9SAndroid Build Coastguard Worker                    return_all_hiddens=False,
*da0073e9SAndroid Build Coastguard Worker                )[0]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @parametrize("input_dim,attn_mask_dim,is_causal",
*da0073e9SAndroid Build Coastguard Worker                 [(3, None, False), (3, 2, False), (3, 2, True), (3, 3, False), (3, 3, True),
*da0073e9SAndroid Build Coastguard Worker                  (4, None, False), (4, 2, False), (4, 2, True), (4, 4, False), (4, 4, True)],
*da0073e9SAndroid Build Coastguard Worker                 name_fn=lambda input_dim, attn_dim, is_causal: (
*da0073e9SAndroid Build Coastguard Worker                     f"{input_dim}D_input_dim_" + (
*da0073e9SAndroid Build Coastguard Worker                         f"{attn_dim}D_{'causal_' if is_causal else ''}attn_mask"
*da0073e9SAndroid Build Coastguard Worker                         if attn_dim is not None else "no_attn_mask")))
*da0073e9SAndroid Build Coastguard Worker    @parametrize("dropout_p", [0.0, 0.2, 0.5])
*da0073e9SAndroid Build Coastguard Worker    @sdpa_kernel(backends=[SDPBackend.MATH])
*da0073e9SAndroid Build Coastguard Worker    def test_scaled_dot_product_attention(self, device, input_dim, attn_mask_dim, is_causal, dropout_p):
*da0073e9SAndroid Build Coastguard Worker        def sdp_ref(
*da0073e9SAndroid Build Coastguard Worker                q,
*da0073e9SAndroid Build Coastguard Worker                k,
*da0073e9SAndroid Build Coastguard Worker                v,
*da0073e9SAndroid Build Coastguard Worker                attn_mask=None,
*da0073e9SAndroid Build Coastguard Worker                dropout_p=0.0):
*da0073e9SAndroid Build Coastguard Worker            E = q.size(-1)
*da0073e9SAndroid Build Coastguard Worker            q = q / math.sqrt(E)
*da0073e9SAndroid Build Coastguard Worker            # (B, Nt, E) x (B, E, Ns) -> (B, Nt, Ns)
*da0073e9SAndroid Build Coastguard Worker            if attn_mask is not None:
*da0073e9SAndroid Build Coastguard Worker                attn = torch.baddbmm(attn_mask, q, k.transpose(-2, -1))
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                attn = torch.bmm(q, k.transpose(-2, -1))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            attn = torch.nn.functional.softmax(attn, dim=-1)
*da0073e9SAndroid Build Coastguard Worker            if dropout_p > 0.0:
*da0073e9SAndroid Build Coastguard Worker                attn = torch.nn.functional.dropout(attn, p=dropout_p)
*da0073e9SAndroid Build Coastguard Worker            # (B, Nt, Ns) x (B, Ns, E) -> (B, Nt, E)
*da0073e9SAndroid Build Coastguard Worker            output = torch.bmm(attn, v)
*da0073e9SAndroid Build Coastguard Worker            return output
*da0073e9SAndroid Build Coastguard Worker        # TODO: Support cross-device / dtype testing properly when instantiate_device_type_tests() is used.
*da0073e9SAndroid Build Coastguard Worker        dtypes = [torch.double, torch.float]
*da0073e9SAndroid Build Coastguard Worker        for dtype in dtypes:
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def rand_tensor(*shape):
*da0073e9SAndroid Build Coastguard Worker                return torch.randn(shape, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # This test compares python and C++ implementations of SDP.
*da0073e9SAndroid Build Coastguard Worker            N, N_prime, L, S, E = 5, 2, 4, 3, 6
*da0073e9SAndroid Build Coastguard Worker            if input_dim == 3:
*da0073e9SAndroid Build Coastguard Worker                query = rand_tensor(N, L, E)
*da0073e9SAndroid Build Coastguard Worker                key = rand_tensor(N, S, E)
*da0073e9SAndroid Build Coastguard Worker                value = rand_tensor(N, S, E)
*da0073e9SAndroid Build Coastguard Worker            elif input_dim == 4:
*da0073e9SAndroid Build Coastguard Worker                query = rand_tensor(N, N_prime, L, E)
*da0073e9SAndroid Build Coastguard Worker                key = rand_tensor(N, N_prime, S, E)
*da0073e9SAndroid Build Coastguard Worker                value = rand_tensor(N, N_prime, S, E)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                self.fail(f'Invalid input_dim {input_dim} encountered in SDP test')
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            attn_mask = None
*da0073e9SAndroid Build Coastguard Worker            if attn_mask_dim is not None:
*da0073e9SAndroid Build Coastguard Worker                assert attn_mask_dim in [2, input_dim]
*da0073e9SAndroid Build Coastguard Worker                mask_size = (L, S) if attn_mask_dim == 2 else ((N, L, S) if input_dim == 3 else (N, N_prime, L, S))
*da0073e9SAndroid Build Coastguard Worker                attn_mask = (torch.ones(mask_size, device=device, dtype=torch.bool).tril() if is_causal
*da0073e9SAndroid Build Coastguard Worker                             else torch.randint(0, 2, size=mask_size, device=device, dtype=torch.bool))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            with freeze_rng_state():
*da0073e9SAndroid Build Coastguard Worker                # Python impl only supports float mask and 3D inputs.
*da0073e9SAndroid Build Coastguard Worker                attn_mask_float = attn_mask
*da0073e9SAndroid Build Coastguard Worker                if attn_mask_float is not None:
*da0073e9SAndroid Build Coastguard Worker                    attn_mask_float = torch.zeros_like(attn_mask, dtype=query.dtype)
*da0073e9SAndroid Build Coastguard Worker                    attn_mask_float.masked_fill_(attn_mask.logical_not(), float("-inf"))
*da0073e9SAndroid Build Coastguard Worker                q, k, v = query.view(-1, L, E), key.view(-1, S, E), value.view(-1, S, E)
*da0073e9SAndroid Build Coastguard Worker                a = attn_mask_float
*da0073e9SAndroid Build Coastguard Worker                if a is not None and attn_mask_dim > 3:
*da0073e9SAndroid Build Coastguard Worker                    a = a.view(-1, L, S)
*da0073e9SAndroid Build Coastguard Worker                expected = sdp_ref(q, k, v, attn_mask=a, dropout_p=dropout_p)
*da0073e9SAndroid Build Coastguard Worker                if input_dim > 3:
*da0073e9SAndroid Build Coastguard Worker                    expected = expected.view(-1, N_prime, L, E)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            with freeze_rng_state():
*da0073e9SAndroid Build Coastguard Worker                if is_causal:
*da0073e9SAndroid Build Coastguard Worker                    # NB: Don't pass attn_mask here
*da0073e9SAndroid Build Coastguard Worker                    actual = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                        query, key, value, None, dropout_p, is_causal)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                    # Error case: both explicit attn_mask and is_causal are set
*da0073e9SAndroid Build Coastguard Worker                    with self.assertRaisesRegex(RuntimeError,
*da0073e9SAndroid Build Coastguard Worker                                                "Explicit attn_mask should not be set when is_causal=True"):
*da0073e9SAndroid Build Coastguard Worker                        torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                            query, key, value, attn_mask, dropout_p, is_causal)
*da0073e9SAndroid Build Coastguard Worker                else:
*da0073e9SAndroid Build Coastguard Worker                    actual = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                        query, key, value, attn_mask, dropout_p, is_causal)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(actual, expected)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if attn_mask_dim is None:
*da0073e9SAndroid Build Coastguard Worker            q = q.double().clone()
*da0073e9SAndroid Build Coastguard Worker            k = k.double().clone()
*da0073e9SAndroid Build Coastguard Worker            v = v.double().clone()
*da0073e9SAndroid Build Coastguard Worker            q.requires_grad_()
*da0073e9SAndroid Build Coastguard Worker            k.requires_grad_()
*da0073e9SAndroid Build Coastguard Worker            v.requires_grad_()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            assert gradcheck(lambda *args, **kwargs: wrapper_set_seed(sdp_ref, *args, **kwargs),
*da0073e9SAndroid Build Coastguard Worker                             (q, k, v, attn_mask, dropout_p))
*da0073e9SAndroid Build Coastguard Worker            assert gradcheck(lambda *args, **kwargs:
*da0073e9SAndroid Build Coastguard Worker                             wrapper_set_seed(torch.nn.functional.scaled_dot_product_attention, *args, **kwargs),
*da0073e9SAndroid Build Coastguard Worker                             (q, k, v, attn_mask, dropout_p))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def test_incompatible_mask(self, device):
*da0073e9SAndroid Build Coastguard Worker            def ones_tensor(*shape):
*da0073e9SAndroid Build Coastguard Worker                return torch.ones(shape, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker            S, L, E, H = 1, 2, 4, 1
*da0073e9SAndroid Build Coastguard Worker            qkv = ones_tensor(S, L, E)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            mha = nn.MultiheadAttention(E, H)
*da0073e9SAndroid Build Coastguard Worker            mha.in_proj_weight = Parameter(torch.ones((E * 3, E)))
*da0073e9SAndroid Build Coastguard Worker            mha.out_proj.weight = Parameter(torch.ones((E, E)))
*da0073e9SAndroid Build Coastguard Worker            qkv = qkv.to(float)
*da0073e9SAndroid Build Coastguard Worker            kpm = ones_tensor(S, L) * float("-inf")
*da0073e9SAndroid Build Coastguard Worker            am = ones_tensor(L, L).to(bool)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def func():
*da0073e9SAndroid Build Coastguard Worker                return mha(qkv, qkv, qkv, need_weights=False, key_padding_mask=kpm, attn_mask=am)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            self.assertRaises(RuntimeError, func)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(TEST_WITH_CROSSREF, 'Fastpath not available with crossref')
*da0073e9SAndroid Build Coastguard Worker    @torch.no_grad()
*da0073e9SAndroid Build Coastguard Worker    def test_mask_check_fastpath(self):
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        Test that fastpath is executed independently of the masks that are passed.
*da0073e9SAndroid Build Coastguard Worker        If the passed key padding mask is left aligned or mask_check=False, test that nested tensors are used
*da0073e9SAndroid Build Coastguard Worker        (sparsity fastpath), otherwise use fastpath with traditional tensors.
*da0073e9SAndroid Build Coastguard Worker        Also test that fast path is executed with both key padding mask and attention mask passed at the same time.
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x = torch.Tensor([[[1, 2], [3, 4], [5, 6]]]).to(torch.float)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def _test_fastpath(model, key_padding_mask, mock_return_value, attn_mask=None, nested_tensors=True):
*da0073e9SAndroid Build Coastguard Worker            with patch('torch._transformer_encoder_layer_fwd') as fastpath_mock:
*da0073e9SAndroid Build Coastguard Worker                fastpath_mock.return_value = mock_return_value
*da0073e9SAndroid Build Coastguard Worker                model(x, src_key_padding_mask=key_padding_mask, mask=attn_mask)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # If mock was called, fastpath was taken
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(fastpath_mock.called)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # If mock was called with nested tensors, sparsity fastpath was taken
*da0073e9SAndroid Build Coastguard Worker                for call_args, _ in fastpath_mock.call_args_list:
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(call_args[0].is_nested, nested_tensors)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        encoder_layer = torch.nn.TransformerEncoderLayer(d_model=2, nhead=2, dim_feedforward=8, batch_first=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        model = torch.nn.TransformerEncoder(encoder_layer, num_layers=2, enable_nested_tensor=True, mask_check=True)
*da0073e9SAndroid Build Coastguard Worker        model.eval()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        aligned_key_padding_mask = torch.Tensor([[0, 0, 1]]).to(torch.bool)
*da0073e9SAndroid Build Coastguard Worker        not_aligned_key_padding_mask = torch.Tensor([[1, 0, 1]]).to(torch.bool)
*da0073e9SAndroid Build Coastguard Worker        attn_mask = torch.Tensor([[1, 0, 1], [0, 1, 0], [1, 0, 1]]).to(torch.bool)
*da0073e9SAndroid Build Coastguard Worker        nested_tensor_return_value = torch.nested.nested_tensor([torch.ones((2, 2), dtype=torch.float)])
*da0073e9SAndroid Build Coastguard Worker        tensor_return_value = torch.ones((1, 3, 2), dtype=torch.float)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Left aligned mask results in sparsity fastpath
*da0073e9SAndroid Build Coastguard Worker        _test_fastpath(model, aligned_key_padding_mask, nested_tensor_return_value, nested_tensors=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Not aligned mask results in fastpath
*da0073e9SAndroid Build Coastguard Worker        _test_fastpath(model, not_aligned_key_padding_mask, tensor_return_value, nested_tensors=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        model = torch.nn.TransformerEncoder(encoder_layer, num_layers=2, enable_nested_tensor=False, mask_check=True)
*da0073e9SAndroid Build Coastguard Worker        model.eval()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # If nested tensor disabled, fastpath is always taken
*da0073e9SAndroid Build Coastguard Worker        _test_fastpath(model, aligned_key_padding_mask, tensor_return_value, nested_tensors=False)
*da0073e9SAndroid Build Coastguard Worker        _test_fastpath(model, not_aligned_key_padding_mask, tensor_return_value, nested_tensors=False)
*da0073e9SAndroid Build Coastguard Worker        # Fast path is taken if both attention mask and key padding mask are present
*da0073e9SAndroid Build Coastguard Worker        _test_fastpath(model, aligned_key_padding_mask, tensor_return_value, attn_mask=attn_mask, nested_tensors=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        model = torch.nn.TransformerEncoder(encoder_layer, num_layers=2, enable_nested_tensor=True, mask_check=False)
*da0073e9SAndroid Build Coastguard Worker        model.eval()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Mask check disabled results in sparisty fastpath, independently of the mask
*da0073e9SAndroid Build Coastguard Worker        _test_fastpath(model, aligned_key_padding_mask, nested_tensor_return_value, nested_tensors=True)
*da0073e9SAndroid Build Coastguard Worker        _test_fastpath(model, not_aligned_key_padding_mask, nested_tensor_return_value, nested_tensors=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # Test failing MHA when bias was NoneType
*da0073e9SAndroid Build Coastguard Worker    def test_bias_is_none(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.rand((1, 5, 10))
*da0073e9SAndroid Build Coastguard Worker        model = torch.nn.modules.activation.MultiheadAttention(10, 1, bias=False, batch_first=True)
*da0073e9SAndroid Build Coastguard Worker        model.eval()
*da0073e9SAndroid Build Coastguard Worker        model(x, x, x)
*da0073e9SAndroid Build Coastguard Worker        # completes without error
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_transformer_bias_is_none(self, device):
*da0073e9SAndroid Build Coastguard Worker        batch_size = 2
*da0073e9SAndroid Build Coastguard Worker        seqlen = 3
*da0073e9SAndroid Build Coastguard Worker        d_model = 8
*da0073e9SAndroid Build Coastguard Worker        nhead = 4
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        encoder_layer = torch.nn.TransformerEncoderLayer(d_model, nhead, bias=False, batch_first=True, device=device)
*da0073e9SAndroid Build Coastguard Worker        encoder_layer.eval()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(batch_size, seqlen, d_model, device=device)
*da0073e9SAndroid Build Coastguard Worker        # runs without error
*da0073e9SAndroid Build Coastguard Worker        encoder_layer(x)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.assertWarnsRegex(UserWarning, "encoder_layer.self_attn was passed bias=False"):
*da0073e9SAndroid Build Coastguard Worker            encoder = torch.nn.TransformerEncoder(encoder_layer, num_layers=1).eval()
*da0073e9SAndroid Build Coastguard Worker            encoder(x)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.assertWarnsRegex(UserWarning, "self_attn was passed bias=False"):
*da0073e9SAndroid Build Coastguard Worker            transformer = torch.nn.Transformer(
*da0073e9SAndroid Build Coastguard Worker                d_model=d_model, nhead=nhead, bias=False, batch_first=True, device=device
*da0073e9SAndroid Build Coastguard Worker            ).eval()
*da0073e9SAndroid Build Coastguard Worker            transformer(x, x)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_train_with_is_causal(self, device):
*da0073e9SAndroid Build Coastguard Worker        # training with is_causal
*da0073e9SAndroid Build Coastguard Worker        S, L, E, H = 1, 2, 2, 1
*da0073e9SAndroid Build Coastguard Worker        layer = nn.TransformerEncoderLayer(
*da0073e9SAndroid Build Coastguard Worker            d_model=2,
*da0073e9SAndroid Build Coastguard Worker            dim_feedforward=4,
*da0073e9SAndroid Build Coastguard Worker            nhead=H,
*da0073e9SAndroid Build Coastguard Worker            batch_first=True,
*da0073e9SAndroid Build Coastguard Worker            activation="gelu",
*da0073e9SAndroid Build Coastguard Worker            dropout=0,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        criterion = nn.MSELoss()
*da0073e9SAndroid Build Coastguard Worker        encoder = nn.TransformerEncoder(layer, 2).to(device)
*da0073e9SAndroid Build Coastguard Worker        optimizer = optim.SGD(encoder.parameters(), lr=0.1, momentum=0.9)
*da0073e9SAndroid Build Coastguard Worker        encoder.train()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        encoder.train()
*da0073e9SAndroid Build Coastguard Worker        optimizer.zero_grad()
*da0073e9SAndroid Build Coastguard Worker        inputs = torch.randn(S, L, E).to(device)
*da0073e9SAndroid Build Coastguard Worker        mask = torch.nn.Transformer.generate_square_subsequent_mask(
*da0073e9SAndroid Build Coastguard Worker            inputs.size(1), device=device
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        outputs = encoder(inputs, mask=mask, is_causal=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        loss = criterion(outputs[:, 0:2, :], inputs[:, 0:2, :])
*da0073e9SAndroid Build Coastguard Worker        loss.backward()
*da0073e9SAndroid Build Coastguard Worker        optimizer.step()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # inference with is_causal
*da0073e9SAndroid Build Coastguard Worker        t_qvk = torch.randn((S, L, E), device=device, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        mha = nn.MultiheadAttention(E, H).to(device)
*da0073e9SAndroid Build Coastguard Worker        mask = torch.nn.Transformer.generate_square_subsequent_mask(
*da0073e9SAndroid Build Coastguard Worker            S, device=device
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        attn_out, _ = mha(t_qvk, t_qvk, t_qvk, attn_mask=mask, is_causal=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Can't give only is_causal
*da0073e9SAndroid Build Coastguard Worker        attn_mask = torch.randint(0, 2, size=(L, L), device=device, dtype=torch.bool)
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaises(RuntimeError):
*da0073e9SAndroid Build Coastguard Worker            _ = mha(t_qvk, t_qvk, t_qvk, is_causal=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # # Passing a causal mask sets is_causal to 1
*da0073e9SAndroid Build Coastguard Worker        causal_mask = torch.triu(
*da0073e9SAndroid Build Coastguard Worker            torch.ones(L, L, device=inputs.device) * float('-inf'), diagonal=1
*da0073e9SAndroid Build Coastguard Worker        ).to(torch.bool)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        mock_layer = MagicMock(torch.nn.MultiheadAttention(E, H), return_value=inputs)
*da0073e9SAndroid Build Coastguard Worker        encoder.layers[1] = mock_layer
*da0073e9SAndroid Build Coastguard Worker        outputs = encoder(inputs, mask=causal_mask)
*da0073e9SAndroid Build Coastguard Worker        mock_layer.assert_called_with(ANY, src_mask=ANY, is_causal=True, src_key_padding_mask=ANY)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # check expected numerical values with all kernels
*da0073e9SAndroid Build Coastguard Worker        self.is_causal_kernels([SDPBackend.MATH], device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def is_causal_kernels(self, kernels, device):
*da0073e9SAndroid Build Coastguard Worker        def ones_tensor(*shape):
*da0073e9SAndroid Build Coastguard Worker            return torch.ones(shape, device=device, dtype=torch.float32).to(device)
*da0073e9SAndroid Build Coastguard Worker        S, L, E, H = 1, 2, 4, 1
*da0073e9SAndroid Build Coastguard Worker        qkv = ones_tensor(S, L, E)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        mha = nn.MultiheadAttention(E, H).to(device)
*da0073e9SAndroid Build Coastguard Worker        mha.in_proj_weight = Parameter(torch.ones((E * 3, E), device=device))
*da0073e9SAndroid Build Coastguard Worker        mha.out_proj.weight = Parameter(torch.ones((E, E), device=device))
*da0073e9SAndroid Build Coastguard Worker        expected = torch.ones(size=(S, L, E)).to(device) * 16
*da0073e9SAndroid Build Coastguard Worker        mask = torch.nn.Transformer.generate_square_subsequent_mask(
*da0073e9SAndroid Build Coastguard Worker            qkv.size(1), device=device
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for kernel in kernels:
*da0073e9SAndroid Build Coastguard Worker            with sdpa_kernel(backends=[kernel]):
*da0073e9SAndroid Build Coastguard Worker                actual, _ = mha(qkv, qkv, qkv, attn_mask=mask, need_weights=False, is_causal=True)
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(torch.equal(actual, expected))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                if kernel != SDPBackend.MATH:
*da0073e9SAndroid Build Coastguard Worker                    # fails with embedding size not multiple of 4
*da0073e9SAndroid Build Coastguard Worker                    with self.assertRaisesRegex(RuntimeError, "No available kernel"):
*da0073e9SAndroid Build Coastguard Worker                        qkv_f, mha_f = ones_tensor(S, L, 2), nn.MultiheadAttention(2, H).to(device)
*da0073e9SAndroid Build Coastguard Worker                        mask = torch.nn.Transformer.generate_square_subsequent_mask(
*da0073e9SAndroid Build Coastguard Worker                            qkv_f.size(1), device=device
*da0073e9SAndroid Build Coastguard Worker                        )
*da0073e9SAndroid Build Coastguard Worker                        _ = mha_f(qkv_f, qkv_f, qkv_f, attn_mask=mask, need_weights=False, is_causal=True)
*da0073e9SAndroid Build Coastguard Worker                        torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skipIfRocm  # Missing EFFICIENT_ATTENTION
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not PLATFORM_SUPPORTS_FLASH_ATTENTION, "Platform does not supposrt fused SDPA or pre-SM80 hardware"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_is_causal_gpu(self):
*da0073e9SAndroid Build Coastguard Worker        device = 'cuda'
*da0073e9SAndroid Build Coastguard Worker        self.is_causal_kernels([SDPBackend.MATH, SDPBackend.EFFICIENT_ATTENTION], device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_script_mha_in_proj_weight_none(self):
*da0073e9SAndroid Build Coastguard Worker        mha = torch.nn.MultiheadAttention(
*da0073e9SAndroid Build Coastguard Worker            embed_dim=128, num_heads=8, kdim=256, vdim=256
*da0073e9SAndroid Build Coastguard Worker        ).eval()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch.jit.script(mha)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(TEST_WITH_CROSSREF, 'Fastpath not available with crossref')
*da0073e9SAndroid Build Coastguard Worker    @torch.no_grad()
*da0073e9SAndroid Build Coastguard Worker    def test_disable_fastpath(self, device):
*da0073e9SAndroid Build Coastguard Worker        def _test_te_fastpath_called(model, args, kwargs=None, return_value=None, is_called=True):
*da0073e9SAndroid Build Coastguard Worker            if kwargs is None:
*da0073e9SAndroid Build Coastguard Worker                kwargs = {}
*da0073e9SAndroid Build Coastguard Worker            with patch('torch._transformer_encoder_layer_fwd') as fastpath_mock:
*da0073e9SAndroid Build Coastguard Worker                fastpath_mock.return_value = return_value
*da0073e9SAndroid Build Coastguard Worker                output = model(*args, **kwargs)
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(fastpath_mock.called == is_called)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def _test_mha_fastpath_called(model, args, kwargs=None, return_value=None, is_called=True):
*da0073e9SAndroid Build Coastguard Worker            if kwargs is None:
*da0073e9SAndroid Build Coastguard Worker                kwargs = {}
*da0073e9SAndroid Build Coastguard Worker            with patch('torch._native_multi_head_attention') as fastpath_mock:
*da0073e9SAndroid Build Coastguard Worker                fastpath_mock.return_value = return_value
*da0073e9SAndroid Build Coastguard Worker                output = model(*args, **kwargs)
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(fastpath_mock.called == is_called)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        inp = torch.tensor([[[1, 2], [3, 4], [5, 6]]], dtype=torch.float32, device=device)
*da0073e9SAndroid Build Coastguard Worker        aligned_key_padding_mask = torch.tensor([[0, 0, 1]], dtype=torch.bool, device=device)
*da0073e9SAndroid Build Coastguard Worker        src_key_padding_mask = torch.tensor([[1, 0, 1]], dtype=torch.bool, device=device)
*da0073e9SAndroid Build Coastguard Worker        attn_mask = torch.tensor([[1, 0, 1], [0, 1, 0], [1, 0, 1]], dtype=torch.bool, device=device)
*da0073e9SAndroid Build Coastguard Worker        te_return_value = torch.ones((1, 3, 2), dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        encoder_layer = torch.nn.TransformerEncoderLayer(d_model=2, nhead=2, dim_feedforward=8, batch_first=True)
*da0073e9SAndroid Build Coastguard Worker        te = torch.nn.TransformerEncoder(encoder_layer, num_layers=2, enable_nested_tensor=True, mask_check=True)
*da0073e9SAndroid Build Coastguard Worker        te = te.to(device).eval()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        t = torch.nn.Transformer(d_model=2, nhead=2, batch_first=True, device=device).eval()
*da0073e9SAndroid Build Coastguard Worker        src = torch.tensor([[[0, 1], [2, 3], [4, 5]]], dtype=torch.float32, device=device)
*da0073e9SAndroid Build Coastguard Worker        tgt = torch.tensor([[[0, 1], [2, 3], [4, 5], [6, 7]]], dtype=torch.float32, device=device)
*da0073e9SAndroid Build Coastguard Worker        t_return_value = torch.ones((1, 3, 2), dtype=torch.float32, device=device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        mha = nn.MultiheadAttention(2, 2, batch_first=True, device=device).eval()
*da0073e9SAndroid Build Coastguard Worker        q = torch.tensor([[[0, 1], [2, 3]]], dtype=torch.float32, device=device)
*da0073e9SAndroid Build Coastguard Worker        mha_return_value = torch.ones((1, 3, 2), dtype=torch.float32, device=device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        _test_te_fastpath_called(
*da0073e9SAndroid Build Coastguard Worker            te, (inp,), kwargs={'src_key_padding_mask': src_key_padding_mask},
*da0073e9SAndroid Build Coastguard Worker            return_value=te_return_value, is_called=True
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        _test_te_fastpath_called(t, (src, tgt), return_value=t_return_value, is_called=True)
*da0073e9SAndroid Build Coastguard Worker        _test_mha_fastpath_called(mha, (q, q, q,), return_value=mha_return_value, is_called=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch.backends.mha.set_fastpath_enabled(False)
*da0073e9SAndroid Build Coastguard Worker        _test_te_fastpath_called(
*da0073e9SAndroid Build Coastguard Worker            te, (inp,), kwargs={'src_key_padding_mask': src_key_padding_mask},
*da0073e9SAndroid Build Coastguard Worker            return_value=te_return_value, is_called=False
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        _test_te_fastpath_called(t, (src, tgt), return_value=t_return_value, is_called=False)
*da0073e9SAndroid Build Coastguard Worker        _test_mha_fastpath_called(mha, (q, q, q,), return_value=mha_return_value, is_called=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch.backends.mha.set_fastpath_enabled(True)
*da0073e9SAndroid Build Coastguard Worker        _test_te_fastpath_called(
*da0073e9SAndroid Build Coastguard Worker            te, (inp,), kwargs={'src_key_padding_mask': src_key_padding_mask},
*da0073e9SAndroid Build Coastguard Worker            return_value=te_return_value, is_called=True
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        _test_te_fastpath_called(t, (src, tgt), return_value=t_return_value, is_called=True)
*da0073e9SAndroid Build Coastguard Worker        _test_mha_fastpath_called(mha, (q, q, q,), return_value=mha_return_value, is_called=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass TestSDPAFailureModes(NNTestCase):
*da0073e9SAndroid Build Coastguard Worker    """ Used to test the failure modes of scaled_dot_product_attention
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    _do_cuda_memory_leak_check = True
*da0073e9SAndroid Build Coastguard Worker    _do_cuda_non_default_stream = True
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(
*da0073e9SAndroid Build Coastguard Worker        not PLATFORM_SUPPORTS_FLASH_ATTENTION or not isSM8XDevice,
*da0073e9SAndroid Build Coastguard Worker        "Does not support fused SDPA or not SM86+ hardware",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @parametrize("head_dim", [193, 204, 256])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("dropout_p", [0.0, 0.2])
*da0073e9SAndroid Build Coastguard Worker    def test_flash_backward_failure_sm86plus(self, device, head_dim: int, dropout_p: float):
*da0073e9SAndroid Build Coastguard Worker        dtype = torch.float16
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(torch.rand, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        # See check_requires_grad_and_head_dim_gt192_constraints_on_sm86_89 in
*da0073e9SAndroid Build Coastguard Worker        # pytorch/aten/src/ATen/native/transformers/cuda/sdp_utils.h
*da0073e9SAndroid Build Coastguard Worker        size = (2, 2, 4, head_dim)
*da0073e9SAndroid Build Coastguard Worker        q, k, v = make_tensor(size), make_tensor(size), make_tensor(size)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.MATH]):
*da0073e9SAndroid Build Coastguard Worker            math_ref = torch.nn.functional.scaled_dot_product_attention(q, k, v, None, 0.0, False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.FLASH_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            # Should not fail because inputs don't require grad
*da0073e9SAndroid Build Coastguard Worker            flash_ref = torch.nn.functional.scaled_dot_product_attention(q, k, v, None, 0.0, False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(math_ref, flash_ref, atol=1e-3, rtol=1e-3)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Should fail because inputs require grad
*da0073e9SAndroid Build Coastguard Worker            q = make_tensor(size, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker            k = make_tensor(size, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker            v = make_tensor(size, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker            if 192 < head_dim <= 224 or (head_dim > 224 and dropout_p != 0.0):
*da0073e9SAndroid Build Coastguard Worker                self.assertRaises(
*da0073e9SAndroid Build Coastguard Worker                    RuntimeError,
*da0073e9SAndroid Build Coastguard Worker                    lambda: torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                        q, k, v, None, dropout_p, False
*da0073e9SAndroid Build Coastguard Worker                    ),
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                flash_ref = torch.nn.functional.scaled_dot_product_attention(q, k, v, None, dropout_p, False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    def test_dispatch_fails_no_backend(self, device):
*da0073e9SAndroid Build Coastguard Worker        dtype = torch.float16
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.ERROR]):
*da0073e9SAndroid Build Coastguard Worker            size = (2, 3, 4)
*da0073e9SAndroid Build Coastguard Worker            q = torch.randn(size, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            k = torch.randn(size, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            v = torch.randn(size, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            self.assertRaisesRegex(RuntimeError, "No viable backend for scaled_dot_product_attention was found.",
*da0073e9SAndroid Build Coastguard Worker                                   lambda: torch._fused_sdp_choice(q, k, v))
*da0073e9SAndroid Build Coastguard Worker            self.assertRaisesRegex(RuntimeError, "No viable backend for scaled_dot_product_attention was found.",
*da0073e9SAndroid Build Coastguard Worker                                   lambda: torch.nn.functional.scaled_dot_product_attention(q, k, v))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FUSED_ATTENTION, "Does not support fused scaled dot product attention")
*da0073e9SAndroid Build Coastguard Worker    @parametrize(
*da0073e9SAndroid Build Coastguard Worker        "kernel",
*da0073e9SAndroid Build Coastguard Worker        PLATFORM_SPECIFIC_SDPA,
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_invalid_fused_inputs_dim_3(self, device, kernel: SDPBackend):
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[kernel]):
*da0073e9SAndroid Build Coastguard Worker            # Dim is not 4
*da0073e9SAndroid Build Coastguard Worker            size = (2, 3, 8)
*da0073e9SAndroid Build Coastguard Worker            dtype = torch.float16
*da0073e9SAndroid Build Coastguard Worker            q = torch.randn(size, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            k = torch.randn(size, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            v = torch.randn(size, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            with self.assertWarnsRegex(UserWarning, "Both fused kernels requires query, key and value to be 4 dimensional"):
*da0073e9SAndroid Build Coastguard Worker                self.assertRaises(RuntimeError, lambda: torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                    q, k, v, None, 0.0, False))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FUSED_ATTENTION, "Does not support fused scaled dot product attention")
*da0073e9SAndroid Build Coastguard Worker    @parametrize(
*da0073e9SAndroid Build Coastguard Worker        "kernel",
*da0073e9SAndroid Build Coastguard Worker        PLATFORM_SPECIFIC_SDPA,
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_invalid_fused_inputs_broadcast(self, device, kernel: SDPBackend):
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[kernel]):
*da0073e9SAndroid Build Coastguard Worker            #  Fused Kernels don't support broadcasting for dense inputs
*da0073e9SAndroid Build Coastguard Worker            dtype = torch.float16
*da0073e9SAndroid Build Coastguard Worker            size = (2, 4, 3, 8)
*da0073e9SAndroid Build Coastguard Worker            size_broadcast = (1, 4, 3, 8)
*da0073e9SAndroid Build Coastguard Worker            q = torch.randn(size_broadcast, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            k = torch.randn(size, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            v = torch.randn(size, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            self.assertRaises(RuntimeError, lambda: torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                q, k, v, None, 0.0, False))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FUSED_ATTENTION, "Does not support fused scaled dot product attention")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("kernel", PLATFORM_SPECIFIC_SDPA)
*da0073e9SAndroid Build Coastguard Worker    def test_invalid_sequence_lengths(self, device, kernel: SDPBackend):
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[kernel]):
*da0073e9SAndroid Build Coastguard Worker            # Passing in a q,k,v with 0 length sequences will error
*da0073e9SAndroid Build Coastguard Worker            dtype = torch.float16
*da0073e9SAndroid Build Coastguard Worker            make_tensor = partial(torch.rand, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            size = SdpaShape(2, 2, 0, 8)
*da0073e9SAndroid Build Coastguard Worker            q, k, v = make_tensor(size), make_tensor(size), make_tensor(size)
*da0073e9SAndroid Build Coastguard Worker            with self.assertWarnsRegex(UserWarning, "Both fused kernels do not support zero seq_len_q or seq_len_kv."):
*da0073e9SAndroid Build Coastguard Worker                self.assertRaises(RuntimeError, lambda: torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                    q, k, v, None, 0.0, False))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FUSED_ATTENTION, "Does not support fused scaled dot product attention")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("kernel", PLATFORM_SPECIFIC_SDPA)
*da0073e9SAndroid Build Coastguard Worker    def test_invalid_last_dim_stride(self, device, kernel: SDPBackend):
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[kernel]):
*da0073e9SAndroid Build Coastguard Worker            # Passing in a q,k,v with last dim stride not equal to 1 will error
*da0073e9SAndroid Build Coastguard Worker            dtype = torch.float16
*da0073e9SAndroid Build Coastguard Worker            make_tensor = partial(torch.rand, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            size = SdpaShape(2, 2, 8, 8)
*da0073e9SAndroid Build Coastguard Worker            q, k, v = make_tensor(size), make_tensor(size), make_tensor(size)
*da0073e9SAndroid Build Coastguard Worker            q.as_strided_(size, [2, 2, 2, 2])
*da0073e9SAndroid Build Coastguard Worker            with self.assertWarnsRegex(UserWarning, "Both fused kernels require the last dimension of the input to have stride 1."):
*da0073e9SAndroid Build Coastguard Worker                self.assertRaises(RuntimeError, lambda: torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                    q, k, v, None, 0.0, False))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FLASH_ATTENTION, "Does not flash_attention fused scaled dot product attention")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("kernel", [SDPBackend.FLASH_ATTENTION, SDPBackend.EFFICIENT_ATTENTION])
*da0073e9SAndroid Build Coastguard Worker    def test_invalid_fused_inputs_head_dim(self, device, kernel: SDPBackend):
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[kernel]):
*da0073e9SAndroid Build Coastguard Worker            # The embed dim per head is not divisible by 8 for flash attention
*da0073e9SAndroid Build Coastguard Worker            dtype = torch.float16
*da0073e9SAndroid Build Coastguard Worker            make_tensor = partial(torch.rand, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            size = SdpaShape(2, 2, 3, 9) if kernel == SDPBackend.EFFICIENT_ATTENTION else SdpaShape(2, 2, 3, 257)
*da0073e9SAndroid Build Coastguard Worker            if TEST_WITH_ROCM:  # On ROCM, FA and EA share the backend GPU kernels
*da0073e9SAndroid Build Coastguard Worker                size = SdpaShape(2, 2, 3, 257)
*da0073e9SAndroid Build Coastguard Worker            q, k, v = make_tensor(size), make_tensor(size), make_tensor(size)
*da0073e9SAndroid Build Coastguard Worker            self.assertRaises(RuntimeError, lambda: torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                q, k, v, None, 0.0, False))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FUSED_ATTENTION, "Does not support fused scaled dot product attention")
*da0073e9SAndroid Build Coastguard Worker    @parametrize(
*da0073e9SAndroid Build Coastguard Worker        "kernel",
*da0073e9SAndroid Build Coastguard Worker        PLATFORM_SPECIFIC_SDPA,
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_invalid_fused_inputs_invalid_dtype(self, device, kernel: SDPBackend):
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[kernel]):
*da0073e9SAndroid Build Coastguard Worker            # Invalid dtype for both Flash Attention and Mem Efficient Attention
*da0073e9SAndroid Build Coastguard Worker            size = SdpaShape(2, 2, 3, 16)
*da0073e9SAndroid Build Coastguard Worker            make_tensor = partial(torch.rand, device=device, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker            q, k, v = make_tensor(size), make_tensor(size), make_tensor(size)
*da0073e9SAndroid Build Coastguard Worker            self.assertRaises(RuntimeError, lambda: torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                q, k, v, None, 0.0, False))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FLASH_ATTENTION, "Does not support flash attention")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("kernel", [SDPBackend.FLASH_ATTENTION])
*da0073e9SAndroid Build Coastguard Worker    def test_invalid_fused_inputs_attn_mask_present(self, device, kernel: SDPBackend):
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[kernel]):
*da0073e9SAndroid Build Coastguard Worker            # Failures for unsupported SDP args
*da0073e9SAndroid Build Coastguard Worker            size = SdpaShape(2, 2, 3, 16)
*da0073e9SAndroid Build Coastguard Worker            make_tensor = partial(torch.rand, size, device=device, dtype=torch.float16)
*da0073e9SAndroid Build Coastguard Worker            q, k, v = make_tensor(), make_tensor(), make_tensor()
*da0073e9SAndroid Build Coastguard Worker            # Non-None attention mask
*da0073e9SAndroid Build Coastguard Worker            mask = torch.ones((2, 2, 3, 3), device=device, dtype=q.dtype)
*da0073e9SAndroid Build Coastguard Worker            self.assertRaises(RuntimeError, lambda: torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                q, k, v, mask, 0.0, False))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FLASH_ATTENTION, "Does not support fused SDPA or pre-SM80 hardware")
*da0073e9SAndroid Build Coastguard Worker    def test_unaligned_tensors(self, device):
*da0073e9SAndroid Build Coastguard Worker        # The alignment is depdent on arch so we specifiy SM80OrLater
*da0073e9SAndroid Build Coastguard Worker        dtype = torch.float16
*da0073e9SAndroid Build Coastguard Worker        size = SdpaShape(2, 2, 8, 5)
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(torch.rand, size, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        q, k, v = make_tensor(), make_tensor(), make_tensor()
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.EFFICIENT_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            ctxmgr = self.assertRaises(RuntimeError) if not TEST_WITH_ROCM else contextlib.nullcontext()
*da0073e9SAndroid Build Coastguard Worker            with ctxmgr:
*da0073e9SAndroid Build Coastguard Worker                torch.nn.functional.scaled_dot_product_attention(q, k, v, None, 0.0, False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FLASH_ATTENTION, "Does not support fused SDPA or pre-SM80 hardware")
*da0073e9SAndroid Build Coastguard Worker    def test_flash_fail_fp32(self, device):
*da0073e9SAndroid Build Coastguard Worker        dtype = torch.float
*da0073e9SAndroid Build Coastguard Worker        size = SdpaShape(16, 16, 32, 32)
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(torch.rand, size, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        q, k, v = make_tensor(), make_tensor(), make_tensor()
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.FLASH_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            with self.assertWarnsRegex(UserWarning, "Expected query, key and value to all be of dtype: {Half, BFloat16}"):
*da0073e9SAndroid Build Coastguard Worker                self.assertRaises(RuntimeError, lambda: torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                    q, k, v, None, 0.0, False))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FLASH_ATTENTION, "Does not support SDPA or pre-SM80 hardware")
*da0073e9SAndroid Build Coastguard Worker    def test_flash_autocast_fp32_float16(self, device):
*da0073e9SAndroid Build Coastguard Worker        dtype = torch.float
*da0073e9SAndroid Build Coastguard Worker        size = SdpaShape(16, 16, 32, 32)
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(torch.rand, size, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        q, k, v = make_tensor(), make_tensor(), make_tensor()
*da0073e9SAndroid Build Coastguard Worker        with torch.autocast(device_type='cuda', dtype=torch.float16):
*da0073e9SAndroid Build Coastguard Worker            with sdpa_kernel(backends=[SDPBackend.FLASH_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker                _ = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                    q, k, v, None, 0.0, False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FLASH_ATTENTION, "Does not support SDPA or pre-SM80 hardware")
*da0073e9SAndroid Build Coastguard Worker    def test_flash_autocast_fp32_bfloat16(self, device):
*da0073e9SAndroid Build Coastguard Worker        dtype = torch.float
*da0073e9SAndroid Build Coastguard Worker        size = SdpaShape(16, 16, 32, 32)
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(torch.rand, size, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        q, k, v = make_tensor(), make_tensor(), make_tensor()
*da0073e9SAndroid Build Coastguard Worker        with torch.autocast(device_type='cuda', dtype=torch.bfloat16):
*da0073e9SAndroid Build Coastguard Worker            with sdpa_kernel(backends=[SDPBackend.FLASH_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker                _ = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                    q, k, v, None, 0.0, False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # Note: do not truncate the list according to platforms. These tests should always raise errors.
*da0073e9SAndroid Build Coastguard Worker    @parametrize("kernel", [SDPBackend.MATH, SDPBackend.FLASH_ATTENTION, SDPBackend.EFFICIENT_ATTENTION])
*da0073e9SAndroid Build Coastguard Worker    def test_invalid_inputs_different_datatypes(self, device, kernel: SDPBackend):
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[kernel]):
*da0073e9SAndroid Build Coastguard Worker            # Different datatypes
*da0073e9SAndroid Build Coastguard Worker            shape = (1, 4, 8, 16)
*da0073e9SAndroid Build Coastguard Worker            query = torch.randn(shape, dtype=torch.float32, device=device)
*da0073e9SAndroid Build Coastguard Worker            key = torch.randn(shape, dtype=torch.float16, device=device)
*da0073e9SAndroid Build Coastguard Worker            value = torch.randn(shape, dtype=torch.float16, device=device)
*da0073e9SAndroid Build Coastguard Worker            self.assertRaises(RuntimeError, lambda: F.scaled_dot_product_attention(query, key, value))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @parametrize("kernel", [SDPBackend.MATH, SDPBackend.FLASH_ATTENTION, SDPBackend.EFFICIENT_ATTENTION])
*da0073e9SAndroid Build Coastguard Worker    def test_invalid_inputs_different_devices(self, device, kernel: SDPBackend):
*da0073e9SAndroid Build Coastguard Worker        # Different devices
*da0073e9SAndroid Build Coastguard Worker        shape = (1, 4, 8, 16)
*da0073e9SAndroid Build Coastguard Worker        query = torch.randn(shape, dtype=torch.float32, device=device)
*da0073e9SAndroid Build Coastguard Worker        key = torch.randn(shape, dtype=torch.float16, device='cpu')
*da0073e9SAndroid Build Coastguard Worker        value = torch.randn(shape, dtype=torch.float16, device='cpu')
*da0073e9SAndroid Build Coastguard Worker        self.assertRaises(RuntimeError, lambda: F.scaled_dot_product_attention(query, key, value))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @parametrize("kernel", [SDPBackend.MATH, SDPBackend.FLASH_ATTENTION, SDPBackend.EFFICIENT_ATTENTION])
*da0073e9SAndroid Build Coastguard Worker    def test_invalid_inputs_1_dimensional_inputs(self, device, kernel: SDPBackend):
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[kernel]):
*da0073e9SAndroid Build Coastguard Worker            # 1 dimensional input
*da0073e9SAndroid Build Coastguard Worker            shape = (1, 4)
*da0073e9SAndroid Build Coastguard Worker            query = torch.randn(4, dtype=torch.float16, device=device)
*da0073e9SAndroid Build Coastguard Worker            key = torch.randn(shape, dtype=torch.float16, device=device)
*da0073e9SAndroid Build Coastguard Worker            value = torch.randn(shape, dtype=torch.float16, device=device)
*da0073e9SAndroid Build Coastguard Worker            self.assertRaises(RuntimeError, lambda: F.scaled_dot_product_attention(query, key, value))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @skipIfRocm  # Missing EFFICIENT_ATTENTION
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_MEM_EFF_ATTENTION, "Fused SDPA was not built for this system")
*da0073e9SAndroid Build Coastguard Worker    def test_fused_kernels_nested_broadcasting_error_cases(self, device):
*da0073e9SAndroid Build Coastguard Worker        # one of k,v needs to be broadcasted and other has non consistent seq_len dim
*da0073e9SAndroid Build Coastguard Worker        rand_nested_tensor = partial(rand_sdpa_tensor, type="nested", device=device, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        batch, num_heads, head_dim = 32, 8, 64
*da0073e9SAndroid Build Coastguard Worker        seq_lens_q = torch.randint(low=1, high=32, size=(batch,)).tolist()
*da0073e9SAndroid Build Coastguard Worker        seq_lens_v = torch.randint(low=1, high=32, size=(batch,)).tolist()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        q_shape = SdpaShape(batch, num_heads, seq_lens_q, head_dim)
*da0073e9SAndroid Build Coastguard Worker        k_shape = SdpaShape(1, num_heads, 1, head_dim)
*da0073e9SAndroid Build Coastguard Worker        v_shape = SdpaShape(batch, num_heads, seq_lens_v, head_dim)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query = rand_nested_tensor(q_shape).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        key = rand_nested_tensor(k_shape).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        value = rand_nested_tensor(v_shape).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.EFFICIENT_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            with self.assertRaisesRegex(RuntimeError, "No available kernel"):
*da0073e9SAndroid Build Coastguard Worker                torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                    query, key, value, attn_mask=None, dropout_p=0.0, is_causal=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FLASH_ATTENTION, "Fused SDPA was not built for this system")
*da0073e9SAndroid Build Coastguard Worker    def test_nested_fails_on_padding_head_dim(self, device):
*da0073e9SAndroid Build Coastguard Worker        dtype = torch.bfloat16
*da0073e9SAndroid Build Coastguard Worker        seq_len_list = [2, 4, 5, 6, 7]
*da0073e9SAndroid Build Coastguard Worker        shape = SdpaShape(5, 8, seq_len_list, 57)
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(rand_sdpa_tensor, shape=shape, type="nested", device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        q, k, v = make_tensor(), make_tensor(), make_tensor()
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.FLASH_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            with self.assertWarnsRegex(UserWarning, "For NestedTensor inputs, Flash attention requires"):
*da0073e9SAndroid Build Coastguard Worker                self.assertRaises(RuntimeError, lambda: torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                    q, k, v, None, 0.0, False))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FUSED_ATTENTION or not isLessThanSM80Device,
*da0073e9SAndroid Build Coastguard Worker                     "Current platform does not support fused SDPA or is an SM80+ device.")
*da0073e9SAndroid Build Coastguard Worker    def test_mem_efficient_fail_bfloat16_less_than_sm80(self, device):
*da0073e9SAndroid Build Coastguard Worker        dtype = torch.bfloat16
*da0073e9SAndroid Build Coastguard Worker        size = SdpaShape(16, 16, 32, 32)
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(torch.rand, size, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        q, k, v = make_tensor(), make_tensor(), make_tensor()
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.EFFICIENT_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            with self.assertWarnsRegex(UserWarning, "Expected query, key and value to all be of dtype: {Half, Float}"):
*da0073e9SAndroid Build Coastguard Worker                self.assertRaises(RuntimeError, lambda: torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                    q, k, v, None, 0.0, False))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FLASH_ATTENTION, "Does not support flash attention")
*da0073e9SAndroid Build Coastguard Worker    def test_flash_atteention_large_bf16_nan_values(self, device):
*da0073e9SAndroid Build Coastguard Worker        query = torch.full((1, 1, 1, 64), 133120.0, dtype=torch.bfloat16, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        key = torch.full((1, 1, 1, 64), 133120.0, dtype=torch.bfloat16, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        value = torch.full((1, 1, 1, 64), 133120.0, dtype=torch.bfloat16, device="cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(SDPBackend.FLASH_ATTENTION):
*da0073e9SAndroid Build Coastguard Worker            out = torch.nn.functional.scaled_dot_product_attention(query, key, value)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertFalse(torch.isnan(out).any(), "Output should not contain NaNs!")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FUSED_ATTENTION, "Fused SDPA was not built for this system")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("fused_kernel", [SDPBackend.FLASH_ATTENTION, SDPBackend.EFFICIENT_ATTENTION] if
*da0073e9SAndroid Build Coastguard Worker                 PLATFORM_SUPPORTS_FLASH_ATTENTION else [SDPBackend.EFFICIENT_ATTENTION])
*da0073e9SAndroid Build Coastguard Worker    def test_fused_kernels_seq_len_0_inputs(self, device, fused_kernel):
*da0073e9SAndroid Build Coastguard Worker        rand_nested_tensor = partial(rand_sdpa_tensor, type="nested", device=device, dtype=torch.float16)
*da0073e9SAndroid Build Coastguard Worker        batch, num_heads, head_dim = 32, 16, 64
*da0073e9SAndroid Build Coastguard Worker        seq_lens = torch.randint(low=1, high=32, size=(batch,))
*da0073e9SAndroid Build Coastguard Worker        # make sure some seq_lens are 0
*da0073e9SAndroid Build Coastguard Worker        num_zeros = 10
*da0073e9SAndroid Build Coastguard Worker        indices = torch.randint(low=0, high=batch, size=(num_zeros,))
*da0073e9SAndroid Build Coastguard Worker        seq_lens.scatter_(0, indices, 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        shape = SdpaShape(batch, num_heads, seq_lens.tolist(), head_dim)
*da0073e9SAndroid Build Coastguard Worker        query = rand_nested_tensor(shape)
*da0073e9SAndroid Build Coastguard Worker        key = rand_nested_tensor(shape)
*da0073e9SAndroid Build Coastguard Worker        value = rand_nested_tensor(shape)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query = query.transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        key = key.transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        value = value.transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[fused_kernel]):
*da0073e9SAndroid Build Coastguard Worker            with self.assertRaisesRegex(RuntimeError, "No available kernel"):
*da0073e9SAndroid Build Coastguard Worker                torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                    query, key, value, attn_mask=None, dropout_p=0.0, is_causal=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FLASH_ATTENTION, "Fused SDPA was not built for this system")
*da0073e9SAndroid Build Coastguard Worker    def test_fused_kernels_nested_broadcasting_requires_grad_failure(self, device):
*da0073e9SAndroid Build Coastguard Worker        rand_nested_tensor = partial(rand_sdpa_tensor, type="nested", device=device, dtype=torch.float16, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        batch, num_heads, head_dim, head_dim_v = 32, 16, 64, 64
*da0073e9SAndroid Build Coastguard Worker        seq_lens = torch.randint(low=1, high=32, size=(batch,)).tolist()
*da0073e9SAndroid Build Coastguard Worker        q_shape = SdpaShape(1, num_heads, 1, head_dim)
*da0073e9SAndroid Build Coastguard Worker        k_shape = SdpaShape(batch, num_heads, seq_lens, head_dim)
*da0073e9SAndroid Build Coastguard Worker        v_shape = SdpaShape(batch, 1, seq_lens, head_dim_v)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # create a dense query
*da0073e9SAndroid Build Coastguard Worker        query = torch.randn(q_shape, device=device, dtype=torch.float16, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        key = rand_nested_tensor(k_shape)
*da0073e9SAndroid Build Coastguard Worker        value = rand_nested_tensor(v_shape)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query = query.transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        key = key.transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        value = value.transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.FLASH_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            with self.assertWarnsRegex(UserWarning, "Both fused kernels do not support training with broadcasted NT inputs"):
*da0073e9SAndroid Build Coastguard Worker                with self.assertRaisesRegex(RuntimeError, "No available kernel"):
*da0073e9SAndroid Build Coastguard Worker                    out = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                        query, key, value, attn_mask=None, dropout_p=0.0, is_causal=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FLASH_ATTENTION, "Does not support flash attention")
*da0073e9SAndroid Build Coastguard Worker    def test_flash_attention_fail_with_non_square_causal_attention(self, device):
*da0073e9SAndroid Build Coastguard Worker        dtype = torch.bfloat16
*da0073e9SAndroid Build Coastguard Worker        q_shape = SdpaShape(1, 1, 8, 16)
*da0073e9SAndroid Build Coastguard Worker        kv_shape = SdpaShape(1, 1, 12, 16)
*da0073e9SAndroid Build Coastguard Worker        make_q = partial(torch.rand, q_shape, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        make_kv = partial(torch.rand, kv_shape, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        q, k, v = make_q(), make_kv(), make_kv()
*da0073e9SAndroid Build Coastguard Worker        warning_str = "Flash attention does not support the is_causal flag when seqlen_q != seqlen_k."
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.FLASH_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            with self.assertWarnsRegex(UserWarning, warning_str):
*da0073e9SAndroid Build Coastguard Worker                self.assertRaises(RuntimeError, lambda: torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                    q, k, v, None, 0.0, is_causal=True))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _get_block_size_n(device, head_dim, is_dropout, is_causal):
*da0073e9SAndroid Build Coastguard Worker    # This should match the block sizes in the CUDA kernel
*da0073e9SAndroid Build Coastguard Worker    assert head_dim <= 256
*da0073e9SAndroid Build Coastguard Worker    major, minor = torch.cuda.get_device_capability(device)
*da0073e9SAndroid Build Coastguard Worker    is_sm8x = major == 8 and minor > 0  # Only include sm86 and sm89, exclude sm80 (A100)
*da0073e9SAndroid Build Coastguard Worker    is_sm80 = major == 8 and minor == 0
*da0073e9SAndroid Build Coastguard Worker    is_sm90 = major == 9 and minor == 0
*da0073e9SAndroid Build Coastguard Worker    if head_dim <= 32:
*da0073e9SAndroid Build Coastguard Worker        return 128
*da0073e9SAndroid Build Coastguard Worker    if head_dim <= 64:
*da0073e9SAndroid Build Coastguard Worker        return 128 if not is_dropout else 64
*da0073e9SAndroid Build Coastguard Worker    elif head_dim <= 96:
*da0073e9SAndroid Build Coastguard Worker        return 64
*da0073e9SAndroid Build Coastguard Worker    elif head_dim <= 128:
*da0073e9SAndroid Build Coastguard Worker        if is_sm8x:
*da0073e9SAndroid Build Coastguard Worker            return 64 if (not is_dropout and is_causal) else 32
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            return 64 if not is_dropout else 32
*da0073e9SAndroid Build Coastguard Worker    elif head_dim <= 160:
*da0073e9SAndroid Build Coastguard Worker        if is_sm8x:
*da0073e9SAndroid Build Coastguard Worker            return 64
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            return 32
*da0073e9SAndroid Build Coastguard Worker    elif head_dim <= 192:
*da0073e9SAndroid Build Coastguard Worker        return 64
*da0073e9SAndroid Build Coastguard Worker    elif head_dim <= 224:
*da0073e9SAndroid Build Coastguard Worker        return 64
*da0073e9SAndroid Build Coastguard Worker    elif head_dim <= 256:
*da0073e9SAndroid Build Coastguard Worker        return 64
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef pad_last_dim(input_tensor, alignment_size, slice: bool = False):
*da0073e9SAndroid Build Coastguard Worker    last_dim_size = input_tensor.size(-1)
*da0073e9SAndroid Build Coastguard Worker    if (last_dim_size % alignment_size == 0):
*da0073e9SAndroid Build Coastguard Worker        return input_tensor, last_dim_size
*da0073e9SAndroid Build Coastguard Worker    pad_count = alignment_size - (last_dim_size % alignment_size)
*da0073e9SAndroid Build Coastguard Worker    padded_tensor = F.pad(input_tensor, (0, pad_count))
*da0073e9SAndroid Build Coastguard Worker    if slice:
*da0073e9SAndroid Build Coastguard Worker        return padded_tensor[..., :last_dim_size], last_dim_size
*da0073e9SAndroid Build Coastguard Worker    return padded_tensor, last_dim_size
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass TestSDPA(NNTestCase):
*da0073e9SAndroid Build Coastguard Worker    """ Used to test generic functionality of scaled_dot_product_attention
*da0073e9SAndroid Build Coastguard Worker    Summary:
*da0073e9SAndroid Build Coastguard Worker        If you are adding a new test to this class, make sure that it runs
*da0073e9SAndroid Build Coastguard Worker        for both cpu and cuda. If you're test is only applicable to cuda,
*da0073e9SAndroid Build Coastguard Worker        add it to TestSDPACudaOnly.
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    @parametrize("contiguous_inputs", [True, False])
*da0073e9SAndroid Build Coastguard Worker    def test_sdp_math_gradcheck(self, device, contiguous_inputs: bool):
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        batch_size, seq_len, num_heads, head_dim = 4, 4, 2, 16
*da0073e9SAndroid Build Coastguard Worker        shape = SdpaShape(batch_size, num_heads, seq_len, head_dim)
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(rand_sdpa_tensor, type="dense", device=device,
*da0073e9SAndroid Build Coastguard Worker                              dtype=torch.float64, requires_grad=True, packed=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        qkv = make_tensor(shape)
*da0073e9SAndroid Build Coastguard Worker        query, key, value = qkv.chunk(3, dim=-1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query = query.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        key = key.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        value = value.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if contiguous_inputs:
*da0073e9SAndroid Build Coastguard Worker            query = query.contiguous()
*da0073e9SAndroid Build Coastguard Worker            key = key.contiguous()
*da0073e9SAndroid Build Coastguard Worker            value = value.contiguous()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.MATH]):
*da0073e9SAndroid Build Coastguard Worker            assert gradcheck(lambda *args, **kwargs:
*da0073e9SAndroid Build Coastguard Worker                             wrapper_set_seed(torch.nn.functional.scaled_dot_product_attention, *args, **kwargs),
*da0073e9SAndroid Build Coastguard Worker                             (query, key, value, None, 0.0, False)
*da0073e9SAndroid Build Coastguard Worker                             )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCPU
*da0073e9SAndroid Build Coastguard Worker    @parametrize("type", ["dense", "nested"])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("dropout", [0.0, 0.7])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("dtype", [torch.float64, torch.float32, torch.bfloat16, torch.half])
*da0073e9SAndroid Build Coastguard Worker    def test_fused_sdp_choice_cpu(self, device, type: str, dropout: float, dtype: torch.dtype):
*da0073e9SAndroid Build Coastguard Worker        # Test that cpu and nestedtensor cpu return MATH backend
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(rand_sdpa_tensor, type=type, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        size = SdpaShape(2, 8, 128, 64)
*da0073e9SAndroid Build Coastguard Worker        q, k, v = make_tensor(size), make_tensor(size), make_tensor(size)
*da0073e9SAndroid Build Coastguard Worker        if type == "nested" \
*da0073e9SAndroid Build Coastguard Worker                or dropout > 0.0 \
*da0073e9SAndroid Build Coastguard Worker                or dtype not in [torch.float32, torch.float64, torch.bfloat16, torch.float16]:
*da0073e9SAndroid Build Coastguard Worker            assert torch._fused_sdp_choice(q, k, v, dropout_p=dropout) == SDPBackend.MATH.value
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            assert torch._fused_sdp_choice(q, k, v, dropout_p=dropout) == SDPBackend.FLASH_ATTENTION.value
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCPU
*da0073e9SAndroid Build Coastguard Worker    @parametrize("fused_kernel", [SDPBackend.FLASH_ATTENTION])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("dtype", [torch.float64, torch.float32, torch.bfloat16, torch.float16])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("batch_size", [2, 12])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("seq_len", [267, 1030])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("n_head", [1, 3])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("head_dim", [8, 16])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("causal", [True, False])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("train", [True, False])
*da0073e9SAndroid Build Coastguard Worker    def test_scaled_dot_product_fused_attention_vs_math_cpu(
*da0073e9SAndroid Build Coastguard Worker        self,
*da0073e9SAndroid Build Coastguard Worker        device,
*da0073e9SAndroid Build Coastguard Worker        fused_kernel,
*da0073e9SAndroid Build Coastguard Worker        dtype,
*da0073e9SAndroid Build Coastguard Worker        batch_size,
*da0073e9SAndroid Build Coastguard Worker        seq_len,
*da0073e9SAndroid Build Coastguard Worker        n_head,
*da0073e9SAndroid Build Coastguard Worker        head_dim,
*da0073e9SAndroid Build Coastguard Worker        causal,
*da0073e9SAndroid Build Coastguard Worker        train,
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        atol = 1e-5
*da0073e9SAndroid Build Coastguard Worker        rtol = 5e-6
*da0073e9SAndroid Build Coastguard Worker        if dtype is torch.bfloat16:
*da0073e9SAndroid Build Coastguard Worker            atol = 5e-2
*da0073e9SAndroid Build Coastguard Worker            rtol = 5e-2
*da0073e9SAndroid Build Coastguard Worker        if dtype is torch.float16:
*da0073e9SAndroid Build Coastguard Worker            atol = 1e-2
*da0073e9SAndroid Build Coastguard Worker            rtol = 1e-2
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        n_embd = n_head * head_dim
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(rand_sdpa_tensor, type="dense", device=device, dtype=dtype, packed=True, requires_grad=False)
*da0073e9SAndroid Build Coastguard Worker        shape = SdpaShape(batch_size, n_head, seq_len, head_dim)
*da0073e9SAndroid Build Coastguard Worker        x = make_tensor(shape)
*da0073e9SAndroid Build Coastguard Worker        x2 = x.clone()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if train:
*da0073e9SAndroid Build Coastguard Worker            x.requires_grad_(True)
*da0073e9SAndroid Build Coastguard Worker            x2.requires_grad_(True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        q, k, v = x.split(n_embd, dim=2)
*da0073e9SAndroid Build Coastguard Worker        q2, k2, v2 = x2.split(n_embd, dim=2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if dtype in [torch.bfloat16, torch.float16]:
*da0073e9SAndroid Build Coastguard Worker            q2 = q2.float()
*da0073e9SAndroid Build Coastguard Worker            k2 = k2.float()
*da0073e9SAndroid Build Coastguard Worker            v2 = v2.float()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # (B, nh, T, hs)
*da0073e9SAndroid Build Coastguard Worker        k = k.view(batch_size, seq_len, n_head, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        q = q.view(batch_size, seq_len, n_head, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        v = v.view(batch_size, seq_len, n_head, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        k2 = k2.view(batch_size, seq_len, n_head, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        q2 = q2.view(batch_size, seq_len, n_head, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        v2 = v2.view(batch_size, seq_len, n_head, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[fused_kernel]):
*da0073e9SAndroid Build Coastguard Worker            actual = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                q, k, v, attn_mask=None, dropout_p=0.0, is_causal=causal)
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.MATH]):
*da0073e9SAndroid Build Coastguard Worker            math_ref = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                q2, k2, v2, attn_mask=None, dropout_p=0.0, is_causal=causal)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if dtype in [torch.bfloat16, torch.float16]:
*da0073e9SAndroid Build Coastguard Worker            math_ref = math_ref.to(dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(actual, math_ref, atol=atol, rtol=rtol)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if train:
*da0073e9SAndroid Build Coastguard Worker            actual.sum().backward()
*da0073e9SAndroid Build Coastguard Worker            math_ref.sum().backward()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            grad_x, grad_x2 = x.grad, x2.grad
*da0073e9SAndroid Build Coastguard Worker            grad_q_actual, grad_k_actual, grad_v_actual = grad_x.split(n_embd, dim=2)
*da0073e9SAndroid Build Coastguard Worker            grad_q_ref, grad_k_ref, grad_v_ref = grad_x2.split(n_embd, dim=2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(grad_q_actual, grad_q_ref, atol=atol, rtol=rtol)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(grad_k_actual, grad_k_ref, atol=atol, rtol=rtol)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(grad_v_actual, grad_v_ref, atol=atol, rtol=rtol)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCPU
*da0073e9SAndroid Build Coastguard Worker    @parametrize("fused_kernel", [SDPBackend.FLASH_ATTENTION])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("dtype", [torch.float64, torch.float32, torch.bfloat16, torch.float16])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("batch_size", [2, 12])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("q_seq_len", [267, 1030])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("kv_seq_len", [514, 1179])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("n_head", [1, 3])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("head_dim", [8, 16])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("mask_dim", [2, 4])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("bool_mask", [0, 1])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("train", [True, False])
*da0073e9SAndroid Build Coastguard Worker    def test_scaled_dot_product_fused_attention_mask_vs_math_cpu(
*da0073e9SAndroid Build Coastguard Worker        self,
*da0073e9SAndroid Build Coastguard Worker        device,
*da0073e9SAndroid Build Coastguard Worker        fused_kernel,
*da0073e9SAndroid Build Coastguard Worker        dtype,
*da0073e9SAndroid Build Coastguard Worker        batch_size,
*da0073e9SAndroid Build Coastguard Worker        q_seq_len,
*da0073e9SAndroid Build Coastguard Worker        kv_seq_len,
*da0073e9SAndroid Build Coastguard Worker        n_head,
*da0073e9SAndroid Build Coastguard Worker        head_dim,
*da0073e9SAndroid Build Coastguard Worker        mask_dim,
*da0073e9SAndroid Build Coastguard Worker        bool_mask,
*da0073e9SAndroid Build Coastguard Worker        train,
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        tol = Tolerances(1e-5, 5e-6)
*da0073e9SAndroid Build Coastguard Worker        if dtype is torch.bfloat16:
*da0073e9SAndroid Build Coastguard Worker            tol = Tolerances(5e-2, 5e-2)
*da0073e9SAndroid Build Coastguard Worker        if dtype is torch.float16:
*da0073e9SAndroid Build Coastguard Worker            tol = Tolerances(1e-2, 1e-2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(rand_sdpa_tensor, type="dense", device=device, dtype=dtype, requires_grad=False)
*da0073e9SAndroid Build Coastguard Worker        q_shape = SdpaShape(batch_size, n_head, q_seq_len, head_dim)
*da0073e9SAndroid Build Coastguard Worker        kv_shape = SdpaShape(batch_size, n_head, kv_seq_len, head_dim)
*da0073e9SAndroid Build Coastguard Worker        q = make_tensor(q_shape)
*da0073e9SAndroid Build Coastguard Worker        k = make_tensor(kv_shape)
*da0073e9SAndroid Build Coastguard Worker        v = make_tensor(kv_shape)
*da0073e9SAndroid Build Coastguard Worker        q2, k2, v2 = q.clone(), k.clone(), v.clone()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if train:
*da0073e9SAndroid Build Coastguard Worker            q.requires_grad_(True)
*da0073e9SAndroid Build Coastguard Worker            k.requires_grad_(True)
*da0073e9SAndroid Build Coastguard Worker            v.requires_grad_(True)
*da0073e9SAndroid Build Coastguard Worker            q2.requires_grad_(True)
*da0073e9SAndroid Build Coastguard Worker            k2.requires_grad_(True)
*da0073e9SAndroid Build Coastguard Worker            v2.requires_grad_(True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if dtype in [torch.bfloat16, torch.float16]:
*da0073e9SAndroid Build Coastguard Worker            q2, k2, v2 = q2.float(), k2.float(), v2.float()
*da0073e9SAndroid Build Coastguard Worker        # (B, nh, T, hs)
*da0073e9SAndroid Build Coastguard Worker        q = q.view(batch_size, q_seq_len, n_head, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        k = k.view(batch_size, kv_seq_len, n_head, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        v = v.view(batch_size, kv_seq_len, n_head, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        if mask_dim == 4:
*da0073e9SAndroid Build Coastguard Worker            mask_shape = (batch_size, n_head, q_seq_len, kv_seq_len)
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            mask_shape = (q_seq_len, kv_seq_len)
*da0073e9SAndroid Build Coastguard Worker        if bool_mask:
*da0073e9SAndroid Build Coastguard Worker            attn_mask = torch.randint(0, 2, size=mask_shape, dtype=torch.bool, device=device)
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            attn_mask = torch.randn(mask_shape, dtype=dtype, device=device)
*da0073e9SAndroid Build Coastguard Worker        q2 = q2.view(batch_size, q_seq_len, n_head, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        k2 = k2.view(batch_size, kv_seq_len, n_head, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        v2 = v2.view(batch_size, kv_seq_len, n_head, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[fused_kernel]):
*da0073e9SAndroid Build Coastguard Worker            actual = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                q, k, v, attn_mask=attn_mask, dropout_p=0.0, is_causal=False)
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.MATH]):
*da0073e9SAndroid Build Coastguard Worker            if not bool_mask and dtype in [torch.bfloat16, torch.float16]:
*da0073e9SAndroid Build Coastguard Worker                attn_mask = attn_mask.float()
*da0073e9SAndroid Build Coastguard Worker            math_ref = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                q2, k2, v2, attn_mask=attn_mask, dropout_p=0.0, is_causal=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if dtype in [torch.bfloat16, torch.float16]:
*da0073e9SAndroid Build Coastguard Worker            math_ref = math_ref.to(dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(actual, math_ref, atol=tol.atol, rtol=tol.rtol)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if train:
*da0073e9SAndroid Build Coastguard Worker            actual.sum().backward()
*da0073e9SAndroid Build Coastguard Worker            math_ref.sum().backward()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            grad_q_actual, grad_k_actual, grad_v_actual = q.grad, k.grad, v.grad
*da0073e9SAndroid Build Coastguard Worker            grad_q_ref, grad_k_ref, grad_v_ref = q2.grad, k2.grad, v2.grad
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(grad_q_actual, grad_q_ref, atol=tol.atol, rtol=tol.rtol)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(grad_k_actual, grad_k_ref, atol=tol.atol, rtol=tol.rtol)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(grad_v_actual, grad_v_ref, atol=tol.atol, rtol=tol.rtol)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCPU
*da0073e9SAndroid Build Coastguard Worker    def test_scaled_dot_product_fused_attention_with_inf(self, device):
*da0073e9SAndroid Build Coastguard Worker        # https://github.com/pytorch/pytorch/issues/127055.
*da0073e9SAndroid Build Coastguard Worker        full = torch.full((600, 600), float("-inf"), device=device)
*da0073e9SAndroid Build Coastguard Worker        mask = torch.triu(full, diagonal=1) + torch.tril(full, diagonal=-10)
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(rand_sdpa_tensor, type="dense", device=device, dtype=torch.float32, requires_grad=False)
*da0073e9SAndroid Build Coastguard Worker        input_shape = SdpaShape(1, 600, 2, 8)
*da0073e9SAndroid Build Coastguard Worker        q = make_tensor(input_shape)
*da0073e9SAndroid Build Coastguard Worker        k = make_tensor(input_shape)
*da0073e9SAndroid Build Coastguard Worker        v = make_tensor(input_shape)
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.MATH]):
*da0073e9SAndroid Build Coastguard Worker            math_ref = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask=mask)
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.FLASH_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            actual = torch.nn.functional.scaled_dot_product_attention(q, k, v, attn_mask=mask)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(math_ref, actual)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @parametrize("kernel", [SDPBackend.MATH])
*da0073e9SAndroid Build Coastguard Worker    def test_scaled_dot_product_attention_math_with_negative_scale(self, device, kernel: SDPBackend):
*da0073e9SAndroid Build Coastguard Worker        # https://github.com/pytorch/pytorch/issues/105190.
*da0073e9SAndroid Build Coastguard Worker        def ref(x):
*da0073e9SAndroid Build Coastguard Worker            v1 = torch.matmul(x, x.transpose(-1, -2))
*da0073e9SAndroid Build Coastguard Worker            v2 = v1 / -0.0001
*da0073e9SAndroid Build Coastguard Worker            v3 = v2.softmax(dim=-1)
*da0073e9SAndroid Build Coastguard Worker            v4 = torch.matmul(v3, x)
*da0073e9SAndroid Build Coastguard Worker            return v4
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(1, 3, 64, 64, device=device)
*da0073e9SAndroid Build Coastguard Worker        ref_result = ref(x)
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[kernel]):
*da0073e9SAndroid Build Coastguard Worker            sdp_math = torch.nn.functional.scaled_dot_product_attention(x, x, x, scale=-1.0 / 0.0001)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(ref_result, sdp_math)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass TestSDPACudaOnly(NNTestCase):
*da0073e9SAndroid Build Coastguard Worker    """ Used to test CUDA only functionality of scaled_dot_product_attention
*da0073e9SAndroid Build Coastguard Worker    Quarks:
*da0073e9SAndroid Build Coastguard Worker        There is some trickiness with this function. Its runtime behavior
*da0073e9SAndroid Build Coastguard Worker        is dependent on the CUDA architecture you are testing it on. See
*da0073e9SAndroid Build Coastguard Worker        `PLATFORM_SUPPORTS_FUSED_ATTENTION` at the top of the file.
*da0073e9SAndroid Build Coastguard Worker        Summary:
*da0073e9SAndroid Build Coastguard Worker            Math: always supported
*da0073e9SAndroid Build Coastguard Worker            FlashAttention: Supported on sm80 or newer hardware
*da0073e9SAndroid Build Coastguard Worker            MemEfficientAttention: Supported on sm50 or newer hardware
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    _do_cuda_memory_leak_check = True
*da0073e9SAndroid Build Coastguard Worker    _do_cuda_non_default_stream = True
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # TODO USED FOR TESTING THE SCORES, e.g. testing ALIBI we don't need this now
*da0073e9SAndroid Build Coastguard Worker    def normalize_flash_attn_S(
*da0073e9SAndroid Build Coastguard Worker        self,
*da0073e9SAndroid Build Coastguard Worker        attn_unnorm,
*da0073e9SAndroid Build Coastguard Worker        q,
*da0073e9SAndroid Build Coastguard Worker        k,
*da0073e9SAndroid Build Coastguard Worker        v,
*da0073e9SAndroid Build Coastguard Worker        query_padding_mask=None,
*da0073e9SAndroid Build Coastguard Worker        key_padding_mask=None,
*da0073e9SAndroid Build Coastguard Worker        attn_bias=None,
*da0073e9SAndroid Build Coastguard Worker        is_dropout=False,
*da0073e9SAndroid Build Coastguard Worker        causal=False,
*da0073e9SAndroid Build Coastguard Worker        window_size=(-1, -1),  # -1 means infinite window size
*da0073e9SAndroid Build Coastguard Worker        scale=None,
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        Arguments:
*da0073e9SAndroid Build Coastguard Worker            q: (batch_size, seqlen_q, nheads, head_dim)
*da0073e9SAndroid Build Coastguard Worker            k, v: (batch_size, seqlen_k, nheads, head_dim)
*da0073e9SAndroid Build Coastguard Worker            key_padding_mask: (batch_size, seqlen_q)
*da0073e9SAndroid Build Coastguard Worker            attn_bias: broadcastable to (batch_size, nheads, seqlen_q, seqlen_k)
*da0073e9SAndroid Build Coastguard Worker        Output:
*da0073e9SAndroid Build Coastguard Worker            softmax_lse: (batch_size, nheads, seqlen_q)
*da0073e9SAndroid Build Coastguard Worker            softmax_max: (batch_size, nheads, seqlen_q)
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        q = q.transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        k = k.transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        v = v.transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        if causal:
*da0073e9SAndroid Build Coastguard Worker            window_size = (window_size[0], 0)
*da0073e9SAndroid Build Coastguard Worker        q, k, v = q.float(), k.float(), v.float()
*da0073e9SAndroid Build Coastguard Worker        _, seqlen_q, _, head_dim = q.shape
*da0073e9SAndroid Build Coastguard Worker        seqlen_k = k.shape[1]
*da0073e9SAndroid Build Coastguard Worker        b = q.shape[0]
*da0073e9SAndroid Build Coastguard Worker        from torch.nn.attention.bias import _calculate_scale
*da0073e9SAndroid Build Coastguard Worker        scale = _calculate_scale(head_dim, scale)
*da0073e9SAndroid Build Coastguard Worker        scores = torch.matmul(q.transpose(1, 2) * scale, k.permute(0, 2, 3, 1))
*da0073e9SAndroid Build Coastguard Worker        if key_padding_mask is not None:
*da0073e9SAndroid Build Coastguard Worker            scores.masked_fill_(~key_padding_mask.view(b, 1, 1, -1), float("-inf"))
*da0073e9SAndroid Build Coastguard Worker        if window_size[0] >= 0 or window_size[1] >= 0:
*da0073e9SAndroid Build Coastguard Worker            local_mask = self.construct_local_mask(
*da0073e9SAndroid Build Coastguard Worker                seqlen_q,
*da0073e9SAndroid Build Coastguard Worker                seqlen_k,
*da0073e9SAndroid Build Coastguard Worker                window_size,
*da0073e9SAndroid Build Coastguard Worker                query_padding_mask,
*da0073e9SAndroid Build Coastguard Worker                key_padding_mask,
*da0073e9SAndroid Build Coastguard Worker                q.device,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            scores.masked_fill_(local_mask, float("-inf"))
*da0073e9SAndroid Build Coastguard Worker        if attn_bias is not None:
*da0073e9SAndroid Build Coastguard Worker            scores = scores + attn_bias.to(dtype=scores.dtype)
*da0073e9SAndroid Build Coastguard Worker        block_size_n = _get_block_size_n(scores.device, head_dim, is_dropout, causal)
*da0073e9SAndroid Build Coastguard Worker        scores_block = scores.split(block_size_n, dim=-1)
*da0073e9SAndroid Build Coastguard Worker        lse_block = torch.stack([torch.logsumexp(s, dim=-1) for s in scores_block], dim=-1)
*da0073e9SAndroid Build Coastguard Worker        lse = torch.logsumexp(lse_block, dim=-1)
*da0073e9SAndroid Build Coastguard Worker        # lse could be -inf (i.e. all values in scores are -inf), and we want to set those to inf
*da0073e9SAndroid Build Coastguard Worker        # so that when we do torch.exp(m - lse), we get 0.0 instead of NaN.
*da0073e9SAndroid Build Coastguard Worker        lse[lse == float("-inf")] = float("inf")
*da0073e9SAndroid Build Coastguard Worker        scores_max_block = torch.stack([torch.amax(s, dim=-1) for s in scores_block], dim=-1)
*da0073e9SAndroid Build Coastguard Worker        cummax_block = torch.cummax(scores_max_block.flip(-1), dim=-1).values.flip(-1).unbind(dim=-1)
*da0073e9SAndroid Build Coastguard Worker        attn_unnorm_block = attn_unnorm.split(block_size_n, dim=-1)
*da0073e9SAndroid Build Coastguard Worker        attn_norm = torch.cat(
*da0073e9SAndroid Build Coastguard Worker            [
*da0073e9SAndroid Build Coastguard Worker                a * (torch.exp(m - lse)).unsqueeze(-1)
*da0073e9SAndroid Build Coastguard Worker                for a, m in zip(attn_unnorm_block, cummax_block)
*da0073e9SAndroid Build Coastguard Worker            ],
*da0073e9SAndroid Build Coastguard Worker            dim=-1,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        if query_padding_mask is not None:
*da0073e9SAndroid Build Coastguard Worker            attn_norm.masked_fill_(~query_padding_mask.view(b, 1, -1, 1), 0.0)
*da0073e9SAndroid Build Coastguard Worker            # attn_norm.masked_fill_(rearrange(~query_padding_mask, "b s -> b 1 s 1"), 0.0)
*da0073e9SAndroid Build Coastguard Worker        return attn_norm.to(dtype=attn_unnorm.dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def construct_local_mask(self, seqlen_q, seqlen_k, window_size, query_padding_mask, key_padding_mask, device):
*da0073e9SAndroid Build Coastguard Worker        # row_idx = rearrange(torch.arange(seqlen_q, device=device, dtype=torch.long), "s -> s 1")
*da0073e9SAndroid Build Coastguard Worker        row_idx = torch.arange(seqlen_q, device=device, dtype=torch.long).view(-1, 1)
*da0073e9SAndroid Build Coastguard Worker        col_idx = torch.arange(seqlen_k, device=device, dtype=torch.long)
*da0073e9SAndroid Build Coastguard Worker        sk = (
*da0073e9SAndroid Build Coastguard Worker            seqlen_k
*da0073e9SAndroid Build Coastguard Worker            if key_padding_mask is None
*da0073e9SAndroid Build Coastguard Worker            else key_padding_mask.sum(-1).view(-1, 1, 1, 1)
*da0073e9SAndroid Build Coastguard Worker            # else rearrange(key_padding_mask.sum(-1), "b -> b 1 1 1")
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        sq = (
*da0073e9SAndroid Build Coastguard Worker            seqlen_q
*da0073e9SAndroid Build Coastguard Worker            if query_padding_mask is None
*da0073e9SAndroid Build Coastguard Worker            else query_padding_mask.sum(-1).view(-1, 1, 1, 1)
*da0073e9SAndroid Build Coastguard Worker            # else rearrange(query_padding_mask.sum(-1), "b -> b 1 1 1")
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        if window_size[0] < 0:
*da0073e9SAndroid Build Coastguard Worker            return col_idx > row_idx + sk - sq + window_size[1]
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            sk = torch.full_like(col_idx, seqlen_k) if key_padding_mask is None else sk
*da0073e9SAndroid Build Coastguard Worker            return torch.logical_or(
*da0073e9SAndroid Build Coastguard Worker                col_idx > torch.minimum(row_idx + sk - sq + window_size[1], sk),
*da0073e9SAndroid Build Coastguard Worker                col_idx < row_idx + sk - sq - window_size[0],
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def convert_flash_attn_S_to_softmax(
*da0073e9SAndroid Build Coastguard Worker        self,
*da0073e9SAndroid Build Coastguard Worker        S,
*da0073e9SAndroid Build Coastguard Worker        seqlen_q,
*da0073e9SAndroid Build Coastguard Worker        seqlen_k,
*da0073e9SAndroid Build Coastguard Worker        query_padding_mask,
*da0073e9SAndroid Build Coastguard Worker        key_padding_mask,
*da0073e9SAndroid Build Coastguard Worker        causal=False,
*da0073e9SAndroid Build Coastguard Worker        window_size=(-1, -1),  # -1 means infinite window size
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        """FlashAttention stores the S matrix in a different way.
*da0073e9SAndroid Build Coastguard Worker        Arguments:
*da0073e9SAndroid Build Coastguard Worker            S: (batch_size, nheads, seqlen_q, seqlen_k)
*da0073e9SAndroid Build Coastguard Worker            query_padding_mask: (batch_size, seqlen_q)
*da0073e9SAndroid Build Coastguard Worker            key_padding_mask: (batch_size, seqlen_k)
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        if TEST_WITH_ROCM:
*da0073e9SAndroid Build Coastguard Worker            return S
*da0073e9SAndroid Build Coastguard Worker        b = S.shape[0]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if causal:
*da0073e9SAndroid Build Coastguard Worker            window_size = (window_size[0], 0)
*da0073e9SAndroid Build Coastguard Worker        seqlen_q_rounded, seqlen_k_rounded = S.shape[-2:]
*da0073e9SAndroid Build Coastguard Worker        S_converted = S
*da0073e9SAndroid Build Coastguard Worker        if window_size[0] >= 0 or window_size[1] >= 0:
*da0073e9SAndroid Build Coastguard Worker            local_mask = self.construct_local_mask(
*da0073e9SAndroid Build Coastguard Worker                seqlen_q,
*da0073e9SAndroid Build Coastguard Worker                seqlen_k,
*da0073e9SAndroid Build Coastguard Worker                window_size,
*da0073e9SAndroid Build Coastguard Worker                query_padding_mask,
*da0073e9SAndroid Build Coastguard Worker                key_padding_mask,
*da0073e9SAndroid Build Coastguard Worker                S.device,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            local_mask = F.pad(
*da0073e9SAndroid Build Coastguard Worker                local_mask,
*da0073e9SAndroid Build Coastguard Worker                (0, seqlen_k_rounded - seqlen_k, 0, seqlen_q_rounded - seqlen_q),
*da0073e9SAndroid Build Coastguard Worker                value=True,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            S_converted = S_converted.masked_fill(local_mask, 0.0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Need to zero out things not in attention_mask in case S was initialized with random values
*da0073e9SAndroid Build Coastguard Worker        # and some of those values aren't overwritten.
*da0073e9SAndroid Build Coastguard Worker        seqlen_q_og = (
*da0073e9SAndroid Build Coastguard Worker            query_padding_mask.shape[-1] if query_padding_mask is not None else seqlen_q_rounded
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        if query_padding_mask is not None:
*da0073e9SAndroid Build Coastguard Worker            query_padding_mask = F.pad(query_padding_mask, (0, seqlen_q_rounded - seqlen_q_og))
*da0073e9SAndroid Build Coastguard Worker            # S_converted = S_converted.masked_fill(rearrange(~query_padding_mask, "b s -> b 1 s 1"), 0.0)
*da0073e9SAndroid Build Coastguard Worker            S_converted = S_converted.masked_fill(~query_padding_mask.view(b, 1, -1, 1), 0.0)
*da0073e9SAndroid Build Coastguard Worker        seqlen_k_og = key_padding_mask.shape[-1] if key_padding_mask is not None else seqlen_k
*da0073e9SAndroid Build Coastguard Worker        if key_padding_mask is not None:
*da0073e9SAndroid Build Coastguard Worker            key_padding_mask = F.pad(key_padding_mask, (0, seqlen_k_rounded - seqlen_k_og))
*da0073e9SAndroid Build Coastguard Worker            S_converted = S_converted.masked_fill(~key_padding_mask.view(b, 1, 1, -1), 0.0)
*da0073e9SAndroid Build Coastguard Worker            # S_converted = S_converted.masked_fill(rearrange(~key_padding_mask, "b s -> b 1 1 s"), 0.0)
*da0073e9SAndroid Build Coastguard Worker        S_converted = F.pad(S_converted, (0, 0, 0, seqlen_q_og - seqlen_q_rounded))
*da0073e9SAndroid Build Coastguard Worker        S_converted = F.pad(S_converted, (0, seqlen_k_og - seqlen_k_rounded))
*da0073e9SAndroid Build Coastguard Worker        return S_converted[:, :, :seqlen_q, :seqlen_k]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skipIfRocm  # No cuDNN Attention
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_CUDNN_ATTENTION, "cuDNN Attention is not supported on this system")
*da0073e9SAndroid Build Coastguard Worker    def test_cudnn_attention_different_dk_dv(self, device):
*da0073e9SAndroid Build Coastguard Worker        dtype = torch.bfloat16
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(torch.rand, device=device, dtype=dtype, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        batch, num_heads, head_dim_k, head_dim_v = 32, 16, 128, 64
*da0073e9SAndroid Build Coastguard Worker        seq_len = 640
*da0073e9SAndroid Build Coastguard Worker        q_shape = SdpaShape(batch, num_heads, seq_len, head_dim_k)
*da0073e9SAndroid Build Coastguard Worker        k_shape = SdpaShape(batch, num_heads, seq_len, head_dim_k)
*da0073e9SAndroid Build Coastguard Worker        v_shape = SdpaShape(batch, num_heads, seq_len, head_dim_v)
*da0073e9SAndroid Build Coastguard Worker        query, key, value = make_tensor(q_shape), make_tensor(k_shape), make_tensor(v_shape)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.CUDNN_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            actual = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                query, key, value, attn_mask=None, dropout_p=0.0, is_causal=False)
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.MATH]):
*da0073e9SAndroid Build Coastguard Worker            math_ref = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                query.contiguous().to(torch.float32),
*da0073e9SAndroid Build Coastguard Worker                key.contiguous().to(torch.float32),
*da0073e9SAndroid Build Coastguard Worker                value.contiguous().to(torch.float32),
*da0073e9SAndroid Build Coastguard Worker                attn_mask=None, dropout_p=0.0, is_causal=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(actual.contiguous(), math_ref.contiguous().to(dtype), atol=1e-3, rtol=1e-2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_MEM_EFF_ATTENTION, "Fused SDPA was not built for this system")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("mask_dim", [1, 2, 3, 4])
*da0073e9SAndroid Build Coastguard Worker    def test_mem_efficient_attention_mask_variants(self, device, mask_dim: List[int]):
*da0073e9SAndroid Build Coastguard Worker        dtype = torch.float16
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(torch.rand, device=device, dtype=dtype, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        batch, num_heads, head_dim = 8, 8, 64
*da0073e9SAndroid Build Coastguard Worker        seq_len_q, seq_len_kv = 64, 32
*da0073e9SAndroid Build Coastguard Worker        query = make_tensor(SdpaShape(batch, num_heads, seq_len_q, head_dim))
*da0073e9SAndroid Build Coastguard Worker        kv_shape = SdpaShape(batch, num_heads, seq_len_kv, head_dim)
*da0073e9SAndroid Build Coastguard Worker        key, value = make_tensor(kv_shape), make_tensor(kv_shape)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if mask_dim == 1:
*da0073e9SAndroid Build Coastguard Worker            mask = torch.randn((seq_len_kv,), device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        elif mask_dim == 2:
*da0073e9SAndroid Build Coastguard Worker            mask = torch.randn((seq_len_q, seq_len_kv), device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        elif mask_dim == 3:
*da0073e9SAndroid Build Coastguard Worker            mask = torch.randn((num_heads, seq_len_q, seq_len_kv), device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        elif mask_dim == 4:
*da0073e9SAndroid Build Coastguard Worker            mask = torch.randn((batch, num_heads, seq_len_q, seq_len_kv), device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.EFFICIENT_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            out = F.scaled_dot_product_attention(query, key, value, mask)
*da0073e9SAndroid Build Coastguard Worker        out.sum().backward()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_MEM_EFF_ATTENTION, "Fused SDPA was not built for this system")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("dtype", [torch.float, torch.float16])
*da0073e9SAndroid Build Coastguard Worker    def test_mem_eff_attention_pad_mask(self, device, dtype):
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(torch.rand, device=device, dtype=dtype, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        batch, num_heads, head_dim = 8, 8, 64
*da0073e9SAndroid Build Coastguard Worker        seq_len_q, seq_len_kv = 64, 15
*da0073e9SAndroid Build Coastguard Worker        query = make_tensor(SdpaShape(batch, num_heads, seq_len_q, head_dim))
*da0073e9SAndroid Build Coastguard Worker        kv_shape = SdpaShape(batch, num_heads, seq_len_kv, head_dim)
*da0073e9SAndroid Build Coastguard Worker        key, value = make_tensor(kv_shape), make_tensor(kv_shape)
*da0073e9SAndroid Build Coastguard Worker        mask = torch.randn((batch, num_heads, seq_len_q, seq_len_kv), device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.EFFICIENT_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            out = F.scaled_dot_product_attention(query, key, value, mask)
*da0073e9SAndroid Build Coastguard Worker        out.sum().backward()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_MEM_EFF_ATTENTION, "Fused SDPA was not built for this system")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("dtype", [torch.float, torch.float16])
*da0073e9SAndroid Build Coastguard Worker    def test_mem_eff_attention_non_contiguous_mask(self, device, dtype):
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(torch.rand, device=device, dtype=dtype, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        batch, num_heads, head_dim = 8, 8, 64
*da0073e9SAndroid Build Coastguard Worker        seq_len_q, seq_len_kv = 64, 16
*da0073e9SAndroid Build Coastguard Worker        query = make_tensor(SdpaShape(batch, num_heads, seq_len_q, head_dim))
*da0073e9SAndroid Build Coastguard Worker        kv_shape = SdpaShape(batch, num_heads, seq_len_kv, head_dim)
*da0073e9SAndroid Build Coastguard Worker        key, value = make_tensor(kv_shape), make_tensor(kv_shape)
*da0073e9SAndroid Build Coastguard Worker        mask = torch.randn((batch, num_heads, seq_len_q, seq_len_kv), device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        mask = torch.as_strided(mask, (batch, num_heads, seq_len_q, seq_len_kv), (0, 0, 0, 1))
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.EFFICIENT_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            out = F.scaled_dot_product_attention(query, key, value, mask)
*da0073e9SAndroid Build Coastguard Worker        out.sum().backward()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_MEM_EFF_ATTENTION, "Fused SDPA was not built for this system")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("dtype", [torch.float, torch.float16])
*da0073e9SAndroid Build Coastguard Worker    def test_mem_eff_attention_long_sequence_mask(self, device, dtype):
*da0073e9SAndroid Build Coastguard Worker        if torch.cuda.get_device_properties('cuda').total_memory < 80 * 2**30:
*da0073e9SAndroid Build Coastguard Worker            unittest.skip("This test requires substatnial GPU memory.")
*da0073e9SAndroid Build Coastguard Worker            return
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(torch.rand, device=device, dtype=dtype, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        batch, num_heads, head_dim = 1, 32, 64
*da0073e9SAndroid Build Coastguard Worker        seq_len_q, seq_len_kv = 8192, 8192
*da0073e9SAndroid Build Coastguard Worker        query = make_tensor(SdpaShape(batch, num_heads, seq_len_q, head_dim))
*da0073e9SAndroid Build Coastguard Worker        kv_shape = SdpaShape(batch, num_heads, seq_len_kv, head_dim)
*da0073e9SAndroid Build Coastguard Worker        key, value = make_tensor(kv_shape), make_tensor(kv_shape)
*da0073e9SAndroid Build Coastguard Worker        mask = torch.randn((batch, num_heads, seq_len_q, seq_len_kv), device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.EFFICIENT_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            out = F.scaled_dot_product_attention(query, key, value, mask)
*da0073e9SAndroid Build Coastguard Worker        out.sum().backward()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_MEM_EFF_ATTENTION, "Fused SDPA was not built for this system")
*da0073e9SAndroid Build Coastguard Worker    def test_mem_eff_attention_non_contig_mask_bug(self, device):
*da0073e9SAndroid Build Coastguard Worker        # Without the fix this produces `AssertionError: assert 0.07352933287620544 < 1e-07`
*da0073e9SAndroid Build Coastguard Worker        # Shapes taken from repro
*da0073e9SAndroid Build Coastguard Worker        query_size = (3, 16, 1, 128)
*da0073e9SAndroid Build Coastguard Worker        query_strides = (2304, 128, 2048, 1)
*da0073e9SAndroid Build Coastguard Worker        key_size = (3, 16, 14, 128)
*da0073e9SAndroid Build Coastguard Worker        key_strides = (3584, 0, 256, 1)
*da0073e9SAndroid Build Coastguard Worker        value_size = (3, 16, 14, 128)
*da0073e9SAndroid Build Coastguard Worker        value_strides = (3584, 0, 256, 1)
*da0073e9SAndroid Build Coastguard Worker        attention_mask_size = (3, 1, 1, 14)
*da0073e9SAndroid Build Coastguard Worker        attn_mask_strides = (14, 14, 14, 1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Calculate the number of elements needed for each tensor
*da0073e9SAndroid Build Coastguard Worker        query_num_elements = max(size * stride for size, stride in zip(query_size, query_strides))
*da0073e9SAndroid Build Coastguard Worker        key_num_elements = max(size * stride for size, stride in zip(key_size, key_strides))
*da0073e9SAndroid Build Coastguard Worker        value_num_elements = max(size * stride for size, stride in zip(value_size, value_strides))
*da0073e9SAndroid Build Coastguard Worker        attention_mask_num_elements = max(size * stride for size, stride in zip(attention_mask_size, attn_mask_strides))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Create the tensors with the specified sizes and strides
*da0073e9SAndroid Build Coastguard Worker        query = torch.randn(query_num_elements, device=device).as_strided(query_size, query_strides)
*da0073e9SAndroid Build Coastguard Worker        key = torch.randn(key_num_elements, device=device).as_strided(key_size, key_strides)
*da0073e9SAndroid Build Coastguard Worker        value = torch.randn(value_num_elements, device=device).as_strided(value_size, value_strides)
*da0073e9SAndroid Build Coastguard Worker        bias = torch.randn(attention_mask_num_elements, device=device).as_strided(attention_mask_size, attn_mask_strides)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.EFFICIENT_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            out = F.scaled_dot_product_attention(query, key, value, bias)
*da0073e9SAndroid Build Coastguard Worker            out_contig = F.scaled_dot_product_attention(query, key, value, bias.contiguous())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        max_diff = (out - out_contig).abs().mean()
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(max_diff.item() < 1e-7)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FLASH_ATTENTION, "Fused SDPA was not built for this system")
*da0073e9SAndroid Build Coastguard Worker    def test_singelton_head_dim_stride_ne_1(self, device):
*da0073e9SAndroid Build Coastguard Worker        query = torch.tensor([[[[1, 2]]]], dtype=torch.float16, device=device)
*da0073e9SAndroid Build Coastguard Worker        query = query.transpose(-1, -2)
*da0073e9SAndroid Build Coastguard Worker        key = torch.tensor([[[[1]]]], dtype=torch.float16, device=device)
*da0073e9SAndroid Build Coastguard Worker        value = torch.tensor([[[[1]]]], dtype=torch.float16, device=device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with torch.backends.cuda.sdp_kernel(enable_math=False, enable_flash=True, enable_mem_efficient=False):
*da0073e9SAndroid Build Coastguard Worker            scaled_dot_product_attention(query, key, value)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_MEM_EFF_ATTENTION, "Fused SDPA was not built for this system")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("type", ["dense", "nested"])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("is_contiguous", [True, False])
*da0073e9SAndroid Build Coastguard Worker    def test_scaled_dot_product_attention_fused_kernels_packed(self, device, type: str, is_contiguous: bool):
*da0073e9SAndroid Build Coastguard Worker        if TEST_WITH_ROCM and type == 'nested':
*da0073e9SAndroid Build Coastguard Worker            self.skipTest("ROCM does not support efficient attention on nested tensors, for now")
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(rand_sdpa_tensor, type=type, device=device, dtype=torch.float16, packed=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        batch_size, seq_len, num_heads, head_dim = 32, 64, 16, 64
*da0073e9SAndroid Build Coastguard Worker        shape = SdpaShape(batch_size, num_heads, seq_len, head_dim)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Test Packed
*da0073e9SAndroid Build Coastguard Worker        qkv = make_tensor(shape)
*da0073e9SAndroid Build Coastguard Worker        query, key, value = qkv.chunk(3, dim=-1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query = query.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        value = value.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        key = key.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if is_contiguous:
*da0073e9SAndroid Build Coastguard Worker            query = query.contiguous()
*da0073e9SAndroid Build Coastguard Worker            key = key.contiguous()
*da0073e9SAndroid Build Coastguard Worker            value = value.contiguous()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.EFFICIENT_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            actual = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                query, key, value, attn_mask=None, dropout_p=0.0, is_causal=False)
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.MATH]):
*da0073e9SAndroid Build Coastguard Worker            math_ref = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                query.contiguous(), key.contiguous(), value.contiguous(),
*da0073e9SAndroid Build Coastguard Worker                attn_mask=None, dropout_p=0.0, is_causal=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(actual.contiguous(), math_ref.contiguous(), atol=2e-3, rtol=1e-2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skipIfRocm  # Missing nested and EFFICIENT_ATTENTION
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FUSED_ATTENTION, "Fused SDPA was not built for this system")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("type", ["dense", "nested"])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("fused_kernel", [SDPBackend.FLASH_ATTENTION, SDPBackend.EFFICIENT_ATTENTION] if
*da0073e9SAndroid Build Coastguard Worker                 PLATFORM_SUPPORTS_FLASH_ATTENTION else [SDPBackend.EFFICIENT_ATTENTION])
*da0073e9SAndroid Build Coastguard Worker    def test_scaled_dot_product_attention_fused_kernels_packed_accuracy(self, device, type: str, fused_kernel: str):
*da0073e9SAndroid Build Coastguard Worker        def rand_nt(shape):
*da0073e9SAndroid Build Coastguard Worker            batch, seq_len, num_heads, head_dim = shape
*da0073e9SAndroid Build Coastguard Worker            tensors = [6 * torch.rand((seq_len, 3 * num_heads * head_dim), device=device, dtype=torch.float32) - 3
*da0073e9SAndroid Build Coastguard Worker                       for _ in range(batch)]
*da0073e9SAndroid Build Coastguard Worker            return (torch.nested.nested_tensor(tensors, device=device, dtype=torch.float32),
*da0073e9SAndroid Build Coastguard Worker                    torch.nested.nested_tensor(tensors, device=device, dtype=torch.float16))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def rand_tensor(shape):
*da0073e9SAndroid Build Coastguard Worker            batch, seq_len, num_heads, head_dim = shape
*da0073e9SAndroid Build Coastguard Worker            tensor = 6 * torch.rand((batch, seq_len, 3 * num_heads * head_dim), device=device, dtype=torch.float32) - 3
*da0073e9SAndroid Build Coastguard Worker            return tensor, tensor.to(dtype=torch.float16)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        batch_size, seq_len, num_heads, head_dim = 16, 8, 4, 64
*da0073e9SAndroid Build Coastguard Worker        shape = (batch_size, seq_len, num_heads, head_dim)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Test Packed
*da0073e9SAndroid Build Coastguard Worker        qkv, qkv_low_precision = rand_tensor(shape) if type == "dense" else rand_nt(shape)
*da0073e9SAndroid Build Coastguard Worker        query, key, value = qkv.chunk(3, dim=-1)
*da0073e9SAndroid Build Coastguard Worker        query_lp, key_lp, value_lp = qkv_low_precision.chunk(3, dim=-1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query = query.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        key = key.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        value = value.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query_lp = query_lp.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        key_lp = key_lp.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        value_lp = value_lp.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[fused_kernel]):
*da0073e9SAndroid Build Coastguard Worker            actual = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                query_lp, key_lp, value_lp, attn_mask=None, dropout_p=0.0, is_causal=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.MATH]):
*da0073e9SAndroid Build Coastguard Worker            math_ref_lp = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                query_lp.contiguous(), key_lp.contiguous(), value_lp.contiguous(),
*da0073e9SAndroid Build Coastguard Worker                attn_mask=None, dropout_p=0.0, is_causal=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            math_query = query.contiguous()
*da0073e9SAndroid Build Coastguard Worker            math_key = key.contiguous()
*da0073e9SAndroid Build Coastguard Worker            math_value = value.contiguous()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            math_ref = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                math_query, math_key, math_value, attn_mask=None, dropout_p=0.0, is_causal=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        actual_test = actual
*da0073e9SAndroid Build Coastguard Worker        math_ref_test = math_ref
*da0073e9SAndroid Build Coastguard Worker        math_ref_lp_test = math_ref_lp
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if actual_test.is_nested:
*da0073e9SAndroid Build Coastguard Worker            actual_test = torch.nested.to_padded_tensor(actual_test.contiguous(), padding=0.0)
*da0073e9SAndroid Build Coastguard Worker            math_ref_test = torch.nested.to_padded_tensor(math_ref_test, padding=0.0)
*da0073e9SAndroid Build Coastguard Worker            math_ref_lp_test = torch.nested.to_padded_tensor(math_ref_lp_test, padding=0.0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        actual_test = actual_test.to(dtype=torch.float32).contiguous()
*da0073e9SAndroid Build Coastguard Worker        math_ref_test = math_ref_test.to(dtype=torch.float32).contiguous()
*da0073e9SAndroid Build Coastguard Worker        math_ref_lp_test = math_ref_lp_test.to(dtype=torch.float32).contiguous()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(math_ref_test, math_ref_lp_test, atol=7e-3, rtol=7e-3)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(actual_test, math_ref_test, atol=5e-3, rtol=5e-3)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_MEM_EFF_ATTENTION, "Efficient Attention was not built for this system")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("contiguous_inputs", [True, False])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("is_causal", [True, False])
*da0073e9SAndroid Build Coastguard Worker    def test_sdp_mem_efficient_grad_against_math(self, device, contiguous_inputs: bool, is_causal: bool):
*da0073e9SAndroid Build Coastguard Worker        batch_size, seq_len, num_heads, head_dim = 4, 4, 2, 16
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(rand_sdpa_tensor, type="dense", device=device,
*da0073e9SAndroid Build Coastguard Worker                              dtype=torch.float64, requires_grad=True, packed=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        qkv = make_tensor(SdpaShape(batch_size, num_heads, seq_len, head_dim))
*da0073e9SAndroid Build Coastguard Worker        qkv_lp = qkv.detach().clone().to(torch.float32).requires_grad_()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query, key, value = qkv.chunk(3, dim=-1)
*da0073e9SAndroid Build Coastguard Worker        query_lp, key_lp, value_lp = qkv_lp.chunk(3, dim=-1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query = query.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        key = key.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        value = value.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query_lp = query_lp.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        key_lp = key_lp.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        value_lp = value_lp.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if contiguous_inputs:
*da0073e9SAndroid Build Coastguard Worker            query = query.contiguous()
*da0073e9SAndroid Build Coastguard Worker            key = key.contiguous()
*da0073e9SAndroid Build Coastguard Worker            value = value.contiguous()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            query_lp = query_lp.contiguous()
*da0073e9SAndroid Build Coastguard Worker            key_lp = key_lp.contiguous()
*da0073e9SAndroid Build Coastguard Worker            value_lp = value_lp.contiguous()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.MATH]):
*da0073e9SAndroid Build Coastguard Worker            out = torch.nn.functional.scaled_dot_product_attention(query, key, value, None, 0.0, is_causal)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.EFFICIENT_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            out_lp = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                query_lp, key_lp, value_lp, None, 0.0, is_causal)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        rand_upward = torch.rand_like(out)
*da0073e9SAndroid Build Coastguard Worker        rand_upward_lp = rand_upward.to(torch.float32)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        out.backward(rand_upward)
*da0073e9SAndroid Build Coastguard Worker        out_lp.backward(rand_upward_lp)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Cast up and compare
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(qkv.grad, qkv_lp.grad.to(torch.float64), atol=1e-5, rtol=1e-5)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FLASH_ATTENTION, "Flash Attention was not built for this system")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("contiguous_inputs", [True, False])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("is_causal", [True, False])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("dtype", [torch.float16, torch.bfloat16])
*da0073e9SAndroid Build Coastguard Worker    def test_sdp_flash_attention_grad_against_math(self, device, contiguous_inputs: bool, is_causal: bool, dtype: torch.dtype):
*da0073e9SAndroid Build Coastguard Worker        batch_size, seq_len, num_heads, head_dim = 4, 4, 2, 16
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(rand_sdpa_tensor, type="dense", device=device,
*da0073e9SAndroid Build Coastguard Worker                              dtype=torch.float64, requires_grad=True, packed=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        qkv = make_tensor(SdpaShape(batch_size, num_heads, seq_len, head_dim))
*da0073e9SAndroid Build Coastguard Worker        qkv_lp = qkv.detach().clone().to(dtype).requires_grad_()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query, key, value = qkv.chunk(3, dim=-1)
*da0073e9SAndroid Build Coastguard Worker        query_lp, key_lp, value_lp = qkv_lp.chunk(3, dim=-1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query = query.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        key = key.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        value = value.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query_lp = query_lp.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        key_lp = key_lp.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        value_lp = value_lp.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if contiguous_inputs:
*da0073e9SAndroid Build Coastguard Worker            query = query.contiguous()
*da0073e9SAndroid Build Coastguard Worker            key = key.contiguous()
*da0073e9SAndroid Build Coastguard Worker            value = value.contiguous()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            query_lp = query_lp.contiguous()
*da0073e9SAndroid Build Coastguard Worker            key_lp = key_lp.contiguous()
*da0073e9SAndroid Build Coastguard Worker            value_lp = value_lp.contiguous()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.MATH]):
*da0073e9SAndroid Build Coastguard Worker            out = torch.nn.functional.scaled_dot_product_attention(query, key, value, None, 0.0, is_causal)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.FLASH_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            out_lp = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                query_lp, key_lp, value_lp, None, 0.0, is_causal)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        rand_upward = torch.rand_like(out)
*da0073e9SAndroid Build Coastguard Worker        rand_upward_lp = rand_upward.to(dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        out.backward(rand_upward)
*da0073e9SAndroid Build Coastguard Worker        out_lp.backward(rand_upward_lp)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Cast up and compare
*da0073e9SAndroid Build Coastguard Worker        # Since we are doing the compute on fp16 we have to bump the tolerance
*da0073e9SAndroid Build Coastguard Worker        # Bump down the tolearnce for blfoat16
*da0073e9SAndroid Build Coastguard Worker        atol = 7e-4 if dtype == torch.float16 else 7e-3
*da0073e9SAndroid Build Coastguard Worker        rtol = 7e-4 if dtype == torch.float16 else 7e-3
*da0073e9SAndroid Build Coastguard Worker        if TEST_WITH_ROCM:
*da0073e9SAndroid Build Coastguard Worker            atol = 9e-4 if dtype == torch.float16 else 9e-3
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(qkv.grad, qkv_lp.grad.to(torch.float64), atol=atol, rtol=rtol)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skipIfRocm  # Missing nested and EFFICIENT_ATTENTION
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FUSED_ATTENTION, "Platform does not support fused SDPA")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("type", ["dense", "nested"])
*da0073e9SAndroid Build Coastguard Worker    def test_fused_sdp_choice(self, device, type: str):
*da0073e9SAndroid Build Coastguard Worker        batch_size, seq_len, num_heads, head_dim = 2, 128, 8, 64
*da0073e9SAndroid Build Coastguard Worker        shape = SdpaShape(batch_size, num_heads, seq_len, head_dim)
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(rand_sdpa_tensor, device=device, dtype=torch.float16, packed=True, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        qkv = make_tensor(shape, type=type)
*da0073e9SAndroid Build Coastguard Worker        query, key, value = qkv.chunk(3, dim=-1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query = query.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        value = value.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        key = key.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if PLATFORM_SUPPORTS_FLASH_ATTENTION:
*da0073e9SAndroid Build Coastguard Worker            assert torch._fused_sdp_choice(query, key, value) == SDPBackend.FLASH_ATTENTION.value
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            assert torch._fused_sdp_choice(query, key, value) == SDPBackend.EFFICIENT_ATTENTION.value
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Change dtype to float32 so that efficient attention should get chosen
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(rand_sdpa_tensor, device=device, dtype=torch.float32, packed=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        qkv = make_tensor(shape, type=type)
*da0073e9SAndroid Build Coastguard Worker        query, key, value = qkv.chunk(3, dim=-1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query = query.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        value = value.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        key = key.view(batch_size, -1, num_heads, head_dim).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        assert torch._fused_sdp_choice(query, key, value) == SDPBackend.EFFICIENT_ATTENTION.value
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skipIfRocm  # Missing triton.float32 ("triton" prefix is to locate skipped UTs), and deterministic algo
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_MEM_EFF_ATTENTION, "Platform does not support fused SDPA")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("warn_only", [True, False])
*da0073e9SAndroid Build Coastguard Worker    def test_sdp_choice_with_determinism(self, device, warn_only):
*da0073e9SAndroid Build Coastguard Worker        batch_size, seq_len, num_heads, head_dim = 1, 64, 8, 64
*da0073e9SAndroid Build Coastguard Worker        shape = SdpaShape(batch_size, num_heads, seq_len, head_dim)
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(rand_sdpa_tensor, type="dense", device=device, dtype=torch.float32, packed=False)
*da0073e9SAndroid Build Coastguard Worker        query, key, value = make_tensor(shape), make_tensor(shape), make_tensor(shape)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with use_deterministic_algorithims(True, warn_only=warn_only):
*da0073e9SAndroid Build Coastguard Worker            with sdpa_kernel(backends=[SDPBackend.EFFICIENT_ATTENTION, SDPBackend.MATH]):
*da0073e9SAndroid Build Coastguard Worker                assert torch._fused_sdp_choice(query, key, value) == SDPBackend.EFFICIENT_ATTENTION.value
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skipIfRocm  # Missing deterministic algo
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FUSED_ATTENTION, "Fused SDPA was not built for this system")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("fused_kernel", PLATFORM_SPECIFIC_SDPA)
*da0073e9SAndroid Build Coastguard Worker    @parametrize("warn_only", [True, False])
*da0073e9SAndroid Build Coastguard Worker    def test_fused_backwards_throws_determinism_warning(self, device, warn_only, fused_kernel):
*da0073e9SAndroid Build Coastguard Worker        batch_size, seq_len, num_heads, head_dim = 1, 64, 8, 64
*da0073e9SAndroid Build Coastguard Worker        shape = SdpaShape(batch_size, num_heads, seq_len, head_dim)
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(rand_sdpa_tensor, type="dense", device=device, dtype=torch.float16, packed=False, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        query, key, value = make_tensor(shape), make_tensor(shape), make_tensor(shape)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        kernel_name = "Memory Efficient attention" if fused_kernel == SDPBackend.EFFICIENT_ATTENTION else "Flash Attention"
*da0073e9SAndroid Build Coastguard Worker        warning_context = (
*da0073e9SAndroid Build Coastguard Worker            self.assertWarnsRegex(
*da0073e9SAndroid Build Coastguard Worker                UserWarning,
*da0073e9SAndroid Build Coastguard Worker                f"{kernel_name} defaults to a non-deterministic algorithm.",
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            if warn_only
*da0073e9SAndroid Build Coastguard Worker            else contextlib.nullcontext()
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        with use_deterministic_algorithims(True, warn_only=warn_only):
*da0073e9SAndroid Build Coastguard Worker            with sdpa_kernel(backends=[fused_kernel]):
*da0073e9SAndroid Build Coastguard Worker                with warning_context:
*da0073e9SAndroid Build Coastguard Worker                    torch.nn.functional.scaled_dot_product_attention(query, key, value).sum().backward()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skip("This test is not behaving deterministaclly non-deterministaclly on CI/CD")
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FLASH_ATTENTION, "Platform does not support fused SDPA")
*da0073e9SAndroid Build Coastguard Worker    def test_mem_eff_backwards_determinism(self, device):
*da0073e9SAndroid Build Coastguard Worker        # Need big seq_len to ensure that num_splits > 1
*da0073e9SAndroid Build Coastguard Worker        dtype = torch.float32
*da0073e9SAndroid Build Coastguard Worker        batch_size, seq_len, n_heads, head_dim = 1, 1024, 8, 64
*da0073e9SAndroid Build Coastguard Worker        query = torch.rand(batch_size, n_heads, seq_len, head_dim,
*da0073e9SAndroid Build Coastguard Worker                           device=device, dtype=dtype, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        key = torch.rand(batch_size, n_heads, seq_len, head_dim, device=device,
*da0073e9SAndroid Build Coastguard Worker                         dtype=dtype, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        value = torch.rand(batch_size, n_heads, seq_len, head_dim,
*da0073e9SAndroid Build Coastguard Worker                           device=device, dtype=dtype, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.EFFICIENT_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            # Run once to establish baseline
*da0073e9SAndroid Build Coastguard Worker            out = F.scaled_dot_product_attention(query, key, value)
*da0073e9SAndroid Build Coastguard Worker            upward_grad = torch.rand_like(out)
*da0073e9SAndroid Build Coastguard Worker            out.backward(upward_grad)
*da0073e9SAndroid Build Coastguard Worker            intial_query_grad = query.grad
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Re-run the op with the same upward grad and check that the backward is
*da0073e9SAndroid Build Coastguard Worker            # not deterministic
*da0073e9SAndroid Build Coastguard Worker            diff_anwser_once = False
*da0073e9SAndroid Build Coastguard Worker            for _ in range(100):
*da0073e9SAndroid Build Coastguard Worker                query.grad = None
*da0073e9SAndroid Build Coastguard Worker                out = F.scaled_dot_product_attention(query, key, value)
*da0073e9SAndroid Build Coastguard Worker                out.backward(upward_grad)
*da0073e9SAndroid Build Coastguard Worker                if not torch.equal(intial_query_grad, query.grad):
*da0073e9SAndroid Build Coastguard Worker                    diff_anwser_once = True
*da0073e9SAndroid Build Coastguard Worker                    break
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(diff_anwser_once)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with use_deterministic_algorithims(True, warn_only=False):
*da0073e9SAndroid Build Coastguard Worker            query.grad = None
*da0073e9SAndroid Build Coastguard Worker            out = F.scaled_dot_product_attention(query, key, value)
*da0073e9SAndroid Build Coastguard Worker            upward_grad = torch.rand_like(out)
*da0073e9SAndroid Build Coastguard Worker            out.backward(upward_grad)
*da0073e9SAndroid Build Coastguard Worker            intial_query_grad = query.grad
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Re-run the op with the same upward grad and check that the backward is
*da0073e9SAndroid Build Coastguard Worker            # deterministic now that we have enforced it
*da0073e9SAndroid Build Coastguard Worker            diff_anwser_once = False
*da0073e9SAndroid Build Coastguard Worker            for _ in range(100):
*da0073e9SAndroid Build Coastguard Worker                query.grad = None
*da0073e9SAndroid Build Coastguard Worker                out = F.scaled_dot_product_attention(query, key, value)
*da0073e9SAndroid Build Coastguard Worker                out.backward(upward_grad)
*da0073e9SAndroid Build Coastguard Worker                if not torch.equal(intial_query_grad, query.grad):
*da0073e9SAndroid Build Coastguard Worker                    diff_anwser_once = True
*da0073e9SAndroid Build Coastguard Worker                    break
*da0073e9SAndroid Build Coastguard Worker            self.assertFalse(diff_anwser_once)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # verified passing successfully on H100
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_MEM_EFF_ATTENTION, "Does not support SDPA")
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(IS_JETSON, "causing sigkill on Jetson")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("batch_size", [1, 8])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("seq_len_q", [4, 8, 64, 128, 256, 512, 1024, 2048] if MEM_EFF_CAPABILITY_MATCHES_SM80
*da0073e9SAndroid Build Coastguard Worker                 else [4, 8, 64, 128, 256, 512])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("seq_len_k", [4, 8, 64, 128, 256, 512, 1024, 2048] if MEM_EFF_CAPABILITY_MATCHES_SM80
*da0073e9SAndroid Build Coastguard Worker                 else [4, 8, 64, 128, 256, 512])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("head_dim", [8, 16, 32, 64, 72, 96, 128] if MEM_EFF_CAPABILITY_MATCHES_SM80
*da0073e9SAndroid Build Coastguard Worker                 else [8, 16, 32, 64])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("is_causal", [False, True])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("dropout_p", [0.0, 0.22])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("dtype", [torch.float16, torch.bfloat16, torch.float32] if MEM_EFF_CAPABILITY_MATCHES_SM80
*da0073e9SAndroid Build Coastguard Worker                 else [torch.float16, torch.float32])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("scale", [None, "l1"])
*da0073e9SAndroid Build Coastguard Worker    def test_mem_efficient_attention_vs_math_ref_grads(self, device, batch_size: int, seq_len_q: int, seq_len_k: int,
*da0073e9SAndroid Build Coastguard Worker                                                       head_dim: int, is_causal: bool, dropout_p: float, dtype: torch.dtype,
*da0073e9SAndroid Build Coastguard Worker                                                       scale: str):
*da0073e9SAndroid Build Coastguard Worker        def _get_mem_eff_drop_mask(batch_size, n_heads, q_len, kv_len, p, seed, offset, device=device):
*da0073e9SAndroid Build Coastguard Worker            mask = torch.empty((batch_size, n_heads, q_len, kv_len), device=device, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker            rand_uniform = torch._fill_mem_eff_dropout_mask_(mask, p, seed, offset)
*da0073e9SAndroid Build Coastguard Worker            mask = (rand_uniform > p).to(torch.float32)
*da0073e9SAndroid Build Coastguard Worker            return mask
*da0073e9SAndroid Build Coastguard Worker        if max(seq_len_q, seq_len_k) >= 2048 and torch.cuda.get_device_properties('cuda').total_memory < 40 * 2**30:
*da0073e9SAndroid Build Coastguard Worker            unittest.skip("Reference implementation OOM")
*da0073e9SAndroid Build Coastguard Worker            return
*da0073e9SAndroid Build Coastguard Worker        if TEST_WITH_ROCM and seq_len_q * seq_len_k * head_dim * batch_size > 1024 * 1024 * 128:
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.empty_cache()  # Prevent memory fragmentation
*da0073e9SAndroid Build Coastguard Worker        seed = 42
*da0073e9SAndroid Build Coastguard Worker        scale = scale if scale is None else (1 / head_dim)
*da0073e9SAndroid Build Coastguard Worker        n_heads = 4
*da0073e9SAndroid Build Coastguard Worker        query = torch.rand(batch_size, n_heads, seq_len_q, head_dim,
*da0073e9SAndroid Build Coastguard Worker                           device=device, dtype=dtype, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        key = torch.rand(batch_size, n_heads, seq_len_k, head_dim, device=device,
*da0073e9SAndroid Build Coastguard Worker                         dtype=dtype, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        value = torch.rand(batch_size, n_heads, seq_len_k, head_dim,
*da0073e9SAndroid Build Coastguard Worker                           device=device, dtype=dtype, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Run the math kernel on low precision references
*da0073e9SAndroid Build Coastguard Worker        query_ref_lp, key_ref_lp, value_ref_lp = query_key_value_clones(query, key, value, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        higher_precision_dtype = torch.float64 if dtype == torch.float32 else torch.float32
*da0073e9SAndroid Build Coastguard Worker        query_ref, key_ref, value_ref = query_key_value_clones(query, key, value, dtype=higher_precision_dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Create real output
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.EFFICIENT_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            # Set the seed and run the kernel
*da0073e9SAndroid Build Coastguard Worker            torch.manual_seed(seed)
*da0073e9SAndroid Build Coastguard Worker            out = F.scaled_dot_product_attention(query, key, value, dropout_p=dropout_p, is_causal=is_causal, scale=scale)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if dropout_p == 0.0:
*da0073e9SAndroid Build Coastguard Worker            with sdpa_kernel(backends=[SDPBackend.MATH]):
*da0073e9SAndroid Build Coastguard Worker                # High Precision Math Reference
*da0073e9SAndroid Build Coastguard Worker                out_ref = F.scaled_dot_product_attention(query_ref, key_ref, value_ref,
*da0073e9SAndroid Build Coastguard Worker                                                         dropout_p=dropout_p, is_causal=is_causal, scale=scale)
*da0073e9SAndroid Build Coastguard Worker                # Low Precision Math Reference
*da0073e9SAndroid Build Coastguard Worker                out_lp_ref = F.scaled_dot_product_attention(query_ref_lp, key_ref_lp, value_ref_lp,
*da0073e9SAndroid Build Coastguard Worker                                                            dropout_p=dropout_p, is_causal=is_causal, scale=scale)
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            if seq_len_q > 1024:
*da0073e9SAndroid Build Coastguard Worker                self.skipTest("Will call _fill_mem_eff_dropout_mask with too many threads!")
*da0073e9SAndroid Build Coastguard Worker            # Create the dropout_mask
*da0073e9SAndroid Build Coastguard Worker            torch.manual_seed(seed)
*da0073e9SAndroid Build Coastguard Worker            dropout_mask = _get_mem_eff_drop_mask(batch_size, n_heads, seq_len_q, seq_len_k, dropout_p, seed, 0, device=device)
*da0073e9SAndroid Build Coastguard Worker            # High Precision Math Reference
*da0073e9SAndroid Build Coastguard Worker            out_ref = torch.ops.aten._scaled_dot_product_attention_math(
*da0073e9SAndroid Build Coastguard Worker                query_ref, key_ref, value_ref, dropout_p=dropout_p, is_causal=is_causal, scale=scale, dropout_mask=dropout_mask)[0]
*da0073e9SAndroid Build Coastguard Worker            # Low Precision Math Reference
*da0073e9SAndroid Build Coastguard Worker            out_lp_ref = torch.ops.aten._scaled_dot_product_attention_math(
*da0073e9SAndroid Build Coastguard Worker                query_ref_lp, key_ref_lp, value_ref_lp, dropout_p=dropout_p, is_causal=is_causal, scale=scale,
*da0073e9SAndroid Build Coastguard Worker                dropout_mask=dropout_mask)[0]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        upstream_grad = torch.rand_like(out, requires_grad=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        out.backward(upstream_grad)
*da0073e9SAndroid Build Coastguard Worker        out_ref.backward(upstream_grad.to(out_ref.dtype))
*da0073e9SAndroid Build Coastguard Worker        out_lp_ref.backward(upstream_grad.to(out_lp_ref.dtype))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # [Note] Fused Tolerances
*da0073e9SAndroid Build Coastguard Worker        # Establish the numerical error between the "true" high precision math output
*da0073e9SAndroid Build Coastguard Worker        # and the low precision math reference. We use this reference for the atol
*da0073e9SAndroid Build Coastguard Worker        # And we use the default rtol for the low precision type.
*da0073e9SAndroid Build Coastguard Worker        # We then provide a fudge factor for gradients respectively to account
*da0073e9SAndroid Build Coastguard Worker        # for the use of the fused kernel rather than the eager implemntation.
*da0073e9SAndroid Build Coastguard Worker        output_ref_atol, output_ref_rtol = get_tolerances(out_ref, out_lp_ref)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Fudge Factor when dropout is enabled
*da0073e9SAndroid Build Coastguard Worker        dropout_fudge_factor = 1.0 if dropout_p == 0.0 else 2.0
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query_fudge_factor = dropout_fudge_factor
*da0073e9SAndroid Build Coastguard Worker        grad_q_ref_atol, grad_q_ref_rtol = get_tolerances(query_ref.grad, query_ref_lp.grad, query_fudge_factor)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # TODO: Investigate why grad_k needs larger tolerances
*da0073e9SAndroid Build Coastguard Worker        key_fudge_factor = 8 * dropout_fudge_factor
*da0073e9SAndroid Build Coastguard Worker        grad_k_ref_atol, grad_k_ref_rtol = get_tolerances(key_ref.grad, key_ref_lp.grad, key_fudge_factor)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        value_fudge_factor = 7 if not SM80OrLater and dtype == torch.float16 else 1.0
*da0073e9SAndroid Build Coastguard Worker        if TEST_WITH_ROCM:
*da0073e9SAndroid Build Coastguard Worker            value_fudge_factor = max(2.0, value_fudge_factor)
*da0073e9SAndroid Build Coastguard Worker        grad_v_ref_atol, grad_v_ref_rtol = get_tolerances(value_ref.grad, value_ref_lp.grad, value_fudge_factor)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(out, out_ref.to(out.dtype), atol=output_ref_atol, rtol=output_ref_rtol)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(query.grad, query_ref.grad.to(query.grad.dtype),
*da0073e9SAndroid Build Coastguard Worker                         atol=grad_q_ref_atol, rtol=grad_q_ref_rtol)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(key.grad, key_ref.grad.to(key.grad.dtype),
*da0073e9SAndroid Build Coastguard Worker                         atol=grad_k_ref_atol, rtol=grad_k_ref_rtol)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(value.grad, value_ref.grad.to(value.grad.dtype),
*da0073e9SAndroid Build Coastguard Worker                         atol=grad_v_ref_atol, rtol=grad_v_ref_rtol)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_MEM_EFF_ATTENTION, "Does not support SDPA")
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(IS_JETSON, "causing sigkill on Jetson")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("batch_size", [1, 8])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("seq_len_q", [4, 8, 64, 128, 256, 312, 512, 1024, 2048] if MEM_EFF_CAPABILITY_MATCHES_SM80
*da0073e9SAndroid Build Coastguard Worker                 else [4, 8, 64, 128, 152, 256, 512])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("seq_len_k", [4, 8, 64, 65, 128, 256, 408, 512, 1024, 2048] if MEM_EFF_CAPABILITY_MATCHES_SM80
*da0073e9SAndroid Build Coastguard Worker                 else [4, 8, 37, 64, 128, 256, 512])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("head_dim", [8, 16, 32, 64, 72, 96, 128] if MEM_EFF_CAPABILITY_MATCHES_SM80
*da0073e9SAndroid Build Coastguard Worker                 else [8, 16, 32, 64])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("is_causal", [False])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("dropout_p", [0.0, 0.22])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("dtype", [torch.float16, torch.bfloat16, torch.float32] if MEM_EFF_CAPABILITY_MATCHES_SM80
*da0073e9SAndroid Build Coastguard Worker                 else [torch.float16, torch.float32])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("scale", [None, "l1"])
*da0073e9SAndroid Build Coastguard Worker    def test_mem_efficient_attention_attn_mask_vs_math_ref_grads(self, device, batch_size: int, seq_len_q: int,
*da0073e9SAndroid Build Coastguard Worker                                                                 seq_len_k: int, head_dim: int, is_causal: bool,
*da0073e9SAndroid Build Coastguard Worker                                                                 dropout_p: float, dtype: torch.dtype,
*da0073e9SAndroid Build Coastguard Worker                                                                 scale: str):
*da0073e9SAndroid Build Coastguard Worker        def _get_mem_eff_drop_mask(batch_size, n_heads, q_len, kv_len, p, seed, offset, device=device):
*da0073e9SAndroid Build Coastguard Worker            mask = torch.empty((batch_size, n_heads, q_len, kv_len), device=device, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker            rand_uniform = torch._fill_mem_eff_dropout_mask_(mask, p, seed, offset)
*da0073e9SAndroid Build Coastguard Worker            mask = (rand_uniform > p).to(torch.float32)
*da0073e9SAndroid Build Coastguard Worker            return mask
*da0073e9SAndroid Build Coastguard Worker        if max(seq_len_q, seq_len_k) >= 2048 and torch.cuda.get_device_properties('cuda').total_memory < 40 * 2**30:
*da0073e9SAndroid Build Coastguard Worker            unittest.skip("Reference implementation OOM")
*da0073e9SAndroid Build Coastguard Worker            return
*da0073e9SAndroid Build Coastguard Worker        if TEST_WITH_ROCM and dtype == torch.float32:
*da0073e9SAndroid Build Coastguard Worker            unittest.skip("Skip fp32 attn_mask gradients on ROCM, for now.")
*da0073e9SAndroid Build Coastguard Worker            return
*da0073e9SAndroid Build Coastguard Worker        if TEST_WITH_ROCM and seq_len_q * seq_len_k * head_dim * batch_size > 1024 * 1024 * 128:
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.empty_cache()  # Prevent memory fragmentation
*da0073e9SAndroid Build Coastguard Worker        seed = 42
*da0073e9SAndroid Build Coastguard Worker        scale = scale if scale is None else (1 / head_dim)
*da0073e9SAndroid Build Coastguard Worker        n_heads = 4
*da0073e9SAndroid Build Coastguard Worker        query = torch.rand(batch_size, n_heads, seq_len_q, head_dim,
*da0073e9SAndroid Build Coastguard Worker                           device=device, dtype=dtype, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        key = torch.rand(batch_size, n_heads, seq_len_k, head_dim, device=device,
*da0073e9SAndroid Build Coastguard Worker                         dtype=dtype, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        value = torch.rand(batch_size, n_heads, seq_len_k, head_dim,
*da0073e9SAndroid Build Coastguard Worker                           device=device, dtype=dtype, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        attn_mask = torch.rand(seq_len_q, seq_len_k, device=device, dtype=dtype, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Run the math kernel on low precision references
*da0073e9SAndroid Build Coastguard Worker        query_ref_lp, key_ref_lp, value_ref_lp = query_key_value_clones(query, key, value, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        attn_mask_ref_lp = attn_mask.detach().to(dtype).requires_grad_(True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        higher_precision_dtype = torch.float64 if dtype == torch.float32 else torch.float32
*da0073e9SAndroid Build Coastguard Worker        query_ref, key_ref, value_ref = query_key_value_clones(query, key, value, dtype=higher_precision_dtype)
*da0073e9SAndroid Build Coastguard Worker        attn_mask_ref = attn_mask.detach().to(higher_precision_dtype).requires_grad_(True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Create real output
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.EFFICIENT_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            # Set the seed and run the kernel
*da0073e9SAndroid Build Coastguard Worker            torch.manual_seed(seed)
*da0073e9SAndroid Build Coastguard Worker            out = F.scaled_dot_product_attention(query, key, value, attn_mask, dropout_p=dropout_p,
*da0073e9SAndroid Build Coastguard Worker                                                 is_causal=is_causal, scale=scale)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if dropout_p == 0.0:
*da0073e9SAndroid Build Coastguard Worker            with sdpa_kernel(backends=[SDPBackend.MATH]):
*da0073e9SAndroid Build Coastguard Worker                # High Precision Math Reference
*da0073e9SAndroid Build Coastguard Worker                out_ref = F.scaled_dot_product_attention(query_ref, key_ref, value_ref, attn_mask_ref,
*da0073e9SAndroid Build Coastguard Worker                                                         dropout_p=dropout_p, is_causal=is_causal, scale=scale)
*da0073e9SAndroid Build Coastguard Worker                # Low Precision Math Reference
*da0073e9SAndroid Build Coastguard Worker                out_lp_ref = F.scaled_dot_product_attention(query_ref_lp, key_ref_lp, value_ref_lp, attn_mask_ref_lp,
*da0073e9SAndroid Build Coastguard Worker                                                            dropout_p=dropout_p, is_causal=is_causal, scale=scale)
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            if seq_len_q > 1024:
*da0073e9SAndroid Build Coastguard Worker                self.skipTest("Will call _fill_mem_eff_dropout_mask with too many threads!")
*da0073e9SAndroid Build Coastguard Worker            # Create the dropout_mask
*da0073e9SAndroid Build Coastguard Worker            torch.manual_seed(seed)
*da0073e9SAndroid Build Coastguard Worker            dropout_mask = _get_mem_eff_drop_mask(batch_size, n_heads, seq_len_q,
*da0073e9SAndroid Build Coastguard Worker                                                  seq_len_k, dropout_p, seed, 0, device=device)
*da0073e9SAndroid Build Coastguard Worker            # High Precision Math Reference
*da0073e9SAndroid Build Coastguard Worker            out_ref = torch.ops.aten._scaled_dot_product_attention_math(
*da0073e9SAndroid Build Coastguard Worker                query_ref, key_ref, value_ref, attn_mask_ref, dropout_p=dropout_p, is_causal=is_causal,
*da0073e9SAndroid Build Coastguard Worker                scale=scale, dropout_mask=dropout_mask)[0]
*da0073e9SAndroid Build Coastguard Worker            # Low Precision Math Reference
*da0073e9SAndroid Build Coastguard Worker            out_lp_ref = torch.ops.aten._scaled_dot_product_attention_math(
*da0073e9SAndroid Build Coastguard Worker                query_ref_lp, key_ref_lp, value_ref_lp, attn_mask_ref_lp,
*da0073e9SAndroid Build Coastguard Worker                dropout_p=dropout_p, is_causal=is_causal, scale=scale,
*da0073e9SAndroid Build Coastguard Worker                dropout_mask=dropout_mask)[0]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        upstream_grad = torch.rand_like(out, requires_grad=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        out.backward(upstream_grad)
*da0073e9SAndroid Build Coastguard Worker        out_ref.backward(upstream_grad.to(out_ref.dtype))
*da0073e9SAndroid Build Coastguard Worker        out_lp_ref.backward(upstream_grad.to(out_lp_ref.dtype))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # [Note] Fused Tolerances
*da0073e9SAndroid Build Coastguard Worker        # Establish the numerical error between the "true" high precision math output
*da0073e9SAndroid Build Coastguard Worker        # and the low precision math reference. We use this reference for the atol
*da0073e9SAndroid Build Coastguard Worker        # And we use the default rtol for the low precision type.
*da0073e9SAndroid Build Coastguard Worker        # We then provide a fudge factor for gradients respectively to account
*da0073e9SAndroid Build Coastguard Worker        # for the use of the fused kernel rather than the eager implemntation.
*da0073e9SAndroid Build Coastguard Worker        output_ref_atol, output_ref_rtol = get_tolerances(out_ref, out_lp_ref)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Fudge Factor when dropout is enabled
*da0073e9SAndroid Build Coastguard Worker        dropout_fudge_factor = 1.0 if dropout_p == 0.0 else 1.75
*da0073e9SAndroid Build Coastguard Worker        mask_fudge_factor = 1.0 if attn_mask is None else 1.5
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query_fudge_factor = dropout_fudge_factor
*da0073e9SAndroid Build Coastguard Worker        grad_q_ref_atol, grad_q_ref_rtol = get_tolerances(query_ref.grad, query_ref_lp.grad, query_fudge_factor)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # TODO: Investigate why grad_k needs larger tolerances
*da0073e9SAndroid Build Coastguard Worker        key_fudge_factor = 8 * dropout_fudge_factor * mask_fudge_factor
*da0073e9SAndroid Build Coastguard Worker        grad_k_ref_atol, grad_k_ref_rtol = get_tolerances(key_ref.grad, key_ref_lp.grad, key_fudge_factor)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        value_fudge_factor = 7 if not SM80OrLater and dtype == torch.float16 else 1.0
*da0073e9SAndroid Build Coastguard Worker        if TEST_WITH_ROCM:
*da0073e9SAndroid Build Coastguard Worker            value_fudge_factor = max(2.0, value_fudge_factor)
*da0073e9SAndroid Build Coastguard Worker        grad_v_ref_atol, grad_v_ref_rtol = get_tolerances(value_ref.grad, value_ref_lp.grad, value_fudge_factor)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        mask_fudge_factor = 12 if attn_mask.numel() > 512 else 22
*da0073e9SAndroid Build Coastguard Worker        grad_attn_mask_atol, grad_attn_mask_rtol = get_tolerances(
*da0073e9SAndroid Build Coastguard Worker            attn_mask_ref.grad, attn_mask_ref_lp.grad, mask_fudge_factor)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(out, out_ref.to(out.dtype), atol=output_ref_atol, rtol=output_ref_rtol)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(query.grad, query_ref.grad.to(query.grad.dtype),
*da0073e9SAndroid Build Coastguard Worker                         atol=grad_q_ref_atol, rtol=grad_q_ref_rtol)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(key.grad, key_ref.grad.to(key.grad.dtype),
*da0073e9SAndroid Build Coastguard Worker                         atol=grad_k_ref_atol, rtol=grad_k_ref_rtol)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(value.grad, value_ref.grad.to(value.grad.dtype),
*da0073e9SAndroid Build Coastguard Worker                         atol=grad_v_ref_atol, rtol=grad_v_ref_rtol)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(attn_mask.grad, attn_mask_ref.grad.to(attn_mask.grad.dtype),
*da0073e9SAndroid Build Coastguard Worker                         atol=grad_attn_mask_atol, rtol=grad_attn_mask_rtol)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FLASH_ATTENTION, "Does not support SDPA or pre-SM80 hardware")
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(IS_JETSON, "causing sigkill on Jetson")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("batch_size", [1, 8])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("seq_len_q", [4, 8, 64, 143, 256, 512, 1024, 2048])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("seq_len_k", [4, 8, 64, 128, 256, 587, 1024, 2048])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("head_dim", [8, 16, 21, 32, 64, 72, 96, 128, 160, 192, 203, 256])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("is_causal", [True, False])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("dropout_p", [0.0, 0.22, 0.48])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("dtype", [torch.float16, torch.bfloat16])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("scale", [None, "l1"])
*da0073e9SAndroid Build Coastguard Worker    def test_flash_attention_vs_math_ref_grads(self, device, batch_size: int, seq_len_q: int, seq_len_k: int,
*da0073e9SAndroid Build Coastguard Worker                                               head_dim: int, is_causal: bool, dropout_p: float, dtype: torch.dtype,
*da0073e9SAndroid Build Coastguard Worker                                               scale: str):
*da0073e9SAndroid Build Coastguard Worker        if isSM8XDevice and head_dim in range(193, 256 + 1):
*da0073e9SAndroid Build Coastguard Worker            self.skipTest("Flash attention on sm86, sm87, and sm89 for headdim > 192 currently disabled")
*da0073e9SAndroid Build Coastguard Worker        if is_causal and seq_len_q != seq_len_k:
*da0073e9SAndroid Build Coastguard Worker            self.skipTest("Flash V2 does not accept is_casual when seq_len_q != seq_len_k")
*da0073e9SAndroid Build Coastguard Worker        if TEST_WITH_ROCM and seq_len_q >= 1024 and seq_len_k >= 1024 and batch_size > 1:
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.empty_cache()  # Prevent memory fragmentation
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        scale = scale if scale is None else (1 / head_dim)
*da0073e9SAndroid Build Coastguard Worker        n_heads = 4
*da0073e9SAndroid Build Coastguard Worker        query = torch.rand(batch_size, n_heads, seq_len_q, head_dim,
*da0073e9SAndroid Build Coastguard Worker                           device=device, dtype=dtype, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        key = torch.rand(batch_size, n_heads, seq_len_k, head_dim, device=device,
*da0073e9SAndroid Build Coastguard Worker                         dtype=dtype, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        value = torch.rand(batch_size, n_heads, seq_len_k, head_dim,
*da0073e9SAndroid Build Coastguard Worker                           device=device, dtype=dtype, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Run the math kernel on low precision references
*da0073e9SAndroid Build Coastguard Worker        query_ref_lp, key_ref_lp, value_ref_lp = query_key_value_clones(query, key, value, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        higher_precision_dtype = torch.float64 if dtype == torch.float32 else torch.float32
*da0073e9SAndroid Build Coastguard Worker        query_ref, key_ref, value_ref = query_key_value_clones(query, key, value, dtype=higher_precision_dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        is_dropout = dropout_p > 0.0
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if not is_dropout:
*da0073e9SAndroid Build Coastguard Worker            with sdpa_kernel(backends=[SDPBackend.FLASH_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker                out = F.scaled_dot_product_attention(query, key, value, dropout_p=dropout_p, is_causal=is_causal, scale=scale)
*da0073e9SAndroid Build Coastguard Worker            with sdpa_kernel(backends=[SDPBackend.MATH]):
*da0073e9SAndroid Build Coastguard Worker                # High Precision Math Reference
*da0073e9SAndroid Build Coastguard Worker                out_ref = F.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                    query_ref, key_ref, value_ref, is_causal=is_causal, scale=scale)
*da0073e9SAndroid Build Coastguard Worker                # Low Precision Math Reference
*da0073e9SAndroid Build Coastguard Worker                out_lp_ref = F.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                    query_ref_lp, key_ref_lp, value_ref_lp, is_causal=is_causal, scale=scale)
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            # Problem: We pad sizes in the composite region of the top level SDPA. But we need the
*da0073e9SAndroid Build Coastguard Worker            # Debug mask when have dropout. So I am going to manualy pad up here when testing dropout
*da0073e9SAndroid Build Coastguard Worker            q_padded, q_og_size = pad_last_dim(query, 8)
*da0073e9SAndroid Build Coastguard Worker            k_padded, k_og_size = pad_last_dim(key, 8)
*da0073e9SAndroid Build Coastguard Worker            v_padded, v_og_size = pad_last_dim(value, 8)
*da0073e9SAndroid Build Coastguard Worker            # scale needs to be calculated on the og head_size
*da0073e9SAndroid Build Coastguard Worker            if scale is None:
*da0073e9SAndroid Build Coastguard Worker                scale = 1 / math.sqrt(q_og_size)
*da0073e9SAndroid Build Coastguard Worker            output_tuple = torch.ops.aten._scaled_dot_product_flash_attention(
*da0073e9SAndroid Build Coastguard Worker                q_padded, k_padded, v_padded, dropout_p=dropout_p, is_causal=is_causal, scale=scale, return_debug_mask=is_dropout)
*da0073e9SAndroid Build Coastguard Worker            out = output_tuple[0]
*da0073e9SAndroid Build Coastguard Worker            out = out[..., :v_og_size]
*da0073e9SAndroid Build Coastguard Worker            # Build dropout_mask
*da0073e9SAndroid Build Coastguard Worker            dbug_mask = output_tuple[-1]
*da0073e9SAndroid Build Coastguard Worker            query_padding_mask = torch.ones(
*da0073e9SAndroid Build Coastguard Worker                batch_size, seq_len_q, device=device, dtype=torch.bool)
*da0073e9SAndroid Build Coastguard Worker            key_padding_mask = torch.ones(
*da0073e9SAndroid Build Coastguard Worker                batch_size, seq_len_k, device=device, dtype=torch.bool)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            softmax_mask = self.convert_flash_attn_S_to_softmax(
*da0073e9SAndroid Build Coastguard Worker                dbug_mask, seq_len_q, seq_len_k, query_padding_mask, key_padding_mask,
*da0073e9SAndroid Build Coastguard Worker                causal=is_causal)[:, :, :seq_len_q, :seq_len_k]
*da0073e9SAndroid Build Coastguard Worker            dropout_mask = softmax_mask >= 0
*da0073e9SAndroid Build Coastguard Worker            # attn_unnorm = softmax_mask.abs()
*da0073e9SAndroid Build Coastguard Worker            # attn = self.normalize_flash_attn_S(attn_unnorm, q_padded,
*da0073e9SAndroid Build Coastguard Worker            #                                    k_padded, v_padded, query_padding_mask,
*da0073e9SAndroid Build Coastguard Worker            #                                    key_padding_mask, None, True, is_causal, scale=scale)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # High Precision Math Reference
*da0073e9SAndroid Build Coastguard Worker            out_ref = torch.ops.aten._scaled_dot_product_attention_math(
*da0073e9SAndroid Build Coastguard Worker                query_ref, key_ref, value_ref, dropout_p=dropout_p, is_causal=is_causal, scale=scale, dropout_mask=dropout_mask)[0]
*da0073e9SAndroid Build Coastguard Worker            # Low Precision Math Reference
*da0073e9SAndroid Build Coastguard Worker            out_lp_ref = torch.ops.aten._scaled_dot_product_attention_math(
*da0073e9SAndroid Build Coastguard Worker                query_ref_lp, key_ref_lp, value_ref_lp, dropout_p=dropout_p, is_causal=is_causal, scale=scale,
*da0073e9SAndroid Build Coastguard Worker                dropout_mask=dropout_mask)[0]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        upstream_grad = torch.rand_like(out, requires_grad=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # backward for flash attention on sm86, sm87, and sm89 for headdim >= 193 currently disabled
*da0073e9SAndroid Build Coastguard Worker        if isSM8XDevice and head_dim in range(193, 256):
*da0073e9SAndroid Build Coastguard Worker            self.assertRaises(RuntimeError, lambda: out.backward(upstream_grad))
*da0073e9SAndroid Build Coastguard Worker            return
*da0073e9SAndroid Build Coastguard Worker        out.backward(upstream_grad)
*da0073e9SAndroid Build Coastguard Worker        out_ref.backward(upstream_grad.to(out_ref.dtype))
*da0073e9SAndroid Build Coastguard Worker        out_lp_ref.backward(upstream_grad.to(out_lp_ref.dtype))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # See [Note] Fused Tolerances above
*da0073e9SAndroid Build Coastguard Worker        output_fudge_factor = 3 if head_dim % 8 != 0 or TEST_WITH_ROCM else 1
*da0073e9SAndroid Build Coastguard Worker        output_ref_atol, output_ref_rtol = get_tolerances(out_ref, out_lp_ref, output_fudge_factor)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # TODO: Investigate why grad_q needs larger tolerances
*da0073e9SAndroid Build Coastguard Worker        query_fudge_factor = 4
*da0073e9SAndroid Build Coastguard Worker        grad_q_ref_atol, grad_q_ref_rtol = get_tolerances(query_ref.grad, query_ref_lp.grad, query_fudge_factor)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        key_fudge_factor = 2
*da0073e9SAndroid Build Coastguard Worker        grad_k_ref_atol, grad_k_ref_rtol = get_tolerances(key_ref.grad, key_ref_lp.grad, key_fudge_factor)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        value_fudge_factor = 2
*da0073e9SAndroid Build Coastguard Worker        grad_v_ref_atol, grad_v_ref_rtol = get_tolerances(value_ref.grad, value_ref_lp.grad, value_fudge_factor)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(out, out_ref.to(out.dtype), atol=output_ref_atol, rtol=output_ref_rtol)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(query.grad, query_ref.grad.to(query.grad.dtype),
*da0073e9SAndroid Build Coastguard Worker                         atol=grad_q_ref_atol, rtol=grad_q_ref_rtol)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(key.grad, key_ref.grad.to(key.grad.dtype),
*da0073e9SAndroid Build Coastguard Worker                         atol=grad_k_ref_atol, rtol=grad_k_ref_rtol)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(value.grad, value_ref.grad.to(value.grad.dtype),
*da0073e9SAndroid Build Coastguard Worker                         atol=grad_v_ref_atol, rtol=grad_v_ref_rtol)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skipIfRocm  # FIXME: "capturing stream has unjoined work"
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FLASH_ATTENTION, "Does not support SDPA or pre-SM80 hardware")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("batch_size", [1, 8])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("seq_len_q", [256, 512, 1024])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("seq_len_k", [256, 512, 1024])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("head_dim", [32, 64])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("is_causal", [True, False])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("dropout_p", [0.0, 0.22])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("dtype", [torch.float16,])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("scale", [None, "l1"])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("fused_kernel", PLATFORM_SPECIFIC_SDPA)
*da0073e9SAndroid Build Coastguard Worker    def test_fused_attention_vs_math_ref_grads_cudagraph(self, device, batch_size: int, seq_len_q: int, seq_len_k: int,
*da0073e9SAndroid Build Coastguard Worker                                                         head_dim: int,
*da0073e9SAndroid Build Coastguard Worker                                                         is_causal: bool,
*da0073e9SAndroid Build Coastguard Worker                                                         dropout_p: float,
*da0073e9SAndroid Build Coastguard Worker                                                         dtype: torch.dtype,
*da0073e9SAndroid Build Coastguard Worker                                                         scale: str,
*da0073e9SAndroid Build Coastguard Worker                                                         fused_kernel: SDPBackend):
*da0073e9SAndroid Build Coastguard Worker        def _get_mem_eff_drop_mask(batch_size, n_heads, q_len, kv_len, dropout_p, seed, offset, device=device):
*da0073e9SAndroid Build Coastguard Worker            mask = torch.empty((batch_size, n_heads, q_len, kv_len), device=device, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker            rand_uniform = torch._fill_mem_eff_dropout_mask_(mask, dropout_p, seed, offset)
*da0073e9SAndroid Build Coastguard Worker            mask = (rand_uniform > dropout_p).to(torch.float32)
*da0073e9SAndroid Build Coastguard Worker            return mask
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def get_dropout_mask(output, fused_kernel, batch_size, n_heads, q_len, kv_len, dropout_p, device=device):
*da0073e9SAndroid Build Coastguard Worker            if fused_kernel == SDPBackend.EFFICIENT_ATTENTION:
*da0073e9SAndroid Build Coastguard Worker                output_seed, output_offset = output_tuple[2], output_tuple[3]
*da0073e9SAndroid Build Coastguard Worker                output_seed = output_seed.item()
*da0073e9SAndroid Build Coastguard Worker                output_offset = output_offset.item()
*da0073e9SAndroid Build Coastguard Worker                return _get_mem_eff_drop_mask(batch_size, n_heads, q_len, kv_len,
*da0073e9SAndroid Build Coastguard Worker                                              dropout_p, output_seed, output_offset, device=device)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                # Build dropout_mask
*da0073e9SAndroid Build Coastguard Worker                dbug_mask = output_tuple[-1]
*da0073e9SAndroid Build Coastguard Worker                query_padding_mask = torch.ones(
*da0073e9SAndroid Build Coastguard Worker                    batch_size, seq_len_q, device=device, dtype=torch.bool)
*da0073e9SAndroid Build Coastguard Worker                key_padding_mask = torch.ones(
*da0073e9SAndroid Build Coastguard Worker                    batch_size, seq_len_k, device=device, dtype=torch.bool)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                softmax_mask = self.convert_flash_attn_S_to_softmax(
*da0073e9SAndroid Build Coastguard Worker                    dbug_mask, seq_len_q, seq_len_k, query_padding_mask, key_padding_mask,
*da0073e9SAndroid Build Coastguard Worker                    causal=is_causal)[:, :, :seq_len_q, :seq_len_k]
*da0073e9SAndroid Build Coastguard Worker                dropout_mask = softmax_mask >= 0
*da0073e9SAndroid Build Coastguard Worker                return dropout_mask
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if fused_kernel == SDPBackend.FLASH_ATTENTION and is_causal and seq_len_q != seq_len_k:
*da0073e9SAndroid Build Coastguard Worker            self.skipTest("Flash V2 does not accept is_casual when seq_len_q != seq_len_k")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        seed = 42
*da0073e9SAndroid Build Coastguard Worker        scale = scale if scale is None else (1 / head_dim)
*da0073e9SAndroid Build Coastguard Worker        n_heads = 4
*da0073e9SAndroid Build Coastguard Worker        query = torch.rand(batch_size, n_heads, seq_len_q, head_dim,
*da0073e9SAndroid Build Coastguard Worker                           device=device, dtype=dtype, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        key = torch.rand(batch_size, n_heads, seq_len_k, head_dim, device=device,
*da0073e9SAndroid Build Coastguard Worker                         dtype=dtype, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        value = torch.rand(batch_size, n_heads, seq_len_k, head_dim,
*da0073e9SAndroid Build Coastguard Worker                           device=device, dtype=dtype, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        fused_op = (torch.ops.aten._scaled_dot_product_efficient_attention
*da0073e9SAndroid Build Coastguard Worker                    if fused_kernel == SDPBackend.EFFICIENT_ATTENTION else torch.ops.aten._scaled_dot_product_flash_attention)
*da0073e9SAndroid Build Coastguard Worker        # Run the math kernel on low precision references
*da0073e9SAndroid Build Coastguard Worker        query_ref_lp, key_ref_lp, value_ref_lp = query_key_value_clones(query, key, value, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        higher_precision_dtype = torch.float64 if dtype == torch.float32 else torch.float32
*da0073e9SAndroid Build Coastguard Worker        query_ref, key_ref, value_ref = query_key_value_clones(query, key, value, dtype=higher_precision_dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # warmup
*da0073e9SAndroid Build Coastguard Worker        s = torch.cuda.Stream()
*da0073e9SAndroid Build Coastguard Worker        s.wait_stream(torch.cuda.current_stream())
*da0073e9SAndroid Build Coastguard Worker        # Set the global seed before capture
*da0073e9SAndroid Build Coastguard Worker        torch.manual_seed(seed)
*da0073e9SAndroid Build Coastguard Worker        kwargs = {"dropout_p": dropout_p, "is_causal": is_causal, "scale": scale}
*da0073e9SAndroid Build Coastguard Worker        if fused_kernel == SDPBackend.EFFICIENT_ATTENTION:
*da0073e9SAndroid Build Coastguard Worker            kwargs["compute_log_sumexp"] = True
*da0073e9SAndroid Build Coastguard Worker            kwargs["attn_bias"] = None
*da0073e9SAndroid Build Coastguard Worker        if fused_kernel == SDPBackend.FLASH_ATTENTION:
*da0073e9SAndroid Build Coastguard Worker            kwargs['return_debug_mask'] = dropout_p > 0.0
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(s):
*da0073e9SAndroid Build Coastguard Worker            # Create real output
*da0073e9SAndroid Build Coastguard Worker            output_tuple = fused_op(query, key, value, **kwargs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.current_stream().wait_stream(s)
*da0073e9SAndroid Build Coastguard Worker        out = output_tuple[0]
*da0073e9SAndroid Build Coastguard Worker        upstream_grad = torch.rand_like(out, requires_grad=False)
*da0073e9SAndroid Build Coastguard Worker        s.wait_stream(torch.cuda.current_stream())
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.stream(s):
*da0073e9SAndroid Build Coastguard Worker            out.backward(upstream_grad)
*da0073e9SAndroid Build Coastguard Worker        for x in (query, key, value):
*da0073e9SAndroid Build Coastguard Worker            x.grad = None
*da0073e9SAndroid Build Coastguard Worker        g = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker        # Create real output
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.graph(g):
*da0073e9SAndroid Build Coastguard Worker            tmp = torch.rand_like(query, device=query.device)  # test non-zero intragraph offset
*da0073e9SAndroid Build Coastguard Worker            # Create real output
*da0073e9SAndroid Build Coastguard Worker            output_tuple = fused_op(query, key, value, **kwargs)
*da0073e9SAndroid Build Coastguard Worker            assert all(not isinstance(o, torch.Tensor) or o.is_cuda for o in output_tuple)
*da0073e9SAndroid Build Coastguard Worker        g.replay()
*da0073e9SAndroid Build Coastguard Worker        out_first = output_tuple[0].clone()
*da0073e9SAndroid Build Coastguard Worker        g.replay()
*da0073e9SAndroid Build Coastguard Worker        out = output_tuple[0]
*da0073e9SAndroid Build Coastguard Worker        if dropout_p == 0.0:
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(out_first, out, atol=0, rtol=0)
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            # replays produce different results
*da0073e9SAndroid Build Coastguard Worker            self.assertNotEqual(out_first, out)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.MATH]):
*da0073e9SAndroid Build Coastguard Worker            if dropout_p == 0.0:
*da0073e9SAndroid Build Coastguard Worker                # High Precision Math Reference
*da0073e9SAndroid Build Coastguard Worker                out_ref = F.scaled_dot_product_attention(query_ref, key_ref, value_ref,
*da0073e9SAndroid Build Coastguard Worker                                                         dropout_p=dropout_p, is_causal=is_causal, scale=scale)
*da0073e9SAndroid Build Coastguard Worker                # Low Precision Math Reference
*da0073e9SAndroid Build Coastguard Worker                out_lp_ref = F.scaled_dot_product_attention(query_ref_lp, key_ref_lp, value_ref_lp,
*da0073e9SAndroid Build Coastguard Worker                                                            dropout_p=dropout_p, is_causal=is_causal, scale=scale)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                # Create the dropout_mask
*da0073e9SAndroid Build Coastguard Worker                dropout_mask = get_dropout_mask(output_tuple, fused_kernel, batch_size,
*da0073e9SAndroid Build Coastguard Worker                                                n_heads, seq_len_q, seq_len_k, dropout_p, device)
*da0073e9SAndroid Build Coastguard Worker                # High Precision Math Reference
*da0073e9SAndroid Build Coastguard Worker                out_ref = torch.ops.aten._scaled_dot_product_attention_math(
*da0073e9SAndroid Build Coastguard Worker                    query_ref, key_ref, value_ref, dropout_p=dropout_p, is_causal=is_causal,
*da0073e9SAndroid Build Coastguard Worker                    scale=scale, dropout_mask=dropout_mask)[0]
*da0073e9SAndroid Build Coastguard Worker                # Low Precision Math Reference
*da0073e9SAndroid Build Coastguard Worker                out_lp_ref = torch.ops.aten._scaled_dot_product_attention_math(
*da0073e9SAndroid Build Coastguard Worker                    query_ref_lp, key_ref_lp, value_ref_lp, dropout_p=dropout_p, is_causal=is_causal, scale=scale,
*da0073e9SAndroid Build Coastguard Worker                    dropout_mask=dropout_mask)[0]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        g1 = torch.cuda.CUDAGraph()
*da0073e9SAndroid Build Coastguard Worker        with torch.cuda.graph(g1):
*da0073e9SAndroid Build Coastguard Worker            out.backward(upstream_grad)
*da0073e9SAndroid Build Coastguard Worker        g1.replay()
*da0073e9SAndroid Build Coastguard Worker        out_ref.backward(upstream_grad.to(out_ref.dtype))
*da0073e9SAndroid Build Coastguard Worker        out_lp_ref.backward(upstream_grad.to(out_lp_ref.dtype))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # [Note] Fused Tolerances
*da0073e9SAndroid Build Coastguard Worker        # Establish the numerical error between the "true" high precision math output
*da0073e9SAndroid Build Coastguard Worker        # and the low precision math reference. We use this reference for the atol
*da0073e9SAndroid Build Coastguard Worker        # And we use the default rtol for the low precision type.
*da0073e9SAndroid Build Coastguard Worker        # We then provide a fudge factor for gradients respectively to account
*da0073e9SAndroid Build Coastguard Worker        # for the use of the fused kernel rather than the eager implemntation.
*da0073e9SAndroid Build Coastguard Worker        output_ref_atol, output_ref_rtol = get_tolerances(out_ref, out_lp_ref)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Fudge Factor when dropout is enabled
*da0073e9SAndroid Build Coastguard Worker        dropout_fudge_factor = 1.0 if dropout_p == 0.0 else 1.5
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query_fudge_factor = dropout_fudge_factor
*da0073e9SAndroid Build Coastguard Worker        grad_q_ref_atol, grad_q_ref_rtol = get_tolerances(query_ref.grad, query_ref_lp.grad, query_fudge_factor)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # TODO: Investigate why grad_k needs larger tolerances
*da0073e9SAndroid Build Coastguard Worker        key_fudge_factor = 8 * dropout_fudge_factor
*da0073e9SAndroid Build Coastguard Worker        grad_k_ref_atol, grad_k_ref_rtol = get_tolerances(key_ref.grad, key_ref_lp.grad, key_fudge_factor)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        value_fudge_factor = 7 if not SM80OrLater and dtype == torch.float16 else 1.0
*da0073e9SAndroid Build Coastguard Worker        grad_v_ref_atol, grad_v_ref_rtol = get_tolerances(value_ref.grad, value_ref_lp.grad, value_fudge_factor)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(out, out_ref.to(out.dtype), atol=output_ref_atol, rtol=output_ref_rtol)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(query.grad, query_ref.grad.to(query.grad.dtype),
*da0073e9SAndroid Build Coastguard Worker                         atol=grad_q_ref_atol, rtol=grad_q_ref_rtol)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(key.grad, key_ref.grad.to(key.grad.dtype),
*da0073e9SAndroid Build Coastguard Worker                         atol=grad_k_ref_atol, rtol=grad_k_ref_rtol)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(value.grad, value_ref.grad.to(value.grad.dtype),
*da0073e9SAndroid Build Coastguard Worker                         atol=grad_v_ref_atol, rtol=grad_v_ref_rtol)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skipIfRocm  # Nested Tensor
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FUSED_ATTENTION, "Fused SDPA was not built for this system")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("fused_kernel", [SDPBackend.FLASH_ATTENTION, SDPBackend.EFFICIENT_ATTENTION] if
*da0073e9SAndroid Build Coastguard Worker                 PLATFORM_SUPPORTS_FLASH_ATTENTION else [SDPBackend.EFFICIENT_ATTENTION])
*da0073e9SAndroid Build Coastguard Worker    def test_fused_kernels_seq_len_1_inputs(self, device, fused_kernel):
*da0073e9SAndroid Build Coastguard Worker        rand_nested_tensor = partial(rand_sdpa_tensor, type="nested", device=device, dtype=torch.float16)
*da0073e9SAndroid Build Coastguard Worker        batch, num_heads, head_dim = 32, 16, 64
*da0073e9SAndroid Build Coastguard Worker        seq_lens = torch.randint(low=1, high=32, size=(batch,))
*da0073e9SAndroid Build Coastguard Worker        # make sure some seq_lens are 1
*da0073e9SAndroid Build Coastguard Worker        num_ones = 10
*da0073e9SAndroid Build Coastguard Worker        indices = torch.randint(low=0, high=batch, size=(num_ones,))
*da0073e9SAndroid Build Coastguard Worker        seq_lens.scatter_(0, indices, 1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        shape = SdpaShape(batch, num_heads, seq_lens.tolist(), head_dim)
*da0073e9SAndroid Build Coastguard Worker        query = rand_nested_tensor(shape)
*da0073e9SAndroid Build Coastguard Worker        key = rand_nested_tensor(shape)
*da0073e9SAndroid Build Coastguard Worker        value = rand_nested_tensor(shape)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query = query.transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        key = key.transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        value = value.transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[fused_kernel]):
*da0073e9SAndroid Build Coastguard Worker            actual = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                query, key, value, attn_mask=None, dropout_p=0.0, is_causal=False)
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.MATH]):
*da0073e9SAndroid Build Coastguard Worker            math_ref = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                query.contiguous().to(torch.float32),
*da0073e9SAndroid Build Coastguard Worker                key.contiguous().to(torch.float32),
*da0073e9SAndroid Build Coastguard Worker                value.contiguous().to(torch.float32),
*da0073e9SAndroid Build Coastguard Worker                attn_mask=None, dropout_p=0.0, is_causal=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(actual.contiguous(), math_ref.contiguous().to(torch.float16), atol=1e-3, rtol=1e-2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skipIfRocm  # Nested tensor
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FUSED_ATTENTION, "Fused SDPA was not built for this system")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("kernel", [SDPBackend.FLASH_ATTENTION, SDPBackend.EFFICIENT_ATTENTION] if
*da0073e9SAndroid Build Coastguard Worker                 PLATFORM_SUPPORTS_FLASH_ATTENTION else [SDPBackend.EFFICIENT_ATTENTION])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("expand_q_batch", [True, False])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("expand_k_batch", [True, False])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("expand_v_batch", [True, False])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("expand_q_num_heads", [True, False])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("expand_k_num_heads", [True, False])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("expand_v_num_heads", [True, False])
*da0073e9SAndroid Build Coastguard Worker    def test_fused_kernels_nested_broadcasting(
*da0073e9SAndroid Build Coastguard Worker        self,
*da0073e9SAndroid Build Coastguard Worker        device,
*da0073e9SAndroid Build Coastguard Worker        kernel,
*da0073e9SAndroid Build Coastguard Worker        expand_q_batch,
*da0073e9SAndroid Build Coastguard Worker        expand_k_batch,
*da0073e9SAndroid Build Coastguard Worker        expand_v_batch,
*da0073e9SAndroid Build Coastguard Worker        expand_q_num_heads,
*da0073e9SAndroid Build Coastguard Worker        expand_k_num_heads,
*da0073e9SAndroid Build Coastguard Worker        expand_v_num_heads,
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        is_efficient = kernel == SDPBackend.EFFICIENT_ATTENTION
*da0073e9SAndroid Build Coastguard Worker        dtype = torch.float32 if is_efficient else torch.float16
*da0073e9SAndroid Build Coastguard Worker        rand_nested_tensor = partial(rand_sdpa_tensor, type="nested", device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        batch, num_heads, head_dim = 32, 8, 64
*da0073e9SAndroid Build Coastguard Worker        head_dim_v = 32 if is_efficient else head_dim
*da0073e9SAndroid Build Coastguard Worker        seq_lens_q = (torch.randint(low=1, high=5, size=(1,)).item()
*da0073e9SAndroid Build Coastguard Worker                      if expand_q_batch
*da0073e9SAndroid Build Coastguard Worker                      else torch.randint(low=1, high=32, size=(batch,)).tolist())
*da0073e9SAndroid Build Coastguard Worker        seq_lens_kv = (torch.randint(low=1, high=5, size=(1,)).item()
*da0073e9SAndroid Build Coastguard Worker                       if (expand_k_batch or expand_v_batch)
*da0073e9SAndroid Build Coastguard Worker                       else torch.randint(low=1, high=32, size=(batch,)).tolist())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        batch_q = 1 if expand_q_batch else batch
*da0073e9SAndroid Build Coastguard Worker        batch_k = 1 if expand_k_batch else batch
*da0073e9SAndroid Build Coastguard Worker        batch_v = 1 if expand_v_batch else batch
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # handle case where all batch_sizes are 1
*da0073e9SAndroid Build Coastguard Worker        batch = max(batch_q, batch_k, batch_v)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        num_heads_q = 1 if expand_q_num_heads else num_heads
*da0073e9SAndroid Build Coastguard Worker        num_heads_k = 1 if expand_k_num_heads else num_heads
*da0073e9SAndroid Build Coastguard Worker        num_heads_v = 1 if expand_v_num_heads else num_heads
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # handle case where all num_heads are 1
*da0073e9SAndroid Build Coastguard Worker        num_heads = max(num_heads_q, num_heads_k, num_heads_v)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        q_shape = SdpaShape(batch_q, num_heads_q, seq_lens_q, head_dim)
*da0073e9SAndroid Build Coastguard Worker        k_shape = SdpaShape(batch_k, num_heads_k, seq_lens_kv, head_dim)
*da0073e9SAndroid Build Coastguard Worker        v_shape = SdpaShape(batch_v, num_heads_v, seq_lens_kv, head_dim_v)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query = rand_nested_tensor(q_shape)
*da0073e9SAndroid Build Coastguard Worker        key = rand_nested_tensor(k_shape)
*da0073e9SAndroid Build Coastguard Worker        value = rand_nested_tensor(v_shape)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def _broadcast(t, batch_broadcasted, num_heads_broadcasted):
*da0073e9SAndroid Build Coastguard Worker            if batch_broadcasted and num_heads_broadcasted:
*da0073e9SAndroid Build Coastguard Worker                # (1, seq_len, 1, head_dim) -> (batch, seq_len, num_heads, head_dim)
*da0073e9SAndroid Build Coastguard Worker                result = torch.nested.nested_tensor(
*da0073e9SAndroid Build Coastguard Worker                    [t[0].expand(-1, num_heads, t.size(-1)) for _ in range(batch)], dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker            elif batch_broadcasted:
*da0073e9SAndroid Build Coastguard Worker                # (1, seq_len, num_heads, head_dim) -> (batch, seq_len, num_heads, head_dim)
*da0073e9SAndroid Build Coastguard Worker                result = torch.nested.nested_tensor([t[0] for _ in range(batch)], dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker            elif num_heads_broadcasted:
*da0073e9SAndroid Build Coastguard Worker                # (batch, seq_len, 1, head_dim) -> (batch, seq_len, num_heads, head_dim)
*da0073e9SAndroid Build Coastguard Worker                result = torch.nested.nested_tensor([x.expand(-1, num_heads, t.size(-1))
*da0073e9SAndroid Build Coastguard Worker                                                    for x in t.unbind()], dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                result = t.to(torch.float32)
*da0073e9SAndroid Build Coastguard Worker            return result
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query_expanded = _broadcast(query, expand_q_batch, expand_q_num_heads).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        key_expanded = _broadcast(key, expand_k_batch, expand_k_num_heads).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        value_expanded = _broadcast(value, expand_v_batch, expand_v_num_heads).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query = query.transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        key = key.transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        value = value.transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[kernel]):
*da0073e9SAndroid Build Coastguard Worker            actual = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                query, key, value, attn_mask=None, dropout_p=0.0, is_causal=False)
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.MATH]):
*da0073e9SAndroid Build Coastguard Worker            math_ref = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                query_expanded.contiguous(), key_expanded.contiguous(), value_expanded.contiguous(),
*da0073e9SAndroid Build Coastguard Worker                attn_mask=None, dropout_p=0.0, is_causal=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(actual.contiguous(), math_ref.contiguous().to(dtype), atol=1e-3, rtol=1e-2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skipIfRocm  # Nested tensor
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_MEM_EFF_ATTENTION, "Fused SDPA was not built for this system")
*da0073e9SAndroid Build Coastguard Worker    def test_fused_kernels_nested_broadcasting_query_dense(self, device):
*da0073e9SAndroid Build Coastguard Worker        rand_nested_tensor = partial(rand_sdpa_tensor, type="nested", device=device, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        batch, num_heads, head_dim, head_dim_v = 32, 16, 64, 96
*da0073e9SAndroid Build Coastguard Worker        seq_lens = torch.randint(low=1, high=32, size=(batch,)).tolist()
*da0073e9SAndroid Build Coastguard Worker        q_shape = (1, 1, num_heads, head_dim)
*da0073e9SAndroid Build Coastguard Worker        k_shape = SdpaShape(batch, num_heads, seq_lens, head_dim)
*da0073e9SAndroid Build Coastguard Worker        v_shape = SdpaShape(batch, 1, seq_lens, head_dim_v)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # create a dense query
*da0073e9SAndroid Build Coastguard Worker        query = torch.randn(q_shape, device=device, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        key = rand_nested_tensor(k_shape)
*da0073e9SAndroid Build Coastguard Worker        value = rand_nested_tensor(v_shape)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # (1, 1, num_heads, head_dim) -> (batch, 1, num_heads, head_dim)
*da0073e9SAndroid Build Coastguard Worker        query_expanded = torch.nested.nested_tensor([query.squeeze(0) for _ in range(batch)]).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        # (batch, seq_lens, 1, head_dim) -> (batch, seq_lens, num_heads, head_dim)
*da0073e9SAndroid Build Coastguard Worker        value_expanded = torch.nested.nested_tensor(
*da0073e9SAndroid Build Coastguard Worker            [t.expand(-1, num_heads, head_dim_v) for t in value.unbind()]).transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query = query.transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        key = key.transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker        value = value.transpose(1, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.EFFICIENT_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker            actual = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                query, key, value, attn_mask=None, dropout_p=0.0, is_causal=False)
*da0073e9SAndroid Build Coastguard Worker        with sdpa_kernel(backends=[SDPBackend.MATH]):
*da0073e9SAndroid Build Coastguard Worker            math_ref = torch.nn.functional.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                query_expanded.contiguous(), key.contiguous(), value_expanded.contiguous(),
*da0073e9SAndroid Build Coastguard Worker                attn_mask=None, dropout_p=0.0, is_causal=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(actual.contiguous(), math_ref.contiguous(), atol=1e-3, rtol=1e-2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @onlyCUDA
*da0073e9SAndroid Build Coastguard Worker    @skipIfRocm  # Nested tensor
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(not PLATFORM_SUPPORTS_FLASH_ATTENTION, "Does not support SDPA or pre-SM80 hardware")
*da0073e9SAndroid Build Coastguard Worker    @parametrize("batch_size", [8, 32])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("max_seq_len_q", [32, 256])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("max_seq_len_kv", [32, 256])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("head_dim", [8, 64])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("dropout_p", [0.0, 0.1])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("dtype", [torch.float16])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("scale", [None, "l1"])
*da0073e9SAndroid Build Coastguard Worker    @parametrize("is_causal", [True, False])
*da0073e9SAndroid Build Coastguard Worker    def test_flash_attention_vs_math_ref_grads_nestedtensor(self, device, batch_size: int, max_seq_len_q: int, max_seq_len_kv: int,
*da0073e9SAndroid Build Coastguard Worker                                                            head_dim: int, dropout_p: float, dtype: torch.dtype,
*da0073e9SAndroid Build Coastguard Worker                                                            scale: str, is_causal: bool):
*da0073e9SAndroid Build Coastguard Worker        if is_causal:
*da0073e9SAndroid Build Coastguard Worker            # TODO we should support this
*da0073e9SAndroid Build Coastguard Worker            self.assertRaisesRegex(RuntimeError, "Nested tensors for query / key are not supported when is_causal=True")
*da0073e9SAndroid Build Coastguard Worker            return
*da0073e9SAndroid Build Coastguard Worker        scale = scale if scale is None else (1 / head_dim)
*da0073e9SAndroid Build Coastguard Worker        n_heads = 4
*da0073e9SAndroid Build Coastguard Worker        seq_lens_q = torch.randint(low=1, high=max_seq_len_q, size=(batch_size,))
*da0073e9SAndroid Build Coastguard Worker        # Set one entry to max length
*da0073e9SAndroid Build Coastguard Worker        seq_lens_q[torch.randint(0, batch_size, size=(1,))] = max_seq_len_q
*da0073e9SAndroid Build Coastguard Worker        seq_lens_kv = torch.randint(low=1, high=max_seq_len_kv, size=(batch_size,))
*da0073e9SAndroid Build Coastguard Worker        seq_lens_kv[torch.randint(0, batch_size, size=(1,))] = max_seq_len_kv
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def rand_nt(sequence_list, num_heads, head_dim):
*da0073e9SAndroid Build Coastguard Worker            tensors = [torch.rand((num_heads, seq_len, head_dim)) for seq_len in sequence_list]
*da0073e9SAndroid Build Coastguard Worker            return torch.nested.nested_tensor(tensors, requires_grad=True, device=device, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query = rand_nt(seq_lens_q, n_heads, head_dim)
*da0073e9SAndroid Build Coastguard Worker        key = rand_nt(seq_lens_kv, n_heads, head_dim)
*da0073e9SAndroid Build Coastguard Worker        value = rand_nt(seq_lens_kv, n_heads, head_dim)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Run the math kernel on low precision references
*da0073e9SAndroid Build Coastguard Worker        query_ref_lp = query.clone().detach().requires_grad_(True)
*da0073e9SAndroid Build Coastguard Worker        key_ref_lp = key.clone().detach().requires_grad_(True)
*da0073e9SAndroid Build Coastguard Worker        value_ref_lp = value.clone().detach().requires_grad_(True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query_ref = query.clone().detach().to(torch.float32).requires_grad_(True)
*da0073e9SAndroid Build Coastguard Worker        key_ref = key.clone().detach().to(torch.float32).requires_grad_(True)
*da0073e9SAndroid Build Coastguard Worker        value_ref = value.clone().detach().to(torch.float32).requires_grad_(True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        is_dropout = dropout_p > 0.0
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if not is_dropout:
*da0073e9SAndroid Build Coastguard Worker            with sdpa_kernel(backends=[SDPBackend.FLASH_ATTENTION]):
*da0073e9SAndroid Build Coastguard Worker                out = F.scaled_dot_product_attention(query, key, value, dropout_p=dropout_p, is_causal=is_causal, scale=scale)
*da0073e9SAndroid Build Coastguard Worker            with sdpa_kernel(backends=[SDPBackend.MATH]):
*da0073e9SAndroid Build Coastguard Worker                # High Precision Math Reference
*da0073e9SAndroid Build Coastguard Worker                out_ref = F.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                    query_ref, key_ref, value_ref, is_causal=is_causal, scale=scale)
*da0073e9SAndroid Build Coastguard Worker                # Low Precision Math Reference
*da0073e9SAndroid Build Coastguard Worker                out_lp_ref = F.scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker                    query_ref_lp, key_ref_lp, value_ref_lp, is_causal=is_causal, scale=scale)
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            # Create real output
*da0073e9SAndroid Build Coastguard Worker            output_tuple = torch.ops.aten._scaled_dot_product_flash_attention(
*da0073e9SAndroid Build Coastguard Worker                query, key, value, dropout_p=dropout_p, is_causal=is_causal,
*da0073e9SAndroid Build Coastguard Worker                scale=scale, return_debug_mask=is_dropout)
*da0073e9SAndroid Build Coastguard Worker            out = output_tuple[0]
*da0073e9SAndroid Build Coastguard Worker            dbug_mask = output_tuple[-1]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            query_padding_mask = torch.arange(max_seq_len_q).unsqueeze(0).expand(
*da0073e9SAndroid Build Coastguard Worker                batch_size, max_seq_len_q
*da0073e9SAndroid Build Coastguard Worker            ) < seq_lens_q.unsqueeze(-1)
*da0073e9SAndroid Build Coastguard Worker            query_padding_mask = query_padding_mask.to("cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            key_padding_mask = torch.arange(max_seq_len_kv).unsqueeze(0).expand(
*da0073e9SAndroid Build Coastguard Worker                batch_size, max_seq_len_kv
*da0073e9SAndroid Build Coastguard Worker            ) < seq_lens_kv.unsqueeze(-1)
*da0073e9SAndroid Build Coastguard Worker            key_padding_mask = key_padding_mask.to("cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            softmax_mask = self.convert_flash_attn_S_to_softmax(
*da0073e9SAndroid Build Coastguard Worker                dbug_mask, max_seq_len_q, max_seq_len_kv, query_padding_mask, key_padding_mask, causal=is_causal)
*da0073e9SAndroid Build Coastguard Worker            dropout_mask = softmax_mask >= 0
*da0073e9SAndroid Build Coastguard Worker            nt_stack = []
*da0073e9SAndroid Build Coastguard Worker            for tensor_component in range(batch_size):
*da0073e9SAndroid Build Coastguard Worker                batch_stack = []
*da0073e9SAndroid Build Coastguard Worker                for head in range(n_heads):
*da0073e9SAndroid Build Coastguard Worker                    batch_stack.append(dropout_mask[tensor_component, head,
*da0073e9SAndroid Build Coastguard Worker                                                    0:seq_lens_q[tensor_component],
*da0073e9SAndroid Build Coastguard Worker                                                    0:seq_lens_kv[tensor_component]].unsqueeze(0))
*da0073e9SAndroid Build Coastguard Worker                nt_stack.append(torch.cat(batch_stack))
*da0073e9SAndroid Build Coastguard Worker            nested_dropout_mask = torch.nested.nested_tensor(nt_stack)
*da0073e9SAndroid Build Coastguard Worker            # High Precision Math Reference
*da0073e9SAndroid Build Coastguard Worker            out_ref = torch.ops.aten._scaled_dot_product_attention_math(
*da0073e9SAndroid Build Coastguard Worker                query_ref, key_ref, value_ref, dropout_p=dropout_p,
*da0073e9SAndroid Build Coastguard Worker                is_causal=is_causal, scale=scale, dropout_mask=nested_dropout_mask)[0]
*da0073e9SAndroid Build Coastguard Worker            # Low Precision Math Reference
*da0073e9SAndroid Build Coastguard Worker            out_lp_ref = torch.ops.aten._scaled_dot_product_attention_math(
*da0073e9SAndroid Build Coastguard Worker                query_ref_lp, key_ref_lp, value_ref_lp, dropout_p=dropout_p, is_causal=is_causal, scale=scale,
*da0073e9SAndroid Build Coastguard Worker                dropout_mask=nested_dropout_mask)[0]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        upstream_grad = out.detach().clone().contiguous()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        out.backward(upstream_grad)
*da0073e9SAndroid Build Coastguard Worker        out_ref.backward(upstream_grad.to(out_ref.dtype))
*da0073e9SAndroid Build Coastguard Worker        out_lp_ref.backward(upstream_grad.to(out_lp_ref.dtype))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # See [Note] Fused Tolerances above
*da0073e9SAndroid Build Coastguard Worker        output_ref_atol, output_ref_rtol = calculate_nt_tolerances(out_ref, out_lp_ref, out.dtype)
*da0073e9SAndroid Build Coastguard Worker        grad_q_ref_atol, grad_q_ref_rtol = calculate_nt_tolerances(query_ref.grad, query_ref_lp.grad,
*da0073e9SAndroid Build Coastguard Worker                                                                   query.grad.dtype, fudge_factor=4)
*da0073e9SAndroid Build Coastguard Worker        grad_k_ref_atol, grad_k_ref_rtol = calculate_nt_tolerances(key_ref.grad, key_ref_lp.grad, key.grad.dtype)
*da0073e9SAndroid Build Coastguard Worker        grad_v_ref_atol, grad_v_ref_rtol = calculate_nt_tolerances(value_ref.grad, value_ref_lp.grad, value.grad.dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(out, out_ref.to(out.dtype), atol=output_ref_atol, rtol=output_ref_rtol)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(query.grad, query_ref.grad.to(query.grad.dtype),
*da0073e9SAndroid Build Coastguard Worker                         atol=grad_q_ref_atol, rtol=grad_q_ref_rtol)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(key.grad.contiguous(), key_ref.grad.contiguous().to(key.grad.dtype),
*da0073e9SAndroid Build Coastguard Worker                         atol=grad_k_ref_atol, rtol=grad_k_ref_rtol)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(value.grad, value_ref.grad.to(value.grad.dtype),
*da0073e9SAndroid Build Coastguard Worker                         atol=grad_v_ref_atol, rtol=grad_v_ref_rtol)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass TestAttnBias(NNTestCase):
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def run_test(
*da0073e9SAndroid Build Coastguard Worker        self,
*da0073e9SAndroid Build Coastguard Worker        device,
*da0073e9SAndroid Build Coastguard Worker        make_q,
*da0073e9SAndroid Build Coastguard Worker        make_kv,
*da0073e9SAndroid Build Coastguard Worker        attn_bias=None,
*da0073e9SAndroid Build Coastguard Worker        forw_tolerances: Optional[Tolerances] = None,
*da0073e9SAndroid Build Coastguard Worker        grad_tolerances: Optional[Tolerances] = None,
*da0073e9SAndroid Build Coastguard Worker        backend=None,
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        if backend is not None:
*da0073e9SAndroid Build Coastguard Worker            torch._dynamo.reset()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query, key, value = make_q(), make_kv(), make_kv()
*da0073e9SAndroid Build Coastguard Worker        query_prototype, key_prototype, value_prototype = query_key_value_clones(query, key, value)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        realized = attn_bias._materialize(device) if attn_bias is not None else None
*da0073e9SAndroid Build Coastguard Worker        pytorch_output = scaled_dot_product_attention(
*da0073e9SAndroid Build Coastguard Worker            query, key, value, attn_mask=realized, dropout_p=0.0, is_causal=False
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        sdpa_op = (
*da0073e9SAndroid Build Coastguard Worker            torch.compile(scaled_dot_product_attention, backend=backend)
*da0073e9SAndroid Build Coastguard Worker            if backend is not None
*da0073e9SAndroid Build Coastguard Worker            else scaled_dot_product_attention
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        sdpa_output = sdpa_op(
*da0073e9SAndroid Build Coastguard Worker            query_prototype,
*da0073e9SAndroid Build Coastguard Worker            key_prototype,
*da0073e9SAndroid Build Coastguard Worker            value_prototype,
*da0073e9SAndroid Build Coastguard Worker            attn_mask=attn_bias,
*da0073e9SAndroid Build Coastguard Worker            dropout_p=0.0,
*da0073e9SAndroid Build Coastguard Worker            is_causal=False,
*da0073e9SAndroid Build Coastguard Worker            scale=None,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        dOut = torch.randn_like(pytorch_output)
*da0073e9SAndroid Build Coastguard Worker        pytorch_output.backward(dOut)
*da0073e9SAndroid Build Coastguard Worker        sdpa_output.backward(dOut)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Use default assert_close tolerances for dtypes
*da0073e9SAndroid Build Coastguard Worker        if forw_tolerances is None:
*da0073e9SAndroid Build Coastguard Worker            forw_tolerances = Tolerances(atol=None, rtol=None)
*da0073e9SAndroid Build Coastguard Worker        if grad_tolerances is None:
*da0073e9SAndroid Build Coastguard Worker            grad_tolerances = Tolerances(atol=None, rtol=None)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch.testing.assert_close(pytorch_output, sdpa_output, rtol=forw_tolerances.rtol, atol=forw_tolerances.atol)
*da0073e9SAndroid Build Coastguard Worker        torch.testing.assert_close(query.grad, query_prototype.grad, rtol=grad_tolerances.rtol, atol=grad_tolerances.atol)
*da0073e9SAndroid Build Coastguard Worker        torch.testing.assert_close(key.grad, key_prototype.grad, rtol=grad_tolerances.rtol, atol=grad_tolerances.atol)
*da0073e9SAndroid Build Coastguard Worker        torch.testing.assert_close(value.grad, value_prototype.grad, rtol=grad_tolerances.rtol, atol=grad_tolerances.atol)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skipIfRocm  # No support for the second variant for now
*da0073e9SAndroid Build Coastguard Worker    @parametrize("causal_variant", [CausalVariant.UPPER_LEFT, CausalVariant.LOWER_RIGHT])
*da0073e9SAndroid Build Coastguard Worker    @parametrize(
*da0073e9SAndroid Build Coastguard Worker        "shape",
*da0073e9SAndroid Build Coastguard Worker        [(16, 16, 128, 128, 16), (16, 16, 128, 256, 32), (16, 16, 256, 128, 32), (1, 1, 23, 56, 15)],
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_causal_variants(self, device, causal_variant: CausalVariant, shape: List[Tuple[int]]):
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(
*da0073e9SAndroid Build Coastguard Worker            torch.rand, device=device, dtype=torch.float16, requires_grad=True
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        bsz, num_heads, seq_len_q, seq_len_kv, head_dim = shape
*da0073e9SAndroid Build Coastguard Worker        make_q_tensor = partial(make_tensor, SdpaShape(bsz, num_heads, seq_len_q, head_dim))
*da0073e9SAndroid Build Coastguard Worker        make_kv_tensor = partial(make_tensor, SdpaShape(bsz, num_heads, seq_len_kv, head_dim))
*da0073e9SAndroid Build Coastguard Worker        if causal_variant == CausalVariant.LOWER_RIGHT and seq_len_q > seq_len_kv:
*da0073e9SAndroid Build Coastguard Worker            self.skipTest(
*da0073e9SAndroid Build Coastguard Worker                "Lower right causal mask will produce NaNs in the output when seq_len_q > seq_len_kv!"
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        forw_tol = Tolerances(1e-3, 1e-3)
*da0073e9SAndroid Build Coastguard Worker        grad_tol = Tolerances(5e-3, 5e-3)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if causal_variant == CausalVariant.UPPER_LEFT:
*da0073e9SAndroid Build Coastguard Worker            attn_bias = causal_upper_left(seq_len_q, seq_len_kv)
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            attn_bias = causal_lower_right(seq_len_q, seq_len_kv)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.run_test(device, make_q_tensor, make_kv_tensor, attn_bias, forw_tol, grad_tol, backend=None)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skipIfRocm  # CausalVariant
*da0073e9SAndroid Build Coastguard Worker    @parametrize("causal_variant", [CausalVariant.UPPER_LEFT, CausalVariant.LOWER_RIGHT])
*da0073e9SAndroid Build Coastguard Worker    @parametrize(
*da0073e9SAndroid Build Coastguard Worker        "shape",
*da0073e9SAndroid Build Coastguard Worker        [(16, 16, 128, 128, 16), (16, 16, 128, 256, 32), (16, 16, 256, 128, 32), (1, 1, 23, 56, 15)],
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(IS_WINDOWS, "torch.compile is not supported on windows")
*da0073e9SAndroid Build Coastguard Worker    @skipIfTorchDynamo("This function already calls torch.compile.")
*da0073e9SAndroid Build Coastguard Worker    def test_causal_variants_compile(self, device, causal_variant: CausalVariant, shape: List[Tuple[int]]):
*da0073e9SAndroid Build Coastguard Worker        cnts = CompileCounterWithBackend("aot_eager")
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(
*da0073e9SAndroid Build Coastguard Worker            torch.rand, device=device, dtype=torch.float16, requires_grad=True
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        bsz, num_heads, seq_len_q, seq_len_kv, head_dim = shape
*da0073e9SAndroid Build Coastguard Worker        make_q_tensor = partial(make_tensor, SdpaShape(bsz, num_heads, seq_len_q, head_dim))
*da0073e9SAndroid Build Coastguard Worker        make_kv_tensor = partial(make_tensor, SdpaShape(bsz, num_heads, seq_len_kv, head_dim))
*da0073e9SAndroid Build Coastguard Worker        if causal_variant == CausalVariant.LOWER_RIGHT and seq_len_q > seq_len_kv:
*da0073e9SAndroid Build Coastguard Worker            self.skipTest(
*da0073e9SAndroid Build Coastguard Worker                "Lower right causal mask will produce NaNs in the output when seq_len_q > seq_len_kv!"
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker        forw_tol = Tolerances(1e-3, 1e-3)
*da0073e9SAndroid Build Coastguard Worker        grad_tol = Tolerances(5e-3, 5e-3)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if causal_variant == CausalVariant.UPPER_LEFT:
*da0073e9SAndroid Build Coastguard Worker            attn_bias = causal_upper_left(seq_len_q, seq_len_kv)
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            attn_bias = causal_lower_right(seq_len_q, seq_len_kv)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.run_test(device, make_q_tensor, make_kv_tensor, attn_bias, forw_tol, grad_tol, backend=cnts)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(cnts.frame_count, 1, "Compiled graph should have 1 frame!")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @parametrize("shape", [(16, 16, 128, 128, 16), (16, 16, 128, 256, 32), (16, 16, 256, 128, 32), (1, 1, 23, 56, 15)])
*da0073e9SAndroid Build Coastguard Worker    def test_is_causal_equals_upper_left(self, device, shape: List[Tuple[int]]):
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(
*da0073e9SAndroid Build Coastguard Worker            torch.rand, device=device, dtype=torch.float16, requires_grad=True
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        bsz, num_heads, seq_len_q, seq_len_kv, head_dim = shape
*da0073e9SAndroid Build Coastguard Worker        make_q_tensor = partial(make_tensor, SdpaShape(bsz, num_heads, seq_len_q, head_dim))
*da0073e9SAndroid Build Coastguard Worker        make_kv_tensor = partial(make_tensor, SdpaShape(bsz, num_heads, seq_len_kv, head_dim))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        forw_tol = Tolerances(1e-3, 1e-3)
*da0073e9SAndroid Build Coastguard Worker        grad_tol = Tolerances(5e-3, 5e-3)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query = make_q_tensor()
*da0073e9SAndroid Build Coastguard Worker        key = make_kv_tensor()
*da0073e9SAndroid Build Coastguard Worker        value = make_kv_tensor()
*da0073e9SAndroid Build Coastguard Worker        attn_bias = causal_upper_left(seq_len_q, seq_len_kv)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        out_attn_bias = scaled_dot_product_attention(query, key, value, attn_mask=attn_bias, dropout_p=0.0)
*da0073e9SAndroid Build Coastguard Worker        out_is_causal = scaled_dot_product_attention(query, key, value, is_causal=True, dropout_p=0.0)
*da0073e9SAndroid Build Coastguard Worker        torch.testing.assert_close(out_attn_bias, out_is_causal, rtol=forw_tol.rtol, atol=forw_tol.atol)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_is_causal_and_mask_fails(self, device):
*da0073e9SAndroid Build Coastguard Worker        make_tensor = partial(
*da0073e9SAndroid Build Coastguard Worker            torch.rand, device=device, dtype=torch.float16, requires_grad=True
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        make_q_tensor = partial(make_tensor, SdpaShape(16, 16, 128, 16))
*da0073e9SAndroid Build Coastguard Worker        make_kv_tensor = partial(make_tensor, SdpaShape(16, 16, 128, 16))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        query = make_q_tensor()
*da0073e9SAndroid Build Coastguard Worker        key = make_kv_tensor()
*da0073e9SAndroid Build Coastguard Worker        value = make_kv_tensor()
*da0073e9SAndroid Build Coastguard Worker        attn_bias = causal_upper_left(128, 128)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(ValueError, "CausalBias should not be used with causal=True"):
*da0073e9SAndroid Build Coastguard Worker            scaled_dot_product_attention(query, key, value, attn_mask=attn_bias, is_causal=True, dropout_p=0.0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerif NOTEST_CPU:
*da0073e9SAndroid Build Coastguard Worker    device_types = ("cuda", )
*da0073e9SAndroid Build Coastguard Workerelse:
*da0073e9SAndroid Build Coastguard Worker    device_types = ("cpu", "cuda")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerinstantiate_device_type_tests(TestTransformers, globals(), only_for=device_types)
*da0073e9SAndroid Build Coastguard Workerinstantiate_device_type_tests(TestSDPAFailureModes, globals(), only_for=device_types)
*da0073e9SAndroid Build Coastguard Workerinstantiate_device_type_tests(TestSDPA, globals(), only_for=device_types)
*da0073e9SAndroid Build Coastguard Workerinstantiate_device_type_tests(TestSDPACudaOnly, globals(), only_for=("cuda"))
*da0073e9SAndroid Build Coastguard Workerinstantiate_device_type_tests(TestAttnBias, globals(), only_for=device_types)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerif __name__ == '__main__':
*da0073e9SAndroid Build Coastguard Worker    run_tests()