pytorch/test/test_mkldnn.py

*da0073e9SAndroid Build Coastguard Worker# Owner(s): ["module: mkldnn"]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport copy
*da0073e9SAndroid Build Coastguard Workerimport itertools
*da0073e9SAndroid Build Coastguard Workerimport functools
*da0073e9SAndroid Build Coastguard Workerimport unittest
*da0073e9SAndroid Build Coastguard Workerfrom contextlib import nullcontext
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertry:
*da0073e9SAndroid Build Coastguard Worker    import torchvision
*da0073e9SAndroid Build Coastguard Worker    HAS_TORCHVISION = True
*da0073e9SAndroid Build Coastguard Workerexcept ImportError:
*da0073e9SAndroid Build Coastguard Worker    HAS_TORCHVISION = False
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerskipIfNoTorchVision = unittest.skipIf(not HAS_TORCHVISION, "no torchvision")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport torch
*da0073e9SAndroid Build Coastguard Workerimport torch.nn.functional as F
*da0073e9SAndroid Build Coastguard Workerimport torch.jit
*da0073e9SAndroid Build Coastguard Workerimport torch.backends.mkldnn
*da0073e9SAndroid Build Coastguard Workerfrom torch.utils import mkldnn as mkldnn_utils
*da0073e9SAndroid Build Coastguard Workerfrom torch.testing._internal.common_utils import TestCase, \
*da0073e9SAndroid Build Coastguard Worker    run_tests, TemporaryFileName, gradcheck, gradgradcheck, IS_WINDOWS, \
*da0073e9SAndroid Build Coastguard Worker    skipIfTorchDynamo, xfailIfTorchDynamo
*da0073e9SAndroid Build Coastguard Workerfrom torch.testing._internal.common_device_type import (
*da0073e9SAndroid Build Coastguard Worker    instantiate_device_type_tests,
*da0073e9SAndroid Build Coastguard Worker    dtypes,
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker# batched grad doesn't support mkldnn
*da0073e9SAndroid Build Coastguard Workergradcheck = functools.partial(gradcheck, check_batched_grad=False)
*da0073e9SAndroid Build Coastguard Workergradgradcheck = functools.partial(gradgradcheck, check_batched_grad=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertypes = [torch.float, torch.bfloat16, torch.half]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker# Comment the line below to find out the CI machines having MKL-DNN build disabled
*da0073e9SAndroid Build Coastguard Worker@unittest.skipIf(not torch.backends.mkldnn.is_available(), "MKL-DNN build is disabled")
*da0073e9SAndroid Build Coastguard Workerclass TestMkldnn(TestCase):
*da0073e9SAndroid Build Coastguard Worker    def test_conversion(self):
*da0073e9SAndroid Build Coastguard Worker        for cpu_tensor in [torch.randn((1, 2, 3, 4),
*da0073e9SAndroid Build Coastguard Worker                                       dtype=torch.float, device=torch.device('cpu')),
*da0073e9SAndroid Build Coastguard Worker                           torch.randn((1, 2, 3, 4, 5),
*da0073e9SAndroid Build Coastguard Worker                                       dtype=torch.float, device=torch.device('cpu'))[:, :, :, :, 1]]:
*da0073e9SAndroid Build Coastguard Worker            cpu_tensor.requires_grad_()
*da0073e9SAndroid Build Coastguard Worker            convert_dtypes = {torch.half: [torch.half, torch.float],
*da0073e9SAndroid Build Coastguard Worker                              torch.bfloat16: [torch.bfloat16, torch.float],
*da0073e9SAndroid Build Coastguard Worker                              torch.float: [torch.bfloat16, torch.half]}
*da0073e9SAndroid Build Coastguard Worker            # float/bfloat16/half cpu tensor to mkldnn tensortensor.
*da0073e9SAndroid Build Coastguard Worker            for dtype1 in types:
*da0073e9SAndroid Build Coastguard Worker                mkldnn_tensor = cpu_tensor.to_mkldnn(dtype1)
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(mkldnn_tensor.dtype, dtype1)
*da0073e9SAndroid Build Coastguard Worker                cpu_tensor_1 = mkldnn_tensor.to_dense()
*da0073e9SAndroid Build Coastguard Worker                # not given dtype for to_dense, mkldnn tensor has same dtype with cpu tensor
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(mkldnn_tensor.dtype, cpu_tensor_1.dtype)
*da0073e9SAndroid Build Coastguard Worker                # mkldnn float/bfloat tensor to cpu float or bfloat tensor
*da0073e9SAndroid Build Coastguard Worker                for dtype2 in convert_dtypes[dtype1]:
*da0073e9SAndroid Build Coastguard Worker                    cpu_tensor_2 = mkldnn_tensor.to_dense(dtype2)
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(cpu_tensor_2.dtype, dtype2)
*da0073e9SAndroid Build Coastguard Worker                    atol = 1e-5 if dtype1 == torch.float and dtype2 == torch.float else 1e-2
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(cpu_tensor, cpu_tensor_2.float(), atol=atol, rtol=0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(mkldnn_tensor.device, torch.device('cpu'))
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(mkldnn_tensor.size(), torch.Size([1, 2, 3, 4]))
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(mkldnn_tensor.numel(), cpu_tensor.numel())
*da0073e9SAndroid Build Coastguard Worker                if dtype1 == torch.float:
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(mkldnn_tensor.element_size(), cpu_tensor.element_size())
*da0073e9SAndroid Build Coastguard Worker                else:
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(mkldnn_tensor.element_size(), cpu_tensor.element_size() / 2)
*da0073e9SAndroid Build Coastguard Worker                self.assertRaisesRegex(RuntimeError,
*da0073e9SAndroid Build Coastguard Worker                                       "Cannot access data pointer of Tensor that doesn't have storage",
*da0073e9SAndroid Build Coastguard Worker                                       lambda: mkldnn_tensor.data_ptr() != 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # bfloat cpu tensor to mkldnn float tensor or bfloat tensor.
*da0073e9SAndroid Build Coastguard Worker            for orig_dtype in [torch.half, torch.bfloat16]:
*da0073e9SAndroid Build Coastguard Worker                cpu_tensor_lower = cpu_tensor.to(dtype=orig_dtype)
*da0073e9SAndroid Build Coastguard Worker                for dtype1 in convert_dtypes[orig_dtype]:
*da0073e9SAndroid Build Coastguard Worker                    mkldnn_tensor = cpu_tensor_lower.to_mkldnn(dtype1)
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(mkldnn_tensor.dtype, dtype1)
*da0073e9SAndroid Build Coastguard Worker                    cpu_tensor_1 = mkldnn_tensor.to_dense()
*da0073e9SAndroid Build Coastguard Worker                    # not given dtype for to_dense, mkldnn tensor has same dtype with cpu tensor
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(mkldnn_tensor.dtype, cpu_tensor_1.dtype)
*da0073e9SAndroid Build Coastguard Worker                    # mkldnn float/bfloat/half tensor to cpu float/bfloat/half tensor
*da0073e9SAndroid Build Coastguard Worker                    for dtype2 in convert_dtypes[cpu_tensor_lower.dtype]:
*da0073e9SAndroid Build Coastguard Worker                        cpu_tensor_2 = mkldnn_tensor.to_dense(dtype2)
*da0073e9SAndroid Build Coastguard Worker                        self.assertEqual(cpu_tensor_2.dtype, dtype2)
*da0073e9SAndroid Build Coastguard Worker                        self.assertEqual(cpu_tensor_lower,
*da0073e9SAndroid Build Coastguard Worker                                         cpu_tensor_2.to(dtype=cpu_tensor_lower.dtype), atol=1e-5, rtol=0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(mkldnn_tensor.device, torch.device('cpu'))
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(mkldnn_tensor.size(), torch.Size([1, 2, 3, 4]))
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(mkldnn_tensor.numel(), cpu_tensor.numel())
*da0073e9SAndroid Build Coastguard Worker                    if dtype1 in [torch.bfloat16, torch.half]:
*da0073e9SAndroid Build Coastguard Worker                        self.assertEqual(mkldnn_tensor.element_size(), cpu_tensor_lower.element_size())
*da0073e9SAndroid Build Coastguard Worker                    else:
*da0073e9SAndroid Build Coastguard Worker                        self.assertEqual(mkldnn_tensor.element_size(), cpu_tensor_lower.element_size() * 2)
*da0073e9SAndroid Build Coastguard Worker                    self.assertRaisesRegex(RuntimeError,
*da0073e9SAndroid Build Coastguard Worker                                           "Cannot access data pointer of Tensor that doesn't have storage",
*da0073e9SAndroid Build Coastguard Worker                                           lambda: mkldnn_tensor.data_ptr() != 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_conversion_byte_char(self):
*da0073e9SAndroid Build Coastguard Worker        int8_types = [torch.int8, torch.uint8]
*da0073e9SAndroid Build Coastguard Worker        for int8_type in int8_types:
*da0073e9SAndroid Build Coastguard Worker            low = -100 if int8_type is torch.int8 else 0
*da0073e9SAndroid Build Coastguard Worker            high = 100
*da0073e9SAndroid Build Coastguard Worker            for cpu_tensor in [torch.randint(
*da0073e9SAndroid Build Coastguard Worker                               low=low,
*da0073e9SAndroid Build Coastguard Worker                               high=high,
*da0073e9SAndroid Build Coastguard Worker                               size=(1, 2, 3, 4),
*da0073e9SAndroid Build Coastguard Worker                               dtype=torch.int64,
*da0073e9SAndroid Build Coastguard Worker                               device=torch.device('cpu')),
*da0073e9SAndroid Build Coastguard Worker                               torch.randint(
*da0073e9SAndroid Build Coastguard Worker                               low=low,
*da0073e9SAndroid Build Coastguard Worker                               high=high,
*da0073e9SAndroid Build Coastguard Worker                               size=(1, 2, 3, 4, 5),
*da0073e9SAndroid Build Coastguard Worker                               dtype=torch.int64,
*da0073e9SAndroid Build Coastguard Worker                               device=torch.device('cpu'))[:, :, :, :, :]]:
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                cpu_tensor = cpu_tensor.to(dtype=int8_type)
*da0073e9SAndroid Build Coastguard Worker                mkldnn_tensor = cpu_tensor.to_mkldnn(int8_type)
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(mkldnn_tensor.dtype, int8_type)
*da0073e9SAndroid Build Coastguard Worker                cpu_tensor_1 = mkldnn_tensor.to_dense()
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(mkldnn_tensor.dtype, cpu_tensor_1.dtype)
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(cpu_tensor, cpu_tensor_1)
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(mkldnn_tensor.device, torch.device('cpu'))
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(mkldnn_tensor.size(), cpu_tensor.size())
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(mkldnn_tensor.numel(), cpu_tensor.numel())
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(mkldnn_tensor.element_size(), cpu_tensor.element_size())
*da0073e9SAndroid Build Coastguard Worker                self.assertRaisesRegex(RuntimeError,
*da0073e9SAndroid Build Coastguard Worker                                       "Cannot access data pointer of Tensor that doesn't have storage",
*da0073e9SAndroid Build Coastguard Worker                                       lambda: mkldnn_tensor.data_ptr() != 0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_copy(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(4, 5, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        mkldnn_x = x.to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        mkldnn_y = torch.randn(4, 5, dtype=torch.float32).to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        mkldnn_z = torch.randn(4, 10, dtype=torch.float32).to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        mkldnn_y.copy_(mkldnn_x)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x, mkldnn_y.to_dense())
*da0073e9SAndroid Build Coastguard Worker        self.assertRaisesRegex(RuntimeError,
*da0073e9SAndroid Build Coastguard Worker                               "copy_mkldnn_: only support same size tensor.",
*da0073e9SAndroid Build Coastguard Worker                               lambda: mkldnn_z.copy_(mkldnn_x))
*da0073e9SAndroid Build Coastguard Worker        self.assertRaisesRegex(RuntimeError,
*da0073e9SAndroid Build Coastguard Worker                               "copy_mkldnn_: between mkldnn layout and dense Tensors is not implemented! "
*da0073e9SAndroid Build Coastguard Worker                               "Found self type = torch.FloatTensor and src type = Mkldnntorch.FloatTensor",
*da0073e9SAndroid Build Coastguard Worker                               lambda: x.copy_(mkldnn_x))
*da0073e9SAndroid Build Coastguard Worker        self.assertRaisesRegex(RuntimeError,
*da0073e9SAndroid Build Coastguard Worker                               "copy_mkldnn_: between mkldnn layout and dense Tensors is not implemented! "
*da0073e9SAndroid Build Coastguard Worker                               "Found self type = Mkldnntorch.FloatTensor and src type = torch.FloatTensor",
*da0073e9SAndroid Build Coastguard Worker                               lambda: mkldnn_x.copy_(x))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_unsupported(self):
*da0073e9SAndroid Build Coastguard Worker        # unsupported types and unsupported types with gpu
*da0073e9SAndroid Build Coastguard Worker        for dtype in [torch.double, torch.uint8, torch.int8,
*da0073e9SAndroid Build Coastguard Worker                      torch.short, torch.int, torch.long]:
*da0073e9SAndroid Build Coastguard Worker            with self.assertRaises(RuntimeError) as context:
*da0073e9SAndroid Build Coastguard Worker                torch.randn(1, 2, 3, 4, dtype=dtype, device=torch.device('cpu')).to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker            if torch.cuda.is_available():
*da0073e9SAndroid Build Coastguard Worker                with self.assertRaises(RuntimeError) as context:
*da0073e9SAndroid Build Coastguard Worker                    torch.randn(1, 2, 3, 4, dtype=dtype, device=torch.device('cuda')).to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        # supported type with gpu
*da0073e9SAndroid Build Coastguard Worker        if torch.cuda.is_available():
*da0073e9SAndroid Build Coastguard Worker            with self.assertRaises(RuntimeError) as context:
*da0073e9SAndroid Build Coastguard Worker                torch.randn(1, 2, 3, 4, dtype=torch.float, device=torch.device('cuda')).to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        # some factory functions
*da0073e9SAndroid Build Coastguard Worker        for creator in [torch.ones, torch.randn, torch.rand]:
*da0073e9SAndroid Build Coastguard Worker            with self.assertRaises(RuntimeError) as context:
*da0073e9SAndroid Build Coastguard Worker                creator(1, 2, 3, 4, dtype=torch.float, device=torch.device('cpu'), layout=torch._mkldnn)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_mkldnn_conv_shapecheck(self):
*da0073e9SAndroid Build Coastguard Worker        input = torch.full((1, 1, 1, 24,), 1, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        w1 = torch.full((1, 1, 1, 24,), 1, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        b1 = torch.full((1,), 1, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        w2 = torch.full((1, 1, 2, 24,), 1, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        b2 = torch.full((2,), 1, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        options = zip([-1, 0, 0, 0, 0, 0, 0],  # padding
*da0073e9SAndroid Build Coastguard Worker                      [1, 0, 1, 1, 1, 1, 1],  # stride
*da0073e9SAndroid Build Coastguard Worker                      [1, 1, 0, 1, 1, 1, 1],  # dilation
*da0073e9SAndroid Build Coastguard Worker                      [1, 1, 1, 0, 2, 1, 1],  # groups
*da0073e9SAndroid Build Coastguard Worker                      [w1, w1, w1, w1, w1, w1, w2],  # weight
*da0073e9SAndroid Build Coastguard Worker                      [b1, b1, b1, b1, b1, b2, b1])  # bias
*da0073e9SAndroid Build Coastguard Worker        for pad, st, dil, gr, w, b in options:
*da0073e9SAndroid Build Coastguard Worker            with self.assertRaises(RuntimeError) as _:
*da0073e9SAndroid Build Coastguard Worker                torch.mkldnn_convolution(input, w, b, [pad] * 2, [st] * 2, [dil] * 2, gr)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_autograd_to_mkldnn(self):
*da0073e9SAndroid Build Coastguard Worker        # MKLDNN only supports float32
*da0073e9SAndroid Build Coastguard Worker        root = torch.randn(4, 5, dtype=torch.float32, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def func(root):
*da0073e9SAndroid Build Coastguard Worker            return root.to_mkldnn().to_dense()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # because MKLDNN only supports float32, we need to lessen the precision.
*da0073e9SAndroid Build Coastguard Worker        # these numbers are just empirical results that seem to work.
*da0073e9SAndroid Build Coastguard Worker        self.assertWarnsRegex(UserWarning,
*da0073e9SAndroid Build Coastguard Worker                              'double precision floating point',
*da0073e9SAndroid Build Coastguard Worker                              lambda: gradcheck(func, [root], atol=4e-2, rtol=1e-2))
*da0073e9SAndroid Build Coastguard Worker        self.assertWarnsRegex(UserWarning,
*da0073e9SAndroid Build Coastguard Worker                              'double precision floating point',
*da0073e9SAndroid Build Coastguard Worker                              lambda: gradgradcheck(func, [root], atol=4e-2, rtol=1e-2))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_autograd_from_mkldnn(self):
*da0073e9SAndroid Build Coastguard Worker        # MKLDNN only supports float32
*da0073e9SAndroid Build Coastguard Worker        root = torch.randn(4, 5, dtype=torch.float32).to_mkldnn().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def func(root):
*da0073e9SAndroid Build Coastguard Worker            return root.to_dense()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # because MKLDNN only supports float32, we need to lessen the precision.
*da0073e9SAndroid Build Coastguard Worker        # these numbers are just empirical results that seem to work.
*da0073e9SAndroid Build Coastguard Worker        self.assertWarnsRegex(UserWarning,
*da0073e9SAndroid Build Coastguard Worker                              'double precision floating point',
*da0073e9SAndroid Build Coastguard Worker                              lambda: gradcheck(func, [root], atol=4e-2, rtol=1e-2))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_detach(self):
*da0073e9SAndroid Build Coastguard Worker        root = torch.randn(4, 5, dtype=torch.float32).to_mkldnn().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        detach = root.detach()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual((4, 5), detach.size())
*da0073e9SAndroid Build Coastguard Worker        self.assertFalse(detach.requires_grad)
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(root.requires_grad)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        detach_ = root.detach_()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual((4, 5), detach_.size())
*da0073e9SAndroid Build Coastguard Worker        self.assertFalse(detach_.requires_grad)
*da0073e9SAndroid Build Coastguard Worker        self.assertFalse(root.requires_grad)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_repr(self):
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue("layout=torch._mkldnn" in str(torch.randn((1, 2, 3, 4),
*da0073e9SAndroid Build Coastguard Worker                                                                  dtype=torch.float, device=torch.device('cpu')).to_mkldnn()))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _test_conv_base(self, dim):
*da0073e9SAndroid Build Coastguard Worker        conv_module = {1: torch.nn.Conv1d, 2: torch.nn.Conv2d, 3: torch.nn.Conv3d}
*da0073e9SAndroid Build Coastguard Worker        input_shapes = {1: (224,), 2: (224, 224), 3: (55, 55, 55)}
*da0073e9SAndroid Build Coastguard Worker        options = itertools.product([True, False], [True, False], [1, 2], [1, 4])
*da0073e9SAndroid Build Coastguard Worker        for train, bias, dilation, groups in options:
*da0073e9SAndroid Build Coastguard Worker            N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker            M = torch.randint(1, 3, (1,)).item() * groups
*da0073e9SAndroid Build Coastguard Worker            C = torch.randint(1, 3, (1,)).item() * groups
*da0073e9SAndroid Build Coastguard Worker            x_shape = (N, C) + input_shapes[dim]
*da0073e9SAndroid Build Coastguard Worker            x = torch.randn(x_shape, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker            conv = conv_module[dim](in_channels=C,
*da0073e9SAndroid Build Coastguard Worker                                    out_channels=M,
*da0073e9SAndroid Build Coastguard Worker                                    kernel_size=3,
*da0073e9SAndroid Build Coastguard Worker                                    stride=2,
*da0073e9SAndroid Build Coastguard Worker                                    padding=1,
*da0073e9SAndroid Build Coastguard Worker                                    dilation=dilation,
*da0073e9SAndroid Build Coastguard Worker                                    bias=bias,
*da0073e9SAndroid Build Coastguard Worker                                    groups=groups).float()
*da0073e9SAndroid Build Coastguard Worker            x1 = x.clone()
*da0073e9SAndroid Build Coastguard Worker            x2 = x.clone().to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker            if not train:
*da0073e9SAndroid Build Coastguard Worker                mkldnn_conv = mkldnn_utils.to_mkldnn(copy.deepcopy(conv))
*da0073e9SAndroid Build Coastguard Worker            elif train and dim != 1:
*da0073e9SAndroid Build Coastguard Worker                # TODO: enable conv1d training.
*da0073e9SAndroid Build Coastguard Worker                x1.requires_grad_()
*da0073e9SAndroid Build Coastguard Worker                x2.requires_grad_()
*da0073e9SAndroid Build Coastguard Worker                mkldnn_conv = copy.deepcopy(conv)
*da0073e9SAndroid Build Coastguard Worker            with torch.backends.mkldnn.flags(enabled=False):
*da0073e9SAndroid Build Coastguard Worker                y_aten = conv(x1)
*da0073e9SAndroid Build Coastguard Worker                if train and dim != 1:
*da0073e9SAndroid Build Coastguard Worker                    loss1 = y_aten.sum()
*da0073e9SAndroid Build Coastguard Worker                    loss1.backward()
*da0073e9SAndroid Build Coastguard Worker            if not train or (train and dim != 1):
*da0073e9SAndroid Build Coastguard Worker                y_mkldnn = mkldnn_conv(x2).to_dense()
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(y_aten, y_mkldnn)
*da0073e9SAndroid Build Coastguard Worker            if not train:
*da0073e9SAndroid Build Coastguard Worker                self._test_serialization(mkldnn_conv, (x.to_mkldnn(),))
*da0073e9SAndroid Build Coastguard Worker                self._test_tracing(mkldnn_conv, (x.to_mkldnn(),))
*da0073e9SAndroid Build Coastguard Worker            elif dim != 1:
*da0073e9SAndroid Build Coastguard Worker                loss2 = y_mkldnn.sum()
*da0073e9SAndroid Build Coastguard Worker                loss2.backward()
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(x2.grad.is_mkldnn)
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(x1.grad, x2.grad.to_dense())
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(conv.weight.grad,
*da0073e9SAndroid Build Coastguard Worker                                 mkldnn_conv.weight.grad,
*da0073e9SAndroid Build Coastguard Worker                                 atol=1e-3,
*da0073e9SAndroid Build Coastguard Worker                                 rtol=1e-3)
*da0073e9SAndroid Build Coastguard Worker                if bias:
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(conv.bias.grad, mkldnn_conv.bias.grad)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_conv1d(self):
*da0073e9SAndroid Build Coastguard Worker        self._test_conv_base(dim=1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_conv2d(self):
*da0073e9SAndroid Build Coastguard Worker        self._test_conv_base(dim=2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_conv3d(self):
*da0073e9SAndroid Build Coastguard Worker        self._test_conv_base(dim=3)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _test_conv_deconv_lower_precision_base(self, dim, conv_module, dtype):
*da0073e9SAndroid Build Coastguard Worker        input_shapes = {1: (224,), 2: (224, 224), 3: (55, 55, 55)}
*da0073e9SAndroid Build Coastguard Worker        options = itertools.product([True, False], [1, 2], [1, 4])
*da0073e9SAndroid Build Coastguard Worker        for bias, dilation, groups in options:
*da0073e9SAndroid Build Coastguard Worker            N = torch.randint(1, 3, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker            M = torch.randint(1, 3, (1,)).item() * groups
*da0073e9SAndroid Build Coastguard Worker            C = torch.randint(1, 3, (1,)).item() * groups
*da0073e9SAndroid Build Coastguard Worker            x_shape = (N, C) + input_shapes[dim]
*da0073e9SAndroid Build Coastguard Worker            x = torch.randn(x_shape, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker            # TODO: remove this when group depthwise is supported:
*da0073e9SAndroid Build Coastguard Worker            if conv_module in [torch.nn.ConvTranspose1d, torch.nn.ConvTranspose2d,
*da0073e9SAndroid Build Coastguard Worker                               torch.nn.ConvTranspose3d] and groups > 1 and C == groups:
*da0073e9SAndroid Build Coastguard Worker                continue
*da0073e9SAndroid Build Coastguard Worker            conv = conv_module(in_channels=C,
*da0073e9SAndroid Build Coastguard Worker                               out_channels=M,
*da0073e9SAndroid Build Coastguard Worker                               kernel_size=3,
*da0073e9SAndroid Build Coastguard Worker                               stride=2,
*da0073e9SAndroid Build Coastguard Worker                               padding=1,
*da0073e9SAndroid Build Coastguard Worker                               dilation=dilation,
*da0073e9SAndroid Build Coastguard Worker                               bias=bias,
*da0073e9SAndroid Build Coastguard Worker                               groups=groups).float()
*da0073e9SAndroid Build Coastguard Worker            x_lower = x.to(dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            if (dtype == torch.bfloat16 and torch.ops.mkldnn._is_mkldnn_bf16_supported()) or \
*da0073e9SAndroid Build Coastguard Worker               (dtype == torch.half and torch.ops.mkldnn._is_mkldnn_fp16_supported()):
*da0073e9SAndroid Build Coastguard Worker                mkldnn_conv = mkldnn_utils.to_mkldnn(copy.deepcopy(conv))
*da0073e9SAndroid Build Coastguard Worker                mkldnn_conv_lower = mkldnn_utils.to_mkldnn(copy.deepcopy(conv), dtype)
*da0073e9SAndroid Build Coastguard Worker                y = mkldnn_conv(x.to_mkldnn()).to_dense()
*da0073e9SAndroid Build Coastguard Worker                y_lower = mkldnn_conv_lower(x_lower.to_mkldnn()).to_dense(torch.float32)
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(y, y_lower, atol=1e-1, rtol=1e-3)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                msg = {
*da0073e9SAndroid Build Coastguard Worker                    torch.bfloat16: r"bf16 path needs the cpu support avx_ne_convert or avx512bw, avx512vl and avx512dq",
*da0073e9SAndroid Build Coastguard Worker                    torch.half: r"fp16 path needs the cpu support avx_ne_convert or avx512_fp16",
*da0073e9SAndroid Build Coastguard Worker                }
*da0073e9SAndroid Build Coastguard Worker                with self.assertRaisesRegex(RuntimeError, msg[dtype]):
*da0073e9SAndroid Build Coastguard Worker                    mkldnn_conv_lower = mkldnn_utils.to_mkldnn(copy.deepcopy(conv), dtype)
*da0073e9SAndroid Build Coastguard Worker                    y_lower = mkldnn_conv_lower(x_lower.to_mkldnn()).to_dense(torch.float32)
*da0073e9SAndroid Build Coastguard Worker            # test thnn impl
*da0073e9SAndroid Build Coastguard Worker            conv_lower = copy.deepcopy(conv).to(dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            conv_ref = copy.deepcopy(conv_lower).float()
*da0073e9SAndroid Build Coastguard Worker            with torch.backends.mkldnn.flags(enabled=False):
*da0073e9SAndroid Build Coastguard Worker                x_ref = x_lower.clone().float().detach().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker                x_lower.requires_grad_()
*da0073e9SAndroid Build Coastguard Worker                y = conv_ref(x_ref)
*da0073e9SAndroid Build Coastguard Worker                y_lower = conv_lower(x_lower).float()
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(y, y_lower, atol=5e-2, rtol=5e-3)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @dtypes(torch.float16, torch.bfloat16)
*da0073e9SAndroid Build Coastguard Worker    def test_conv_deconv_1d_lower_precision(self, dtype):
*da0073e9SAndroid Build Coastguard Worker        self._test_conv_deconv_lower_precision_base(1, torch.nn.Conv1d, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        self._test_conv_deconv_lower_precision_base(1, torch.nn.ConvTranspose1d, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @dtypes(torch.float16, torch.bfloat16)
*da0073e9SAndroid Build Coastguard Worker    def test_conv_deconv_2d_lower_precision(self, dtype):
*da0073e9SAndroid Build Coastguard Worker        self._test_conv_deconv_lower_precision_base(2, torch.nn.Conv2d, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        self._test_conv_deconv_lower_precision_base(2, torch.nn.ConvTranspose2d, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @dtypes(torch.float16, torch.bfloat16)
*da0073e9SAndroid Build Coastguard Worker    def test_conv_deconv_3d_lower_precision(self, dtype):
*da0073e9SAndroid Build Coastguard Worker        self._test_conv_deconv_lower_precision_base(3, torch.nn.Conv3d, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker        self._test_conv_deconv_lower_precision_base(3, torch.nn.ConvTranspose3d, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _test_conv_deconv_nhwc_base(self, conv_module, weight_memory_format, dtype, prec=None):
*da0073e9SAndroid Build Coastguard Worker        input_shapes = {2: (55, 55), 3: (14, 14, 14)}
*da0073e9SAndroid Build Coastguard Worker        options = itertools.product([True, False], [True, False], [1, 2], [1, 4])
*da0073e9SAndroid Build Coastguard Worker        if conv_module in [torch.nn.Conv2d, torch.nn.ConvTranspose2d]:
*da0073e9SAndroid Build Coastguard Worker            cl_format = torch.channels_last
*da0073e9SAndroid Build Coastguard Worker            input_shape = input_shapes[2]
*da0073e9SAndroid Build Coastguard Worker        elif conv_module in [torch.nn.Conv3d, torch.nn.ConvTranspose3d]:
*da0073e9SAndroid Build Coastguard Worker            cl_format = torch.channels_last_3d
*da0073e9SAndroid Build Coastguard Worker            input_shape = input_shapes[3]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for train, bias, dilation, groups in options:
*da0073e9SAndroid Build Coastguard Worker            N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker            M = torch.randint(1, 3, (1,)).item() * groups
*da0073e9SAndroid Build Coastguard Worker            C = torch.randint(1, 3, (1,)).item() * groups
*da0073e9SAndroid Build Coastguard Worker            x_shape = (N, C) + input_shape
*da0073e9SAndroid Build Coastguard Worker            x = torch.randn(x_shape, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # conv1: mkldnn conv/deconv in contiguous memory format (nchw)
*da0073e9SAndroid Build Coastguard Worker            # conv2: mkldnn conv/deconv in channels last memory format (nhwc)
*da0073e9SAndroid Build Coastguard Worker            conv1 = conv_module(in_channels=C,
*da0073e9SAndroid Build Coastguard Worker                                out_channels=M,
*da0073e9SAndroid Build Coastguard Worker                                kernel_size=3,
*da0073e9SAndroid Build Coastguard Worker                                stride=2,
*da0073e9SAndroid Build Coastguard Worker                                padding=1,
*da0073e9SAndroid Build Coastguard Worker                                dilation=dilation,
*da0073e9SAndroid Build Coastguard Worker                                bias=bias,
*da0073e9SAndroid Build Coastguard Worker                                groups=groups).to(dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            conv2 = copy.deepcopy(conv1).to(memory_format=weight_memory_format)
*da0073e9SAndroid Build Coastguard Worker            x1 = x.clone()
*da0073e9SAndroid Build Coastguard Worker            x2 = x.clone().to(memory_format=cl_format)
*da0073e9SAndroid Build Coastguard Worker            if train:
*da0073e9SAndroid Build Coastguard Worker                x1.requires_grad_()
*da0073e9SAndroid Build Coastguard Worker                x2.requires_grad_()
*da0073e9SAndroid Build Coastguard Worker            y1 = conv1(x1)
*da0073e9SAndroid Build Coastguard Worker            y2 = conv2(x2)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(y1, y2, atol=prec, rtol=prec)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if train:
*da0073e9SAndroid Build Coastguard Worker                y1.sum().backward()
*da0073e9SAndroid Build Coastguard Worker                y2.sum().backward()
*da0073e9SAndroid Build Coastguard Worker                self.assertTrue(x2.grad.is_contiguous(memory_format=cl_format))
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(conv1.weight.grad,
*da0073e9SAndroid Build Coastguard Worker                                 conv2.weight.grad,
*da0073e9SAndroid Build Coastguard Worker                                 atol=1e-3,
*da0073e9SAndroid Build Coastguard Worker                                 rtol=1e-3)
*da0073e9SAndroid Build Coastguard Worker                if bias:
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(conv1.bias.grad, conv2.bias.grad, atol=prec, rtol=prec)
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(x1.grad, x2.grad, atol=prec, rtol=prec)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_conv_nhwc_fp32(self):
*da0073e9SAndroid Build Coastguard Worker        self._test_conv_deconv_nhwc_base(torch.nn.Conv2d, torch.contiguous_format, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        self._test_conv_deconv_nhwc_base(torch.nn.Conv2d, torch.channels_last, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        self._test_conv_deconv_nhwc_base(torch.nn.Conv3d, torch.contiguous_format, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        self._test_conv_deconv_nhwc_base(torch.nn.Conv3d, torch.channels_last_3d, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @dtypes(torch.float16, torch.bfloat16)
*da0073e9SAndroid Build Coastguard Worker    def test_conv_nhwc_lower_precision(self, dtype):
*da0073e9SAndroid Build Coastguard Worker        # when torch.ops.mkldnn._is_mkldnn_bf16_supported() or torch.ops.mkldnn._is_mkldnn_fp16_supported()
*da0073e9SAndroid Build Coastguard Worker        # returns false, bf16/fp16 CPU conv will fall back to thnn impl
*da0073e9SAndroid Build Coastguard Worker        support_checks = {
*da0073e9SAndroid Build Coastguard Worker            torch.bfloat16: torch.ops.mkldnn._is_mkldnn_bf16_supported,
*da0073e9SAndroid Build Coastguard Worker            torch.float16: torch.ops.mkldnn._is_mkldnn_fp16_supported
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker        if support_checks[dtype]():
*da0073e9SAndroid Build Coastguard Worker            self._test_conv_deconv_nhwc_base(torch.nn.Conv2d, torch.contiguous_format, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            self._test_conv_deconv_nhwc_base(torch.nn.Conv2d, torch.channels_last, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            self._test_conv_deconv_nhwc_base(torch.nn.Conv3d, torch.contiguous_format, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            self._test_conv_deconv_nhwc_base(torch.nn.Conv3d, torch.channels_last_3d, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # BF16/FP16 fallback implementations are divided into two parts im2col+gemm,
*da0073e9SAndroid Build Coastguard Worker        # and the number of data type conversions in the middle is more than that of onednn's direct conv,
*da0073e9SAndroid Build Coastguard Worker        # resulting in additional accuracy loss.
*da0073e9SAndroid Build Coastguard Worker        precisions = {
*da0073e9SAndroid Build Coastguard Worker            torch.bfloat16: 1e-2,
*da0073e9SAndroid Build Coastguard Worker            torch.float16: 2e-3,
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker        prec = precisions[dtype]
*da0073e9SAndroid Build Coastguard Worker        with torch.backends.mkldnn.flags(enabled=False):
*da0073e9SAndroid Build Coastguard Worker            self._test_conv_deconv_nhwc_base(torch.nn.Conv2d, torch.contiguous_format, dtype=dtype, prec=prec)
*da0073e9SAndroid Build Coastguard Worker            self._test_conv_deconv_nhwc_base(torch.nn.Conv2d, torch.channels_last, dtype=dtype, prec=prec)
*da0073e9SAndroid Build Coastguard Worker            self._test_conv_deconv_nhwc_base(torch.nn.Conv3d, torch.contiguous_format, dtype=dtype, prec=prec)
*da0073e9SAndroid Build Coastguard Worker            self._test_conv_deconv_nhwc_base(torch.nn.Conv3d, torch.channels_last_3d, dtype=dtype, prec=prec)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_conv_transpose_nhwc_fp32(self):
*da0073e9SAndroid Build Coastguard Worker        self._test_conv_deconv_nhwc_base(torch.nn.ConvTranspose2d, torch.contiguous_format, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        self._test_conv_deconv_nhwc_base(torch.nn.ConvTranspose2d, torch.channels_last, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        self._test_conv_deconv_nhwc_base(torch.nn.ConvTranspose3d, torch.contiguous_format, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        self._test_conv_deconv_nhwc_base(torch.nn.ConvTranspose3d, torch.channels_last_3d, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @dtypes(torch.float16, torch.bfloat16)
*da0073e9SAndroid Build Coastguard Worker    def test_conv_transpose_nhwc_lower_precision(self, dtype):
*da0073e9SAndroid Build Coastguard Worker        # when torch.ops.mkldnn._is_mkldnn_bf16_supported() or torch.ops.mkldnn._is_mkldnn_fp16_supported()
*da0073e9SAndroid Build Coastguard Worker        # returns false, bf16/fp16 CPU conv will fall back to thnn impl
*da0073e9SAndroid Build Coastguard Worker        support_checks = {
*da0073e9SAndroid Build Coastguard Worker            torch.bfloat16: torch.ops.mkldnn._is_mkldnn_bf16_supported,
*da0073e9SAndroid Build Coastguard Worker            torch.float16: torch.ops.mkldnn._is_mkldnn_fp16_supported
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker        if support_checks[dtype]():
*da0073e9SAndroid Build Coastguard Worker            self._test_conv_deconv_nhwc_base(torch.nn.ConvTranspose2d, torch.contiguous_format, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            self._test_conv_deconv_nhwc_base(torch.nn.ConvTranspose2d, torch.channels_last, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            self._test_conv_deconv_nhwc_base(torch.nn.ConvTranspose3d, torch.contiguous_format, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            self._test_conv_deconv_nhwc_base(torch.nn.ConvTranspose3d, torch.channels_last_3d, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # BF16/FP16 fallback implementations are divided into two parts col2im+gemm,
*da0073e9SAndroid Build Coastguard Worker        # and the number of data type conversions in the middle is more than that of onednn's direct conv,
*da0073e9SAndroid Build Coastguard Worker        # resulting in additional accuracy loss.
*da0073e9SAndroid Build Coastguard Worker        precisions = {
*da0073e9SAndroid Build Coastguard Worker            torch.bfloat16: 2e-2,
*da0073e9SAndroid Build Coastguard Worker            torch.float16: 3e-3,
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker        prec = precisions[dtype]
*da0073e9SAndroid Build Coastguard Worker        with torch.backends.mkldnn.flags(enabled=False):
*da0073e9SAndroid Build Coastguard Worker            self._test_conv_deconv_nhwc_base(torch.nn.ConvTranspose2d, torch.contiguous_format, dtype=dtype, prec=prec)
*da0073e9SAndroid Build Coastguard Worker            self._test_conv_deconv_nhwc_base(torch.nn.ConvTranspose2d, torch.channels_last, dtype=dtype, prec=prec)
*da0073e9SAndroid Build Coastguard Worker            self._test_conv_deconv_nhwc_base(torch.nn.ConvTranspose3d, torch.contiguous_format, dtype=dtype, prec=prec)
*da0073e9SAndroid Build Coastguard Worker            self._test_conv_deconv_nhwc_base(torch.nn.ConvTranspose3d, torch.channels_last_3d, dtype=dtype, prec=prec)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _test_conv_transpose_base(self, dim):
*da0073e9SAndroid Build Coastguard Worker        conv_module = {
*da0073e9SAndroid Build Coastguard Worker            1: torch.nn.ConvTranspose1d,
*da0073e9SAndroid Build Coastguard Worker            2: torch.nn.ConvTranspose2d,
*da0073e9SAndroid Build Coastguard Worker            3: torch.nn.ConvTranspose3d
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker        input_shapes = {1: (55,), 2: (28, 28), 3: (14, 14, 14)}
*da0073e9SAndroid Build Coastguard Worker        options = itertools.product([True, False], [True, False], [1, 2], [1, 4])
*da0073e9SAndroid Build Coastguard Worker        for train, bias, dilation, groups in options:
*da0073e9SAndroid Build Coastguard Worker            N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker            M = torch.randint(1, 3, (1,)).item() * groups
*da0073e9SAndroid Build Coastguard Worker            C = torch.randint(1, 3, (1,)).item() * groups
*da0073e9SAndroid Build Coastguard Worker            x_shape = (N, C) + input_shapes[dim]
*da0073e9SAndroid Build Coastguard Worker            data = torch.randn(x_shape, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker            # conv: mkldnn tranpose conv fp32
*da0073e9SAndroid Build Coastguard Worker            # conv_ref: thnn transpose conv fp32
*da0073e9SAndroid Build Coastguard Worker            conv = conv_module[dim](in_channels=C,
*da0073e9SAndroid Build Coastguard Worker                                    out_channels=M,
*da0073e9SAndroid Build Coastguard Worker                                    kernel_size=3,
*da0073e9SAndroid Build Coastguard Worker                                    stride=1,
*da0073e9SAndroid Build Coastguard Worker                                    padding=1,
*da0073e9SAndroid Build Coastguard Worker                                    dilation=dilation,
*da0073e9SAndroid Build Coastguard Worker                                    bias=bias,
*da0073e9SAndroid Build Coastguard Worker                                    groups=groups).to(dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker            x = data.clone()
*da0073e9SAndroid Build Coastguard Worker            x_ref = x.clone()
*da0073e9SAndroid Build Coastguard Worker            if train:
*da0073e9SAndroid Build Coastguard Worker                x.requires_grad_()
*da0073e9SAndroid Build Coastguard Worker                x_ref.requires_grad_()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            conv_ref = copy.deepcopy(conv)
*da0073e9SAndroid Build Coastguard Worker            with torch.backends.mkldnn.flags(enabled=False):
*da0073e9SAndroid Build Coastguard Worker                y_ref = conv_ref(x_ref)
*da0073e9SAndroid Build Coastguard Worker                if train:
*da0073e9SAndroid Build Coastguard Worker                    y_ref.sum().backward()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            y = conv(x)
*da0073e9SAndroid Build Coastguard Worker            if train:
*da0073e9SAndroid Build Coastguard Worker                y.sum().backward()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(y, y_ref)
*da0073e9SAndroid Build Coastguard Worker            if train:
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(x.grad, x_ref.grad)
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(conv.weight.grad,
*da0073e9SAndroid Build Coastguard Worker                                 conv_ref.weight.grad,
*da0073e9SAndroid Build Coastguard Worker                                 atol=1e-3,
*da0073e9SAndroid Build Coastguard Worker                                 rtol=1e-3)
*da0073e9SAndroid Build Coastguard Worker                if bias:
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(conv.bias.grad, conv_ref.bias.grad)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_conv_transpose1d(self):
*da0073e9SAndroid Build Coastguard Worker        self._test_conv_transpose_base(dim=1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_conv_transpose2d(self):
*da0073e9SAndroid Build Coastguard Worker        self._test_conv_transpose_base(dim=2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_conv_transpose3d(self):
*da0073e9SAndroid Build Coastguard Worker        self._test_conv_transpose_base(dim=3)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_conv2d_legacy_jit_model(self):
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        MKLDNN integration used to serialize models with 5d weight for grouped
*da0073e9SAndroid Build Coastguard Worker        convolutions, we'd like to preserve this behavior
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        g = 4
*da0073e9SAndroid Build Coastguard Worker        conv2d = torch.nn.Conv2d(16, 16, 3, groups=g)
*da0073e9SAndroid Build Coastguard Worker        conv2d_mkldnn = torch.utils.mkldnn.to_mkldnn(conv2d)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # contrive legacy conv2d module with a 5-d weight
*da0073e9SAndroid Build Coastguard Worker        o, i, h, w = conv2d.weight.shape
*da0073e9SAndroid Build Coastguard Worker        weight_5d = conv2d.weight.reshape((g, o // g, i, h, w))
*da0073e9SAndroid Build Coastguard Worker        conv2d_mkldnn.weight = weight_5d.to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(1, 16, 8, 8)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with TemporaryFileName() as fname:
*da0073e9SAndroid Build Coastguard Worker            torch.jit.save(conv2d_mkldnn, fname)
*da0073e9SAndroid Build Coastguard Worker            conv2d_loaded = torch.jit.load(fname)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(conv2d_mkldnn.weight.ndimension(), 5)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(conv2d_loaded.weight.ndimension(), 4)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker                conv2d(x),
*da0073e9SAndroid Build Coastguard Worker                conv2d_loaded(x.to_mkldnn()).to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # This test is to check whether 1D conv is supported for mkldnn tensor,
*da0073e9SAndroid Build Coastguard Worker    # which is exposed by Issue https://github.com/pytorch/pytorch/issues/68034.
*da0073e9SAndroid Build Coastguard Worker    def test_conv1d_functional(self):
*da0073e9SAndroid Build Coastguard Worker        input = torch.randn(2, 3, 10).to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        weight = torch.randn(3, 3, 3).to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        bias = torch.randn(3).to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        output = torch.nn.functional.conv1d(input, weight, bias)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(output.size(), torch.Size([2, 3, 8]))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_relu(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn((4, 5), dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        x1 = x.clone().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker        x2 = x.clone().to_mkldnn().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker        y1 = torch.relu(x1)
*da0073e9SAndroid Build Coastguard Worker        y2 = torch.relu(x2).to_dense()
*da0073e9SAndroid Build Coastguard Worker        loss1 = y1.sum()
*da0073e9SAndroid Build Coastguard Worker        loss2 = y2.sum()
*da0073e9SAndroid Build Coastguard Worker        loss1.backward()
*da0073e9SAndroid Build Coastguard Worker        loss2.backward()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(y1, y2)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x1.grad, x2.grad.to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_relu_(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn((4, 5), dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        x1 = x.clone().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker        x2 = x.clone().to_mkldnn().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker        y1 = torch.relu_(x1.clone())
*da0073e9SAndroid Build Coastguard Worker        y2 = torch.relu_(x2.clone()).to_dense()
*da0073e9SAndroid Build Coastguard Worker        loss1 = y1.sum()
*da0073e9SAndroid Build Coastguard Worker        loss2 = y2.sum()
*da0073e9SAndroid Build Coastguard Worker        loss1.backward()
*da0073e9SAndroid Build Coastguard Worker        loss2.backward()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(y1, y2)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x1.grad, x2.grad.to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(IS_WINDOWS, "Limit support for bf16 path")
*da0073e9SAndroid Build Coastguard Worker    def _test_relu_bf16_base(self, name):
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn((4, 5), dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        x_bf16 = x.bfloat16()
*da0073e9SAndroid Build Coastguard Worker        fn = getattr(torch, name)
*da0073e9SAndroid Build Coastguard Worker        if torch.ops.mkldnn._is_mkldnn_bf16_supported():
*da0073e9SAndroid Build Coastguard Worker            y = fn(x.to_mkldnn()).to_dense()
*da0073e9SAndroid Build Coastguard Worker            y_bf16 = fn(x_bf16.to_mkldnn()).to_dense(torch.float32)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(y, y_bf16, atol=1e-1, rtol=1e-3)
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            msg = r"bf16 path needs the cpu support avx512bw, avx512vl and avx512dq"
*da0073e9SAndroid Build Coastguard Worker            self.assertRaisesRegex(RuntimeError,
*da0073e9SAndroid Build Coastguard Worker                                   msg,
*da0073e9SAndroid Build Coastguard Worker                                   lambda: fn(x_bf16.to_mkldnn()))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_relu_bf16(self):
*da0073e9SAndroid Build Coastguard Worker        self._test_relu_bf16_base("relu")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_relu_inplace_bf16(self):
*da0073e9SAndroid Build Coastguard Worker        self._test_relu_bf16_base("relu_")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_gelu(self):
*da0073e9SAndroid Build Coastguard Worker        m = torch.nn.GELU()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn((4, 5), dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        x1 = x.clone().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker        x2 = x.clone().to_mkldnn().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker        y1 = m(x1)
*da0073e9SAndroid Build Coastguard Worker        y2 = m(x2).to_dense()
*da0073e9SAndroid Build Coastguard Worker        loss1 = y1.sum()
*da0073e9SAndroid Build Coastguard Worker        loss2 = y2.sum()
*da0073e9SAndroid Build Coastguard Worker        loss1.backward()
*da0073e9SAndroid Build Coastguard Worker        loss2.backward()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(y1, y2)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x1.grad, x2.grad.to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(IS_WINDOWS, "Limit support for bf16 path")
*da0073e9SAndroid Build Coastguard Worker    def test_gelu_bf16(self):
*da0073e9SAndroid Build Coastguard Worker        m = torch.nn.GELU()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn((4, 5), dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        x1 = x.clone().to_mkldnn().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker        x2 = x.clone().to_mkldnn(torch.bfloat16).requires_grad_()
*da0073e9SAndroid Build Coastguard Worker        if torch.ops.mkldnn._is_mkldnn_bf16_supported():
*da0073e9SAndroid Build Coastguard Worker            y1 = m(x1).to_dense()
*da0073e9SAndroid Build Coastguard Worker            y2 = m(x2).to_dense()
*da0073e9SAndroid Build Coastguard Worker            loss1 = y1.sum()
*da0073e9SAndroid Build Coastguard Worker            loss2 = y2.sum()
*da0073e9SAndroid Build Coastguard Worker            loss1.backward()
*da0073e9SAndroid Build Coastguard Worker            loss2.backward()
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(y1, y2.to(torch.float32), atol=1e-1, rtol=0)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(x1.grad.to_dense(), x2.grad.to_dense(torch.float32), atol=1e-2, rtol=0)
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            msg = r"bf16 path needs the cpu support avx512bw, avx512vl and avx512dq"
*da0073e9SAndroid Build Coastguard Worker            self.assertRaisesRegex(RuntimeError,
*da0073e9SAndroid Build Coastguard Worker                                   msg,
*da0073e9SAndroid Build Coastguard Worker                                   lambda: m(x2))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _test_prelu_base(self, size, num_channels):
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(size, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        x1 = x.clone().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker        x2 = x.clone().to_mkldnn().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker        x3 = x.clone().to_mkldnn().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker        m1 = torch.nn.PReLU(num_channels)
*da0073e9SAndroid Build Coastguard Worker        m2 = mkldnn_utils.to_mkldnn(copy.deepcopy(m1))
*da0073e9SAndroid Build Coastguard Worker        m3 = copy.deepcopy(m1)
*da0073e9SAndroid Build Coastguard Worker        y1 = m1(x1)
*da0073e9SAndroid Build Coastguard Worker        y2 = m2(x2).to_dense()
*da0073e9SAndroid Build Coastguard Worker        y3 = m3(x3).to_dense()  # Only convert data to mkldnn, weight is Aten tensor
*da0073e9SAndroid Build Coastguard Worker        loss1 = y1.sum()
*da0073e9SAndroid Build Coastguard Worker        loss1.backward()
*da0073e9SAndroid Build Coastguard Worker        loss2 = y2.sum()
*da0073e9SAndroid Build Coastguard Worker        loss2.backward()
*da0073e9SAndroid Build Coastguard Worker        loss3 = y3.sum()
*da0073e9SAndroid Build Coastguard Worker        loss3.backward()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(y1, y2)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(y1, y3)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x1.grad, x2.grad.to_dense())
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x1.grad, x3.grad.to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_prelu(self):
*da0073e9SAndroid Build Coastguard Worker        self._test_prelu_base(torch.Size([16]), 1)
*da0073e9SAndroid Build Coastguard Worker        self._test_prelu_base(torch.Size([16, 64]), 1)
*da0073e9SAndroid Build Coastguard Worker        self._test_prelu_base(torch.Size([16, 64]), 64)
*da0073e9SAndroid Build Coastguard Worker        self._test_prelu_base(torch.Size([16, 64, 112]), 1)
*da0073e9SAndroid Build Coastguard Worker        self._test_prelu_base(torch.Size([16, 64, 112]), 64)
*da0073e9SAndroid Build Coastguard Worker        self._test_prelu_base(torch.Size([16, 64, 112, 112]), 1)
*da0073e9SAndroid Build Coastguard Worker        self._test_prelu_base(torch.Size([16, 64, 112, 112]), 64)
*da0073e9SAndroid Build Coastguard Worker        self._test_prelu_base(torch.Size([16, 64, 112, 112, 1]), 1)
*da0073e9SAndroid Build Coastguard Worker        self._test_prelu_base(torch.Size([16, 64, 112, 112, 1]), 64)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(IS_WINDOWS, "Limit support for bf16 path")
*da0073e9SAndroid Build Coastguard Worker    def _test_prelu_bf16_base(self, size, num_channels):
*da0073e9SAndroid Build Coastguard Worker        if torch.ops.mkldnn._is_mkldnn_bf16_supported():
*da0073e9SAndroid Build Coastguard Worker            x = torch.randn(size, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker            x_fp32 = x.clone().to_mkldnn().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker            x_bf16 = x.clone().to_mkldnn(torch.bfloat16).requires_grad_()
*da0073e9SAndroid Build Coastguard Worker            m = mkldnn_utils.to_mkldnn(torch.nn.PReLU())
*da0073e9SAndroid Build Coastguard Worker            m_bf16 = mkldnn_utils.to_mkldnn(torch.nn.PReLU(), torch.bfloat16)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            y = m(x_fp32).to_dense()
*da0073e9SAndroid Build Coastguard Worker            y_bf16 = m_bf16(x_bf16).to_dense()
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(y, y_bf16.to(torch.float32), atol=1e-1, rtol=1e-3)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            loss = y.sum()
*da0073e9SAndroid Build Coastguard Worker            loss.backward()
*da0073e9SAndroid Build Coastguard Worker            loss_bf16 = y_bf16.sum()
*da0073e9SAndroid Build Coastguard Worker            loss_bf16.backward()
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(x_fp32.grad.to_dense(), x_bf16.grad.to_dense(torch.float32))
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            x_bf16 = torch.randn(size, dtype=torch.bfloat16).requires_grad_()
*da0073e9SAndroid Build Coastguard Worker            m_bf16 = mkldnn_utils.to_mkldnn(torch.nn.PReLU(), torch.bfloat16)
*da0073e9SAndroid Build Coastguard Worker            msg = r"bf16 path needs the cpu support avx512bw, avx512vl and avx512dq"
*da0073e9SAndroid Build Coastguard Worker            self.assertRaisesRegex(RuntimeError,
*da0073e9SAndroid Build Coastguard Worker                                   msg,
*da0073e9SAndroid Build Coastguard Worker                                   lambda: m_bf16(x_bf16))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_prelu_bf16(self):
*da0073e9SAndroid Build Coastguard Worker        self._test_prelu_bf16_base(torch.Size([16]), 1)
*da0073e9SAndroid Build Coastguard Worker        self._test_prelu_bf16_base(torch.Size([16, 64]), 1)
*da0073e9SAndroid Build Coastguard Worker        self._test_prelu_bf16_base(torch.Size([16, 64]), 64)
*da0073e9SAndroid Build Coastguard Worker        self._test_prelu_bf16_base(torch.Size([16, 64, 112]), 1)
*da0073e9SAndroid Build Coastguard Worker        self._test_prelu_bf16_base(torch.Size([16, 64, 112]), 64)
*da0073e9SAndroid Build Coastguard Worker        self._test_prelu_bf16_base(torch.Size([16, 64, 112, 112, 1]), 1)
*da0073e9SAndroid Build Coastguard Worker        self._test_prelu_bf16_base(torch.Size([16, 64, 112, 112, 1]), 64)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _test_max_pool_base(self, dim, input):
*da0073e9SAndroid Build Coastguard Worker        pool_module = {2: torch.nn.MaxPool2d, 3: torch.nn.MaxPool3d}
*da0073e9SAndroid Build Coastguard Worker        for stride in [1, 2, 3]:
*da0073e9SAndroid Build Coastguard Worker            for ceil_mode in [False, True]:
*da0073e9SAndroid Build Coastguard Worker                max_pool = pool_module[dim](
*da0073e9SAndroid Build Coastguard Worker                    kernel_size=3 if not ceil_mode else 7,
*da0073e9SAndroid Build Coastguard Worker                    stride=stride,
*da0073e9SAndroid Build Coastguard Worker                    padding=1,
*da0073e9SAndroid Build Coastguard Worker                    ceil_mode=ceil_mode)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                x1 = input.clone().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker                x2 = input.clone().to_mkldnn().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker                y1 = max_pool(x1)
*da0073e9SAndroid Build Coastguard Worker                y2 = max_pool(x2).to_dense()
*da0073e9SAndroid Build Coastguard Worker                loss1 = y1.sum()
*da0073e9SAndroid Build Coastguard Worker                loss2 = y2.sum()
*da0073e9SAndroid Build Coastguard Worker                loss1.backward()
*da0073e9SAndroid Build Coastguard Worker                loss2.backward()
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(y1, y2)
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(x1.grad, x2.grad.to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_max_pool2d(self):
*da0073e9SAndroid Build Coastguard Worker        N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        C = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        for H, W in [(64, 64), (35, 39), (16, 19), [7, 8]]:
*da0073e9SAndroid Build Coastguard Worker            x = torch.randn(N, C, H, W, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker            self._test_max_pool_base(dim=2, input=x)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_max_pool3d(self):
*da0073e9SAndroid Build Coastguard Worker        N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        C = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        for D, H, W in [(64, 64, 64), (35, 39, 35), (16, 19, 20), [7, 8, 9]]:
*da0073e9SAndroid Build Coastguard Worker            x = torch.randn(N, C, D, H, W, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker            self._test_max_pool_base(dim=3, input=x)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(IS_WINDOWS, "Limit support for bf16 path")
*da0073e9SAndroid Build Coastguard Worker    def _test_max_pool_bf16_base(self, dim, input):
*da0073e9SAndroid Build Coastguard Worker        pool_module = {2: torch.nn.MaxPool2d, 3: torch.nn.MaxPool3d}
*da0073e9SAndroid Build Coastguard Worker        x_bf16 = input.bfloat16()
*da0073e9SAndroid Build Coastguard Worker        for stride in [1, 2, 3]:
*da0073e9SAndroid Build Coastguard Worker            for ceil_mode in [False, True]:
*da0073e9SAndroid Build Coastguard Worker                max_pool = pool_module[dim](
*da0073e9SAndroid Build Coastguard Worker                    kernel_size=3 if not ceil_mode else 7,
*da0073e9SAndroid Build Coastguard Worker                    stride=stride,
*da0073e9SAndroid Build Coastguard Worker                    padding=1,
*da0073e9SAndroid Build Coastguard Worker                    ceil_mode=ceil_mode)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                if torch.ops.mkldnn._is_mkldnn_bf16_supported():
*da0073e9SAndroid Build Coastguard Worker                    y = max_pool(input.to_mkldnn()).to_dense()
*da0073e9SAndroid Build Coastguard Worker                    y_bf16 = max_pool(x_bf16.to_mkldnn()).to_dense(torch.float32)
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(y, y_bf16, atol=0.1, rtol=1e-3)
*da0073e9SAndroid Build Coastguard Worker                else:
*da0073e9SAndroid Build Coastguard Worker                    msg = "mkldnn_max_pool%dd: bf16 path needs the cpu support avx512bw, avx512vl and avx512dq" % dim
*da0073e9SAndroid Build Coastguard Worker                    self.assertRaisesRegex(RuntimeError,
*da0073e9SAndroid Build Coastguard Worker                                           msg,
*da0073e9SAndroid Build Coastguard Worker                                           lambda: max_pool(x_bf16.to_mkldnn()))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_max_pool2d_bf16(self):
*da0073e9SAndroid Build Coastguard Worker        N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        C = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        for H, W in [(64, 64), (35, 39), (16, 19), [7, 8]]:
*da0073e9SAndroid Build Coastguard Worker            x = torch.randn(N, C, H, W, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker            self._test_max_pool_bf16_base(dim=2, input=x)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_max_pool3d_bf16(self):
*da0073e9SAndroid Build Coastguard Worker        N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        C = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        for D, H, W in [(64, 64, 64), (35, 39, 35), (16, 19, 20), [7, 8, 9]]:
*da0073e9SAndroid Build Coastguard Worker            x = torch.randn(N, C, D, H, W, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker            self._test_max_pool_bf16_base(dim=3, input=x)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_max_pool2d_stride_none(self):
*da0073e9SAndroid Build Coastguard Worker        N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        C = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for H, W in [(64, 64), (35, 39), (16, 19), [7, 8]]:
*da0073e9SAndroid Build Coastguard Worker            x = torch.randn(N, C, H, W, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker            for ceil_mode in [False, True]:
*da0073e9SAndroid Build Coastguard Worker                y1 = F.max_pool2d(
*da0073e9SAndroid Build Coastguard Worker                    x,
*da0073e9SAndroid Build Coastguard Worker                    kernel_size=3 if not ceil_mode else 7,
*da0073e9SAndroid Build Coastguard Worker                    stride=None,
*da0073e9SAndroid Build Coastguard Worker                    padding=1,
*da0073e9SAndroid Build Coastguard Worker                    ceil_mode=ceil_mode)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                y2 = F.max_pool2d(
*da0073e9SAndroid Build Coastguard Worker                    x.to_mkldnn(),
*da0073e9SAndroid Build Coastguard Worker                    kernel_size=3 if not ceil_mode else 7,
*da0073e9SAndroid Build Coastguard Worker                    stride=None,
*da0073e9SAndroid Build Coastguard Worker                    padding=1,
*da0073e9SAndroid Build Coastguard Worker                    ceil_mode=ceil_mode)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(y1, y2.to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # https://github.com/pytorch/pytorch/issues/127111
*da0073e9SAndroid Build Coastguard Worker    @xfailIfTorchDynamo
*da0073e9SAndroid Build Coastguard Worker    def test_max_pool_unsupported(self):
*da0073e9SAndroid Build Coastguard Worker        # OneDNN not support dilation max_pooling, will be avilabled in v2.0.
*da0073e9SAndroid Build Coastguard Worker        N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        C = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # 2d dilation case
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(N, C, 7, 7, dtype=torch.float32).to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        max_pool2d = torch.nn.MaxPool2d(
*da0073e9SAndroid Build Coastguard Worker            kernel_size=3,
*da0073e9SAndroid Build Coastguard Worker            stride=3,
*da0073e9SAndroid Build Coastguard Worker            padding=1,
*da0073e9SAndroid Build Coastguard Worker            dilation=2)
*da0073e9SAndroid Build Coastguard Worker        self.assertRaisesRegex(RuntimeError,
*da0073e9SAndroid Build Coastguard Worker                               'mkldnn_max_pool2d does not support dilation case',
*da0073e9SAndroid Build Coastguard Worker                               lambda: max_pool2d(x))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # 3d dilation case
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(N, C, 7, 7, 7, dtype=torch.float32).to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        max_pool3d = torch.nn.MaxPool3d(
*da0073e9SAndroid Build Coastguard Worker            kernel_size=3,
*da0073e9SAndroid Build Coastguard Worker            stride=3,
*da0073e9SAndroid Build Coastguard Worker            padding=1,
*da0073e9SAndroid Build Coastguard Worker            dilation=2)
*da0073e9SAndroid Build Coastguard Worker        self.assertRaisesRegex(RuntimeError,
*da0073e9SAndroid Build Coastguard Worker                               'mkldnn_max_pool3d does not support dilation case',
*da0073e9SAndroid Build Coastguard Worker                               lambda: max_pool3d(x))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _test_avg_pool_base(self, dim, input):
*da0073e9SAndroid Build Coastguard Worker        avg_module = {2: torch.nn.AvgPool2d, 3: torch.nn.AvgPool3d}
*da0073e9SAndroid Build Coastguard Worker        for count_include_pad in [True, False]:
*da0073e9SAndroid Build Coastguard Worker            avg_pool = avg_module[dim](
*da0073e9SAndroid Build Coastguard Worker                kernel_size=3,
*da0073e9SAndroid Build Coastguard Worker                stride=2,
*da0073e9SAndroid Build Coastguard Worker                padding=1,
*da0073e9SAndroid Build Coastguard Worker                count_include_pad=count_include_pad)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            x1 = input.clone().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker            x2 = input.clone().to_mkldnn().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker            y1 = avg_pool(x1)
*da0073e9SAndroid Build Coastguard Worker            y2 = avg_pool(x2).to_dense()
*da0073e9SAndroid Build Coastguard Worker            loss1 = y1.sum()
*da0073e9SAndroid Build Coastguard Worker            loss2 = y2.sum()
*da0073e9SAndroid Build Coastguard Worker            loss1.backward()
*da0073e9SAndroid Build Coastguard Worker            loss2.backward()
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(y1, y2)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(x1.grad, x2.grad.to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_avg_pool2d(self):
*da0073e9SAndroid Build Coastguard Worker        N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        C = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(N, C, 64, 64, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        self._test_avg_pool_base(dim=2, input=x)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_avg_pool3d(self):
*da0073e9SAndroid Build Coastguard Worker        N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        C = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(N, C, 64, 64, 64, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        self._test_avg_pool_base(dim=3, input=x)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(IS_WINDOWS, "Limit support for bf16 path")
*da0073e9SAndroid Build Coastguard Worker    def _test_avg_pool_bf16_base(self, dim, input):
*da0073e9SAndroid Build Coastguard Worker        avg_module = {2: torch.nn.AvgPool2d, 3: torch.nn.AvgPool3d}
*da0073e9SAndroid Build Coastguard Worker        x_bf16 = input.bfloat16()
*da0073e9SAndroid Build Coastguard Worker        for count_include_pad in [True, False]:
*da0073e9SAndroid Build Coastguard Worker            avg_pool = avg_module[dim](
*da0073e9SAndroid Build Coastguard Worker                kernel_size=3,
*da0073e9SAndroid Build Coastguard Worker                stride=2,
*da0073e9SAndroid Build Coastguard Worker                padding=1,
*da0073e9SAndroid Build Coastguard Worker                count_include_pad=count_include_pad)
*da0073e9SAndroid Build Coastguard Worker            if torch.ops.mkldnn._is_mkldnn_bf16_supported():
*da0073e9SAndroid Build Coastguard Worker                y = avg_pool(input.to_mkldnn()).to_dense()
*da0073e9SAndroid Build Coastguard Worker                y_bf16 = avg_pool(x_bf16.to_mkldnn()).to_dense(torch.float)
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(y, y_bf16, atol=1e-1, rtol=1e-3)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                msg = "mkldnn_avg_pool%dd: bf16 path needs the cpu support avx512bw, avx512vl and avx512dq" % dim
*da0073e9SAndroid Build Coastguard Worker                self.assertRaisesRegex(RuntimeError,
*da0073e9SAndroid Build Coastguard Worker                                       msg,
*da0073e9SAndroid Build Coastguard Worker                                       lambda: avg_pool(x_bf16.to_mkldnn()))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_avg_pool2d_bf16(self):
*da0073e9SAndroid Build Coastguard Worker        N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        C = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(N, C, 64, 64, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        self._test_avg_pool_bf16_base(dim=2, input=x)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_avg_pool3d_bf16(self):
*da0073e9SAndroid Build Coastguard Worker        N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        C = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(N, C, 64, 64, 64, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        self._test_avg_pool_bf16_base(dim=3, input=x)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_avg_pool2d_stride_none(self):
*da0073e9SAndroid Build Coastguard Worker        N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        C = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(N, C, 64, 64, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for count_include_pad in [True, False]:
*da0073e9SAndroid Build Coastguard Worker            y1 = F.avg_pool2d(
*da0073e9SAndroid Build Coastguard Worker                x,
*da0073e9SAndroid Build Coastguard Worker                kernel_size=3,
*da0073e9SAndroid Build Coastguard Worker                stride=None,
*da0073e9SAndroid Build Coastguard Worker                padding=1,
*da0073e9SAndroid Build Coastguard Worker                count_include_pad=count_include_pad)
*da0073e9SAndroid Build Coastguard Worker            y2 = F.avg_pool2d(
*da0073e9SAndroid Build Coastguard Worker                x.to_mkldnn(),
*da0073e9SAndroid Build Coastguard Worker                kernel_size=3,
*da0073e9SAndroid Build Coastguard Worker                stride=None,
*da0073e9SAndroid Build Coastguard Worker                padding=1,
*da0073e9SAndroid Build Coastguard Worker                count_include_pad=count_include_pad)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(y1, y2.to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_adaptive_avg_pool2d(self):
*da0073e9SAndroid Build Coastguard Worker        N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        C = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(N, C, 224, 224, dtype=torch.float32) * 100
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        adaptive_avg_pool2d = torch.nn.AdaptiveAvgPool2d(7)
*da0073e9SAndroid Build Coastguard Worker        x1 = x.clone().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker        x2 = x.clone().to_mkldnn().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker        y1 = adaptive_avg_pool2d(x1)
*da0073e9SAndroid Build Coastguard Worker        y2 = adaptive_avg_pool2d(x2).to_dense()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        loss1 = y1.sum()
*da0073e9SAndroid Build Coastguard Worker        loss2 = y2.sum()
*da0073e9SAndroid Build Coastguard Worker        loss1.backward()
*da0073e9SAndroid Build Coastguard Worker        loss2.backward()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(y1, y2)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x1.grad, x2.grad.to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(IS_WINDOWS, "Limit support for bf16 path")
*da0073e9SAndroid Build Coastguard Worker    def test_adaptive_avg_pool2d_bf16(self):
*da0073e9SAndroid Build Coastguard Worker        N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        C = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(N, C, 224, 224, dtype=torch.float32) * 100
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x_bf16 = x.bfloat16()
*da0073e9SAndroid Build Coastguard Worker        adaptive_avg_pool2d = torch.nn.AdaptiveAvgPool2d(7)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if torch.ops.mkldnn._is_mkldnn_bf16_supported():
*da0073e9SAndroid Build Coastguard Worker            y = adaptive_avg_pool2d(x.to_mkldnn()).to_dense()
*da0073e9SAndroid Build Coastguard Worker            y_bf16 = adaptive_avg_pool2d(x.to_mkldnn()).to_dense(torch.float32)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(y, y_bf16, atol=1e-1, rtol=1e-3)
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            msg = "mkldnn_adaptive_avg_pool2d: bf16 path needs the cpu support avx512bw, avx512vl and avx512dq"
*da0073e9SAndroid Build Coastguard Worker            self.assertRaisesRegex(RuntimeError,
*da0073e9SAndroid Build Coastguard Worker                                   msg,
*da0073e9SAndroid Build Coastguard Worker                                   lambda: adaptive_avg_pool2d(x_bf16.to_mkldnn()))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _test_batch_norm_base(self, dim, channels, input):
*da0073e9SAndroid Build Coastguard Worker        bn_module = {2 : torch.nn.BatchNorm2d, 3 : torch.nn.BatchNorm3d}
*da0073e9SAndroid Build Coastguard Worker        bn = bn_module[dim](channels).float().train(False)
*da0073e9SAndroid Build Coastguard Worker        mkldnn_bn = mkldnn_utils.to_mkldnn(copy.deepcopy(bn))
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            bn(input),
*da0073e9SAndroid Build Coastguard Worker            mkldnn_bn(input.to_mkldnn()).to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self._test_serialization(mkldnn_bn, (input.to_mkldnn(),))
*da0073e9SAndroid Build Coastguard Worker        self._test_tracing(mkldnn_bn, (input.to_mkldnn(),))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _test_batch_norm_train_base(self, dim, channels, input):
*da0073e9SAndroid Build Coastguard Worker        # TODO: support 3d batchnorm training.
*da0073e9SAndroid Build Coastguard Worker        bn_module = {2 : torch.nn.BatchNorm2d}
*da0073e9SAndroid Build Coastguard Worker        # TODO: support none affine.
*da0073e9SAndroid Build Coastguard Worker        options = itertools.product([True], [True, False])
*da0073e9SAndroid Build Coastguard Worker        for affine, track_running_stats in options:
*da0073e9SAndroid Build Coastguard Worker            bn = bn_module[dim](
*da0073e9SAndroid Build Coastguard Worker                num_features=channels,
*da0073e9SAndroid Build Coastguard Worker                affine=affine,
*da0073e9SAndroid Build Coastguard Worker                track_running_stats=track_running_stats).float().train(True)
*da0073e9SAndroid Build Coastguard Worker            mkldnn_bn = copy.deepcopy(bn)
*da0073e9SAndroid Build Coastguard Worker            x1 = input.clone().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker            x2 = input.clone().to_mkldnn().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker            y1 = bn(x1)
*da0073e9SAndroid Build Coastguard Worker            y2 = mkldnn_bn(x2).to_dense()
*da0073e9SAndroid Build Coastguard Worker            loss1 = y1.sum()
*da0073e9SAndroid Build Coastguard Worker            loss2 = y2.sum()
*da0073e9SAndroid Build Coastguard Worker            loss1.backward()
*da0073e9SAndroid Build Coastguard Worker            loss2.backward()
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(y1, y2)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(x1.grad, x2.grad.to_dense())
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(bn.weight.grad, mkldnn_bn.weight.grad, rtol=1e-3, atol=1e-3)
*da0073e9SAndroid Build Coastguard Worker            if track_running_stats:
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(bn.running_mean, mkldnn_bn.running_mean)
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(bn.running_var, mkldnn_bn.running_var, rtol=1e-5, atol=1e-5)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_batch_norm_2d(self):
*da0073e9SAndroid Build Coastguard Worker        N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        C = torch.randint(3, 100, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(N, C, 35, 45, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        self._test_batch_norm_base(dim=2, channels=C, input=x)
*da0073e9SAndroid Build Coastguard Worker        self._test_batch_norm_train_base(dim=2, channels=C, input=x)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_batch_norm_3d(self):
*da0073e9SAndroid Build Coastguard Worker        N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        C = torch.randint(3, 100, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(N, C, 30, 30, 30, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        self._test_batch_norm_base(dim=3, channels=C, input=x)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @unittest.skipIf(IS_WINDOWS, "Limit support for bf16 path")
*da0073e9SAndroid Build Coastguard Worker    def _test_batch_norm_bf16_base(self, dim, channels, input):
*da0073e9SAndroid Build Coastguard Worker        bn_module = {2 : torch.nn.BatchNorm2d, 3 : torch.nn.BatchNorm3d}
*da0073e9SAndroid Build Coastguard Worker        x_bf16 = input.bfloat16()
*da0073e9SAndroid Build Coastguard Worker        # TODO: support training
*da0073e9SAndroid Build Coastguard Worker        for train in [False]:
*da0073e9SAndroid Build Coastguard Worker            bn = bn_module[dim](channels).float().train(train)
*da0073e9SAndroid Build Coastguard Worker            mkldnn_bn = mkldnn_utils.to_mkldnn(copy.deepcopy(bn))
*da0073e9SAndroid Build Coastguard Worker            if torch.ops.mkldnn._is_mkldnn_bf16_supported():
*da0073e9SAndroid Build Coastguard Worker                y = bn(input.to_mkldnn().to_dense())
*da0073e9SAndroid Build Coastguard Worker                y_bf16 = bn(input.to_mkldnn().to_dense(torch.float))
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(y, y_bf16, atol=1e-1, rtol=1e-3)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                msg = "mkldnn_batch_norm: bf16 path needs the cpu support avx512bw, avx512vl and avx512dq"
*da0073e9SAndroid Build Coastguard Worker                self.assertRaisesRegex(RuntimeError,
*da0073e9SAndroid Build Coastguard Worker                                       msg,
*da0073e9SAndroid Build Coastguard Worker                                       lambda: bn(x_bf16.to_mkldnn()))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_batch_norm_2d_bf16(self):
*da0073e9SAndroid Build Coastguard Worker        N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        C = torch.randint(3, 100, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(N, C, 35, 45, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        self._test_batch_norm_bf16_base(dim=2, channels=C, input=x)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_batch_norm_3d_bf16(self):
*da0073e9SAndroid Build Coastguard Worker        N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        C = torch.randint(3, 100, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(N, C, 30, 30, 30, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        self._test_batch_norm_bf16_base(dim=3, channels=C, input=x)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_add(self):
*da0073e9SAndroid Build Coastguard Worker        N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        C = torch.randint(3, 100, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        alpha = torch.randn(1, dtype=torch.float32).item()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(N, C, 35, 45, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        y = torch.randn(N, C, 35, 45, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        mx = x.to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        my = y.to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # add
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            x + y,
*da0073e9SAndroid Build Coastguard Worker            (mx + my).to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            torch.add(x, y, alpha=alpha),
*da0073e9SAndroid Build Coastguard Worker            torch.add(mx, my, alpha=alpha).to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # add_
*da0073e9SAndroid Build Coastguard Worker        x += y
*da0073e9SAndroid Build Coastguard Worker        mx += my
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x, mx.to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # add_out
*da0073e9SAndroid Build Coastguard Worker        out = x.clone()
*da0073e9SAndroid Build Coastguard Worker        mkldnn_out = out.to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        torch.add(x, y, alpha=alpha, out=out)
*da0073e9SAndroid Build Coastguard Worker        torch.add(mx, my, alpha=alpha, out=mkldnn_out)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(out, mkldnn_out.to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # add_out inplace case: first input
*da0073e9SAndroid Build Coastguard Worker        torch.add(x, y, alpha=alpha, out=x)
*da0073e9SAndroid Build Coastguard Worker        torch.add(mx, my, alpha=alpha, out=mx)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x, mx.to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # add_out inplace case: second input
*da0073e9SAndroid Build Coastguard Worker        torch.add(x, y, alpha=alpha, out=y)
*da0073e9SAndroid Build Coastguard Worker        torch.add(mx, my, alpha=alpha, out=my)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(y, my.to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_mul(self):
*da0073e9SAndroid Build Coastguard Worker        N = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        C = torch.randint(3, 100, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        value = torch.randn(1, dtype=torch.float32).item()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(N, C, 35, 45, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        y = torch.randn(N, C, 35, 45, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        mx = x.to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        my = y.to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # mul
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            x * y,
*da0073e9SAndroid Build Coastguard Worker            (mx * my).to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            x * value,
*da0073e9SAndroid Build Coastguard Worker            (mx * value).to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            torch.mul(x, y),
*da0073e9SAndroid Build Coastguard Worker            torch.mul(mx, my).to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            torch.mul(x, value),
*da0073e9SAndroid Build Coastguard Worker            torch.mul(mx, value).to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # mul_
*da0073e9SAndroid Build Coastguard Worker        x *= y
*da0073e9SAndroid Build Coastguard Worker        mx *= my
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x, mx.to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x *= value
*da0073e9SAndroid Build Coastguard Worker        mx *= value
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x, mx.to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # mul_out
*da0073e9SAndroid Build Coastguard Worker        out = x.clone()
*da0073e9SAndroid Build Coastguard Worker        mkldnn_out = out.to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        torch.mul(x, y, out=out)
*da0073e9SAndroid Build Coastguard Worker        torch.mul(mx, my, out=mkldnn_out)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(out, mkldnn_out.to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        out = x.clone()
*da0073e9SAndroid Build Coastguard Worker        mkldnn_out = out.to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        torch.mul(x, value, out=out)
*da0073e9SAndroid Build Coastguard Worker        torch.mul(mx, value, out=mkldnn_out)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(out, mkldnn_out.to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_0_dimension_tensor(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.rand([20, 20, 1, 1], dtype=torch.float)
*da0073e9SAndroid Build Coastguard Worker        y = torch.rand([20, 20, 0, 1], dtype=torch.float)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # unary ops work without modification
*da0073e9SAndroid Build Coastguard Worker        out_relu = torch.relu(y)
*da0073e9SAndroid Build Coastguard Worker        out_relu_mkldnn = torch.relu(y.to_mkldnn()).to_dense()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(out_relu, out_relu_mkldnn)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        out_mul = x * y
*da0073e9SAndroid Build Coastguard Worker        out_mul_mkldnn = (x.to_mkldnn() * y.to_mkldnn()).to_dense()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(out_mul, out_mul_mkldnn)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        out_add = x + y
*da0073e9SAndroid Build Coastguard Worker        out_add_mkldnn = (x.to_mkldnn() + y.to_mkldnn()).to_dense()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(out_add, out_add_mkldnn)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x.requires_grad_(True)
*da0073e9SAndroid Build Coastguard Worker        y.requires_grad_(True)
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(RuntimeError, "0-dimension Tensor in training"):
*da0073e9SAndroid Build Coastguard Worker            x.to_mkldnn() + y.to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(RuntimeError, "must match"):
*da0073e9SAndroid Build Coastguard Worker            torch.rand([5]).to_mkldnn() + torch.rand([0]).to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        C = 7
*da0073e9SAndroid Build Coastguard Worker        m = torch.nn.Conv2d(C, C, 3)
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(0, C, C, 8, dtype=torch.float)
*da0073e9SAndroid Build Coastguard Worker        out_eager = m(x)
*da0073e9SAndroid Build Coastguard Worker        out_mkldnn = mkldnn_utils.to_mkldnn(m)(x)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(out_eager, out_mkldnn)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # https://github.com/pytorch/pytorch/issues/127111
*da0073e9SAndroid Build Coastguard Worker    @xfailIfTorchDynamo
*da0073e9SAndroid Build Coastguard Worker    def test_view(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(3, 4, 5, dtype=torch.float32).to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        self.assertRaisesRegex(RuntimeError,
*da0073e9SAndroid Build Coastguard Worker                               "Change to use reshape",
*da0073e9SAndroid Build Coastguard Worker                               lambda: x.view(x.size(0), -1))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_reshape(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(3, 4, 5, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        size = (x.size(0), -1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            x.reshape(size),
*da0073e9SAndroid Build Coastguard Worker            x.to_mkldnn().reshape(size).to_dense(),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        # test whether share same memory for plain format tensor
*da0073e9SAndroid Build Coastguard Worker        y = x.to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        z = y.reshape(size).add_(y.reshape(size))
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            y.reshape(size).to_dense(),
*da0073e9SAndroid Build Coastguard Worker            z.to_dense(),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_reshape_blocked_format(self):
*da0073e9SAndroid Build Coastguard Worker        # construct an mkldnn blocked tensor with mkldnn conv2d
*da0073e9SAndroid Build Coastguard Worker        C = 7
*da0073e9SAndroid Build Coastguard Worker        m = mkldnn_utils.to_mkldnn(torch.nn.Conv2d(C, C, 3))
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(1, C, 8, 8).to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # mkldnn tensor w/ blocked format
*da0073e9SAndroid Build Coastguard Worker        y_block = m(x)
*da0073e9SAndroid Build Coastguard Worker        # aten tensor w/ plain format
*da0073e9SAndroid Build Coastguard Worker        y_plain = y_block.to_dense()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        y_block_reshape = y_block.reshape(C, -1)
*da0073e9SAndroid Build Coastguard Worker        y_plain_reshape = y_plain.reshape(C, -1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(y_plain_reshape, y_block_reshape.to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_reshape_backward(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(3, 4, 5, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        size = (x.size(0), -1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        x1 = x.clone().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker        x2 = x.clone().to_mkldnn().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker        in_features = 20
*da0073e9SAndroid Build Coastguard Worker        out_features = torch.randint(3, 100, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        linear = torch.nn.Linear(in_features, out_features).float()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        y1 = linear(x1.reshape(size)).sum()
*da0073e9SAndroid Build Coastguard Worker        y2 = linear(x2.reshape(size).to_dense()).sum()
*da0073e9SAndroid Build Coastguard Worker        y1.backward()
*da0073e9SAndroid Build Coastguard Worker        y2.backward()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x1.grad, x2.grad.to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_clone(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(4, 5, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            x.clone(),
*da0073e9SAndroid Build Coastguard Worker            x.to_mkldnn().clone().to_dense(),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        # test whether share same memory
*da0073e9SAndroid Build Coastguard Worker        y = x.to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        z = y.clone().add_(y)
*da0073e9SAndroid Build Coastguard Worker        self.assertNotEqual(
*da0073e9SAndroid Build Coastguard Worker            y.to_dense(),
*da0073e9SAndroid Build Coastguard Worker            z.to_dense(),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_transpose(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(3, 4, 5, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        for dim1 in range(x.ndim):
*da0073e9SAndroid Build Coastguard Worker            for dim2 in range(x.ndim):
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker                    x.transpose(dim1, dim2),
*da0073e9SAndroid Build Coastguard Worker                    x.to_mkldnn().transpose(dim1, dim2).to_dense(),
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_transpose_invalid_dime(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(3, 4, 5, dtype=torch.float32).to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(IndexError, "Dimension out of range"):
*da0073e9SAndroid Build Coastguard Worker            torch._mkldnn_transpose(x, 0, 12)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_linear_non_contiguous_weight(self):
*da0073e9SAndroid Build Coastguard Worker        in_features = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        out_features = torch.randint(3, 100, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(3, in_features, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        w = torch.randn(in_features, out_features, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        for bias in [True, False]:
*da0073e9SAndroid Build Coastguard Worker            x1 = x.clone().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker            x2 = x.clone().to_mkldnn().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker            linear = torch.nn.Linear(in_features, out_features).float()
*da0073e9SAndroid Build Coastguard Worker            linear.weight = torch.nn.Parameter(w.t())
*da0073e9SAndroid Build Coastguard Worker            mkldnn_linear = copy.deepcopy(linear)
*da0073e9SAndroid Build Coastguard Worker            y1 = linear(x1).sum()
*da0073e9SAndroid Build Coastguard Worker            y2 = mkldnn_linear(x2).to_dense().sum()
*da0073e9SAndroid Build Coastguard Worker            y1.backward()
*da0073e9SAndroid Build Coastguard Worker            y2.backward()
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(x1.grad, x2.grad.to_dense())
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(linear.weight.grad, mkldnn_linear.weight.grad)
*da0073e9SAndroid Build Coastguard Worker            if bias:
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(linear.bias.grad, mkldnn_linear.bias.grad)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_linear(self):
*da0073e9SAndroid Build Coastguard Worker        in_features = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        out_features = torch.randint(3, 100, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(3, in_features, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for bias in [True, False]:
*da0073e9SAndroid Build Coastguard Worker            linear = torch.nn.Linear(in_features, out_features, bias=bias).float()
*da0073e9SAndroid Build Coastguard Worker            mkldnn_linear = mkldnn_utils.to_mkldnn(copy.deepcopy(linear))
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker                linear(x),
*da0073e9SAndroid Build Coastguard Worker                mkldnn_linear(x.to_mkldnn()).to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            self._test_serialization(mkldnn_linear, (x.to_mkldnn(),))
*da0073e9SAndroid Build Coastguard Worker            self._test_tracing(mkldnn_linear, (x.to_mkldnn(),))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_linear_backward(self):
*da0073e9SAndroid Build Coastguard Worker        in_features = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        out_features = torch.randint(3, 100, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(3, in_features, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        for bias in [True, False]:
*da0073e9SAndroid Build Coastguard Worker            x1 = x.clone().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker            x2 = x.clone().to_mkldnn().requires_grad_()
*da0073e9SAndroid Build Coastguard Worker            linear = torch.nn.Linear(in_features, out_features).float()
*da0073e9SAndroid Build Coastguard Worker            mkldnn_linear = copy.deepcopy(linear)
*da0073e9SAndroid Build Coastguard Worker            y1 = linear(x1).sum()
*da0073e9SAndroid Build Coastguard Worker            y2 = mkldnn_linear(x2).to_dense().sum()
*da0073e9SAndroid Build Coastguard Worker            y1.backward()
*da0073e9SAndroid Build Coastguard Worker            y2.backward()
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(x1.grad, x2.grad.to_dense())
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(linear.weight.grad, mkldnn_linear.weight.grad)
*da0073e9SAndroid Build Coastguard Worker            if bias:
*da0073e9SAndroid Build Coastguard Worker                self.assertEqual(linear.bias.grad, mkldnn_linear.bias.grad)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @dtypes(torch.float16, torch.bfloat16)
*da0073e9SAndroid Build Coastguard Worker    def test_linear_lowp(self, dtype):
*da0073e9SAndroid Build Coastguard Worker        in_features = torch.randint(3, 10, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        out_features = torch.randint(3, 100, (1,)).item()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(3, in_features, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        x_lowp = x.to(dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for bias in [True, False]:
*da0073e9SAndroid Build Coastguard Worker            linear = torch.nn.Linear(in_features, out_features, bias=bias).float()
*da0073e9SAndroid Build Coastguard Worker            mkldnn_linear = mkldnn_utils.to_mkldnn(copy.deepcopy(linear))
*da0073e9SAndroid Build Coastguard Worker            mkldnn_linear_lowp = mkldnn_utils.to_mkldnn(
*da0073e9SAndroid Build Coastguard Worker                copy.deepcopy(linear), dtype
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            lowp_support = {
*da0073e9SAndroid Build Coastguard Worker                torch.bfloat16: torch.ops.mkldnn._is_mkldnn_bf16_supported,
*da0073e9SAndroid Build Coastguard Worker                torch.half: torch.ops.mkldnn._is_mkldnn_fp16_supported,
*da0073e9SAndroid Build Coastguard Worker            }
*da0073e9SAndroid Build Coastguard Worker            if lowp_support[dtype]():
*da0073e9SAndroid Build Coastguard Worker                y = mkldnn_linear(x.to_mkldnn()).to_dense()
*da0073e9SAndroid Build Coastguard Worker                y_lowp = mkldnn_linear_lowp(x_lowp.to_mkldnn()).to_dense(
*da0073e9SAndroid Build Coastguard Worker                    torch.float32
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                if dtype == torch.bfloat16:
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(y, y_lowp, atol=1e-1, rtol=1e-3)
*da0073e9SAndroid Build Coastguard Worker                else:
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(y, y_lowp, atol=5e-3, rtol=1e-3)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                msg = {
*da0073e9SAndroid Build Coastguard Worker                    torch.bfloat16: r"bf16 path needs the cpu support avx_ne_convert or avx512bw, avx512vl and avx512dq",
*da0073e9SAndroid Build Coastguard Worker                    torch.half: r"fp16 path needs the cpu support avx_ne_convert or avx512_fp16",
*da0073e9SAndroid Build Coastguard Worker                }
*da0073e9SAndroid Build Coastguard Worker                self.assertRaisesRegex(
*da0073e9SAndroid Build Coastguard Worker                    RuntimeError,
*da0073e9SAndroid Build Coastguard Worker                    msg[dtype],
*da0073e9SAndroid Build Coastguard Worker                    lambda: mkldnn_linear_lowp(x_lowp.to_mkldnn()),
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_softmax(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(3, 4, 5, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        for dim in range(x.ndim):
*da0073e9SAndroid Build Coastguard Worker            softmax = torch.nn.Softmax(dim=dim)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker                softmax(x),
*da0073e9SAndroid Build Coastguard Worker                softmax(x.to_mkldnn()).to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_sigmoid(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(4, 5, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        mkldnn_x = x.to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            torch.sigmoid(x),
*da0073e9SAndroid Build Coastguard Worker            torch.sigmoid(mkldnn_x).to_dense(),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        # inplace
*da0073e9SAndroid Build Coastguard Worker        torch.sigmoid_(x)
*da0073e9SAndroid Build Coastguard Worker        torch.sigmoid_(mkldnn_x)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x, mkldnn_x.to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_tanh(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(4, 5, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        mkldnn_x = x.to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            torch.tanh(x),
*da0073e9SAndroid Build Coastguard Worker            torch.tanh(mkldnn_x).to_dense(),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        # inplace
*da0073e9SAndroid Build Coastguard Worker        torch.tanh_(x)
*da0073e9SAndroid Build Coastguard Worker        torch.tanh_(mkldnn_x)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x, mkldnn_x.to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _test_serialization(self, module, inputs):
*da0073e9SAndroid Build Coastguard Worker        with TemporaryFileName() as fname:
*da0073e9SAndroid Build Coastguard Worker            torch.jit.save(module, fname)
*da0073e9SAndroid Build Coastguard Worker            loaded = torch.jit.load(fname)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker                module(*inputs).to_dense(),
*da0073e9SAndroid Build Coastguard Worker                loaded(*inputs).to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _test_tracing(self, module, inputs):
*da0073e9SAndroid Build Coastguard Worker        traced = torch.jit.trace(module, inputs)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            module(*inputs).to_dense(),
*da0073e9SAndroid Build Coastguard Worker            traced(*inputs).to_dense())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_set_data_tensorimpl_type(self):
*da0073e9SAndroid Build Coastguard Worker        # Dense tensor has impl of type `TensorImpl`, while MKL-DNN tensor has impl
*da0073e9SAndroid Build Coastguard Worker        # of type `OpaqueTensorImpl<IDeepTensorWrapperPtr>`.
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn((1, 2), dtype=torch.float, device=torch.device('cpu'))
*da0073e9SAndroid Build Coastguard Worker        x_mkldnn = x.to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        with self.assertRaisesRegex(RuntimeError, 'incompatible tensor type'):
*da0073e9SAndroid Build Coastguard Worker            x.data = x_mkldnn
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_empty(self):
*da0073e9SAndroid Build Coastguard Worker        x1 = torch.empty(4, 5, 2, 3, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        x2 = torch.empty(4, 5, 2, 3, dtype=torch.float32, layout=torch._mkldnn)
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x1.size(), x2.to_dense().size())
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(x1.dtype, x2.to_dense().dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_zero_(self):
*da0073e9SAndroid Build Coastguard Worker        x1 = torch.randn(4, 5, dtype=torch.float32) * 10
*da0073e9SAndroid Build Coastguard Worker        x2 = x1.clone().to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker            x1.zero_(),
*da0073e9SAndroid Build Coastguard Worker            x2.zero_().to_dense(),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_is_mkldnn(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(1, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        self.assertFalse(x.is_mkldnn)
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(x.to_mkldnn().is_mkldnn)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # legacy constructor/new doesn't support mkldnn tensors
*da0073e9SAndroid Build Coastguard Worker    @skipIfTorchDynamo("https://github.com/pytorch/torchdynamo/issues/1992")
*da0073e9SAndroid Build Coastguard Worker    def test_legacy_new_failure(self):
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(1, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        x_mkldnn = x.to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker        self.assertRaises(RuntimeError, lambda: x_mkldnn.new(device='cpu'))
*da0073e9SAndroid Build Coastguard Worker        self.assertRaises(RuntimeError, lambda: x_mkldnn.new(x.storage()))
*da0073e9SAndroid Build Coastguard Worker        self.assertRaises(RuntimeError, lambda: x_mkldnn.new(x))
*da0073e9SAndroid Build Coastguard Worker        self.assertRaises(RuntimeError, lambda: x_mkldnn.new(torch.Size([2, 3])))
*da0073e9SAndroid Build Coastguard Worker        self.assertRaises(RuntimeError, lambda: x_mkldnn.new([6]))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_is_mkldnn_jit(self):
*da0073e9SAndroid Build Coastguard Worker        class EnsureMkldnn(torch.jit.ScriptModule):
*da0073e9SAndroid Build Coastguard Worker            @torch.jit.script_method
*da0073e9SAndroid Build Coastguard Worker            def forward(self, x):
*da0073e9SAndroid Build Coastguard Worker                if not x.is_mkldnn:
*da0073e9SAndroid Build Coastguard Worker                    x = x.to_mkldnn()
*da0073e9SAndroid Build Coastguard Worker                return x
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        m = EnsureMkldnn()
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(1, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(m(x).is_mkldnn)
*da0073e9SAndroid Build Coastguard Worker        self.assertTrue(m(x.to_mkldnn()).is_mkldnn)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _test_imagenet_model(self, model):
*da0073e9SAndroid Build Coastguard Worker        model = model.train(False).float()
*da0073e9SAndroid Build Coastguard Worker        mkldnn_model = mkldnn_utils.to_mkldnn(copy.deepcopy(model))
*da0073e9SAndroid Build Coastguard Worker        x = torch.randn(1, 3, 224, 224, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker        with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker                model(x),
*da0073e9SAndroid Build Coastguard Worker                mkldnn_model(x.to_mkldnn()).to_dense(),
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skipIfNoTorchVision
*da0073e9SAndroid Build Coastguard Worker    def test_resnet18(self):
*da0073e9SAndroid Build Coastguard Worker        model = torchvision.models.resnet.resnet18(weights=None)
*da0073e9SAndroid Build Coastguard Worker        self._test_imagenet_model(model)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skipIfNoTorchVision
*da0073e9SAndroid Build Coastguard Worker    def test_resnext50_32x4d(self):
*da0073e9SAndroid Build Coastguard Worker        model = torchvision.models.resnet.resnext50_32x4d(weights=None)
*da0073e9SAndroid Build Coastguard Worker        self._test_imagenet_model(model)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _lstm_params_list(self):
*da0073e9SAndroid Build Coastguard Worker        params_dict = {
*da0073e9SAndroid Build Coastguard Worker            "input_size": [1, 5],
*da0073e9SAndroid Build Coastguard Worker            "hidden_size": [5, 16],
*da0073e9SAndroid Build Coastguard Worker            "num_layers": [1, 3],
*da0073e9SAndroid Build Coastguard Worker            "bidirectional": [False, True],
*da0073e9SAndroid Build Coastguard Worker            "bias": [False, True],
*da0073e9SAndroid Build Coastguard Worker            "batch_first": [False, True],
*da0073e9SAndroid Build Coastguard Worker            "dropout": [0, 0.4, 0.7, 1],
*da0073e9SAndroid Build Coastguard Worker            "batch_size": [1, 2],
*da0073e9SAndroid Build Coastguard Worker            "seq_len": [1, 3],
*da0073e9SAndroid Build Coastguard Worker            "training": [False, True]
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        params_list = list(params_dict.values())
*da0073e9SAndroid Build Coastguard Worker        return params_list
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _cast_dtype(self, input, dtype):
*da0073e9SAndroid Build Coastguard Worker        if dtype == torch.bfloat16:
*da0073e9SAndroid Build Coastguard Worker            input = input.to(torch.bfloat16)
*da0073e9SAndroid Build Coastguard Worker        elif dtype == torch.half:
*da0073e9SAndroid Build Coastguard Worker            input = input.to(torch.half)
*da0073e9SAndroid Build Coastguard Worker        return input
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_lstm(self):
*da0073e9SAndroid Build Coastguard Worker        seed = 2023
*da0073e9SAndroid Build Coastguard Worker        torch.manual_seed(seed)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        params_list = self._lstm_params_list()
*da0073e9SAndroid Build Coastguard Worker        for dtype in types:
*da0073e9SAndroid Build Coastguard Worker            bf16 = dtype == torch.bfloat16
*da0073e9SAndroid Build Coastguard Worker            fp16 = dtype == torch.half
*da0073e9SAndroid Build Coastguard Worker            rtol = 1.3e-6
*da0073e9SAndroid Build Coastguard Worker            atol = 1e-5
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if bf16:
*da0073e9SAndroid Build Coastguard Worker                rtol = 0.02
*da0073e9SAndroid Build Coastguard Worker                atol = 0.02
*da0073e9SAndroid Build Coastguard Worker            if fp16:
*da0073e9SAndroid Build Coastguard Worker                rtol = 1e-3
*da0073e9SAndroid Build Coastguard Worker                atol = 1e-3
*da0073e9SAndroid Build Coastguard Worker            for input_size, hidden_size, num_layers, bidirectional, bias, batch_first, dropout, batch_size, seq_len, training \
*da0073e9SAndroid Build Coastguard Worker                    in itertools.product(*params_list):
*da0073e9SAndroid Build Coastguard Worker                num_directions = 2 if bidirectional else 1
*da0073e9SAndroid Build Coastguard Worker                if batch_first:
*da0073e9SAndroid Build Coastguard Worker                    input = torch.randn(batch_size, seq_len, input_size, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker                else:
*da0073e9SAndroid Build Coastguard Worker                    input = torch.randn(seq_len, batch_size, input_size, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker                h = torch.randn(num_layers * num_directions, batch_size, hidden_size, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker                c = torch.randn(num_layers * num_directions, batch_size, hidden_size, dtype=torch.float32)
*da0073e9SAndroid Build Coastguard Worker                if fp16:
*da0073e9SAndroid Build Coastguard Worker                    # TODO add traing support when oneDNN support lstm FP16 training
*da0073e9SAndroid Build Coastguard Worker                    training = False
*da0073e9SAndroid Build Coastguard Worker                model = torch.nn.LSTM(input_size, hidden_size, num_layers, bidirectional=bidirectional,
*da0073e9SAndroid Build Coastguard Worker                                      bias=bias, dropout=dropout, batch_first=batch_first).float()
*da0073e9SAndroid Build Coastguard Worker                model.train() if training else model.eval()
*da0073e9SAndroid Build Coastguard Worker                input1 = input.clone().requires_grad_(training)
*da0073e9SAndroid Build Coastguard Worker                input2 = input.clone().requires_grad_(training)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                h1 = h.clone().requires_grad_(training)
*da0073e9SAndroid Build Coastguard Worker                h2 = h.clone().requires_grad_(training)
*da0073e9SAndroid Build Coastguard Worker                c1 = c.clone().requires_grad_(training)
*da0073e9SAndroid Build Coastguard Worker                c2 = c.clone().requires_grad_(training)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                model1 = copy.deepcopy(model)
*da0073e9SAndroid Build Coastguard Worker                model2 = copy.deepcopy(model)
*da0073e9SAndroid Build Coastguard Worker                with torch.no_grad() if not training else nullcontext():
*da0073e9SAndroid Build Coastguard Worker                    with torch.backends.mkldnn.flags(enabled=False):
*da0073e9SAndroid Build Coastguard Worker                        torch.manual_seed(seed)
*da0073e9SAndroid Build Coastguard Worker                        output1, (hn1, cn1) = self._cast_dtype(model1, dtype)(
*da0073e9SAndroid Build Coastguard Worker                            self._cast_dtype(input1, dtype),
*da0073e9SAndroid Build Coastguard Worker                            (
*da0073e9SAndroid Build Coastguard Worker                                self._cast_dtype(h1, dtype),
*da0073e9SAndroid Build Coastguard Worker                                self._cast_dtype(c1, dtype),
*da0073e9SAndroid Build Coastguard Worker                            ),
*da0073e9SAndroid Build Coastguard Worker                        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                    torch.manual_seed(seed)
*da0073e9SAndroid Build Coastguard Worker                    output2, (hn2, cn2) = self._cast_dtype(model2, dtype)(
*da0073e9SAndroid Build Coastguard Worker                        self._cast_dtype(input2, dtype),
*da0073e9SAndroid Build Coastguard Worker                        (
*da0073e9SAndroid Build Coastguard Worker                            self._cast_dtype(h2, dtype),
*da0073e9SAndroid Build Coastguard Worker                            self._cast_dtype(c2, dtype),
*da0073e9SAndroid Build Coastguard Worker                        ),
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(output1, output2, rtol=rtol, atol=atol)
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(hn1, hn2, rtol=rtol, atol=atol)
*da0073e9SAndroid Build Coastguard Worker                    self.assertEqual(cn1, cn2, rtol=rtol, atol=atol)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                    if training:
*da0073e9SAndroid Build Coastguard Worker                        with torch.backends.mkldnn.flags(enabled=False):
*da0073e9SAndroid Build Coastguard Worker                            torch.manual_seed(seed)
*da0073e9SAndroid Build Coastguard Worker                            output1.sum().backward(retain_graph=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                        torch.manual_seed(seed)
*da0073e9SAndroid Build Coastguard Worker                        output2.sum().backward(retain_graph=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                        self.assertEqual(input1.grad, input2.grad, rtol=rtol, atol=atol)
*da0073e9SAndroid Build Coastguard Worker                        for name, para in model1.named_parameters():
*da0073e9SAndroid Build Coastguard Worker                            self.assertEqual(para, getattr(model2, name))
*da0073e9SAndroid Build Coastguard Worker                            self.assertEqual(
*da0073e9SAndroid Build Coastguard Worker                                para.grad,
*da0073e9SAndroid Build Coastguard Worker                                getattr(model2, name).grad,
*da0073e9SAndroid Build Coastguard Worker                                rtol=rtol,
*da0073e9SAndroid Build Coastguard Worker                                atol=atol,
*da0073e9SAndroid Build Coastguard Worker                            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                        with torch.backends.mkldnn.flags(enabled=False):
*da0073e9SAndroid Build Coastguard Worker                            torch.manual_seed(seed)
*da0073e9SAndroid Build Coastguard Worker                            hn1.sum().backward(retain_graph=True)
*da0073e9SAndroid Build Coastguard Worker                        torch.manual_seed(seed)
*da0073e9SAndroid Build Coastguard Worker                        hn2.sum().backward(retain_graph=True)
*da0073e9SAndroid Build Coastguard Worker                        self.assertEqual(h1.grad, h2.grad, rtol=rtol, atol=atol)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                        with torch.backends.mkldnn.flags(enabled=False):
*da0073e9SAndroid Build Coastguard Worker                            torch.manual_seed(seed)
*da0073e9SAndroid Build Coastguard Worker                            cn1.sum().backward(retain_graph=True)
*da0073e9SAndroid Build Coastguard Worker                        torch.manual_seed(seed)
*da0073e9SAndroid Build Coastguard Worker                        cn2.sum().backward(retain_graph=True)
*da0073e9SAndroid Build Coastguard Worker                        self.assertEqual(c1.grad, c2.grad, rtol=rtol, atol=atol)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @dtypes(torch.float16, torch.bfloat16)
*da0073e9SAndroid Build Coastguard Worker    def test_matmul_lower_precision(self, dtype):
*da0073e9SAndroid Build Coastguard Worker        support_check = {
*da0073e9SAndroid Build Coastguard Worker            torch.bfloat16: torch.ops.mkldnn._is_mkldnn_bf16_supported,
*da0073e9SAndroid Build Coastguard Worker            torch.float16: torch.ops.mkldnn._is_mkldnn_fp16_supported,
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def common(self, shape1, shape2, op, dtype):
*da0073e9SAndroid Build Coastguard Worker            a = torch.randn(shape1, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            a_ref = a.float()
*da0073e9SAndroid Build Coastguard Worker            b = torch.randn(shape2, dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            b_ref = b.float()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            y = op(a, b)
*da0073e9SAndroid Build Coastguard Worker            y_ref = op(a_ref, b_ref)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(y, y_ref, exact_dtype=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if support_check[dtype]():
*da0073e9SAndroid Build Coastguard Worker            a1 = torch.randn([64, 1, 33], dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            # a2 is contiguous tensor but it's strides
*da0073e9SAndroid Build Coastguard Worker            # is not default contiguous strides.
*da0073e9SAndroid Build Coastguard Worker            a2 = torch.as_strided(a1.clone(), [64, 1, 33], [33, 3, 1])
*da0073e9SAndroid Build Coastguard Worker            self.assertTrue(a2.is_contiguous())
*da0073e9SAndroid Build Coastguard Worker            b = torch.randn(64, 33, 256).to(dtype=dtype)
*da0073e9SAndroid Build Coastguard Worker            y1 = torch.ops.aten.bmm(a1, b)
*da0073e9SAndroid Build Coastguard Worker            y2 = torch.bmm(a2, b)
*da0073e9SAndroid Build Coastguard Worker            self.assertEqual(y1, y2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            for shape1, shape2, op in [
*da0073e9SAndroid Build Coastguard Worker                ((33, 77), (77, 22), torch.matmul),
*da0073e9SAndroid Build Coastguard Worker                ((128, 256), (256, 10), torch.matmul),
*da0073e9SAndroid Build Coastguard Worker                ((7, 300), (300, 3), torch.matmul),
*da0073e9SAndroid Build Coastguard Worker                ((1, 100), (100, 60), torch.matmul),
*da0073e9SAndroid Build Coastguard Worker                ((100, 1), (1, 100), torch.matmul),
*da0073e9SAndroid Build Coastguard Worker                ((20, 54, 78), (20, 78, 10), torch.bmm),
*da0073e9SAndroid Build Coastguard Worker                ((1, 300, 1), (1, 1, 300), torch.bmm),
*da0073e9SAndroid Build Coastguard Worker            ]:
*da0073e9SAndroid Build Coastguard Worker                common(self, shape1, shape2, op, dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerinstantiate_device_type_tests(TestMkldnn, globals(), only_for=('cpu',))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerif __name__ == '__main__':
*da0073e9SAndroid Build Coastguard Worker    run_tests()