test/optim/test_optim.py

*da0073e9SAndroid Build Coastguard Worker# Owner(s): ["module: optimizer"]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport torch
*da0073e9SAndroid Build Coastguard Workerfrom torch.optim import (
*da0073e9SAndroid Build Coastguard Worker    Adadelta,
*da0073e9SAndroid Build Coastguard Worker    Adagrad,
*da0073e9SAndroid Build Coastguard Worker    Adam,
*da0073e9SAndroid Build Coastguard Worker    Adamax,
*da0073e9SAndroid Build Coastguard Worker    AdamW,
*da0073e9SAndroid Build Coastguard Worker    ASGD,
*da0073e9SAndroid Build Coastguard Worker    NAdam,
*da0073e9SAndroid Build Coastguard Worker    RAdam,
*da0073e9SAndroid Build Coastguard Worker    RMSprop,
*da0073e9SAndroid Build Coastguard Worker    Rprop,
*da0073e9SAndroid Build Coastguard Worker    SGD,
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard Workerfrom torch.testing._internal.common_utils import (
*da0073e9SAndroid Build Coastguard Worker    gradcheck,
*da0073e9SAndroid Build Coastguard Worker    load_tests,
*da0073e9SAndroid Build Coastguard Worker    skipIfTorchDynamo,
*da0073e9SAndroid Build Coastguard Worker    TestCase,
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker# load_tests from common_utils is used to automatically filter tests for
*da0073e9SAndroid Build Coastguard Worker# sharding on sandcastle. This line silences flake warnings
*da0073e9SAndroid Build Coastguard Workerload_tests = load_tests
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _diff_fn(p, grad, opt_differentiable_state, opt_class, kwargs, *ignored):
*da0073e9SAndroid Build Coastguard Worker    # Ignored is the list of values in `opt_differentiable_state`, we do this
*da0073e9SAndroid Build Coastguard Worker    # for `gradcheck` to correctly track the state tensors as function inputs
*da0073e9SAndroid Build Coastguard Worker    # because otherwise it can't unpack the values in the `opt_differentiable_state`
*da0073e9SAndroid Build Coastguard Worker    # dict
*da0073e9SAndroid Build Coastguard Worker    p = p.clone()
*da0073e9SAndroid Build Coastguard Worker    p.grad = grad
*da0073e9SAndroid Build Coastguard Worker    opt_differentiable_state = {
*da0073e9SAndroid Build Coastguard Worker        k: v.clone() if isinstance(v, torch.Tensor) else v
*da0073e9SAndroid Build Coastguard Worker        for k, v in opt_differentiable_state.items()
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    opt = opt_class([p], **kwargs)
*da0073e9SAndroid Build Coastguard Worker    opt.state[p].update(opt_differentiable_state)
*da0073e9SAndroid Build Coastguard Worker    opt.step()
*da0073e9SAndroid Build Coastguard Worker    return (p,) + tuple(
*da0073e9SAndroid Build Coastguard Worker        v
*da0073e9SAndroid Build Coastguard Worker        for v in opt.state[p].values()
*da0073e9SAndroid Build Coastguard Worker        if isinstance(v, torch.Tensor) and v.requires_grad
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker@skipIfTorchDynamo("Differentiable optimizers not supported")
*da0073e9SAndroid Build Coastguard Workerclass TestDifferentiableOptimizer(TestCase):
*da0073e9SAndroid Build Coastguard Worker    def test_sgd(self):
*da0073e9SAndroid Build Coastguard Worker        p = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        grad = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        mbuff = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state = {"momentum_buffer": mbuff}
*da0073e9SAndroid Build Coastguard Worker        gradcheck(
*da0073e9SAndroid Build Coastguard Worker            _diff_fn,
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                p,
*da0073e9SAndroid Build Coastguard Worker                grad,
*da0073e9SAndroid Build Coastguard Worker                state,
*da0073e9SAndroid Build Coastguard Worker                SGD,
*da0073e9SAndroid Build Coastguard Worker                {"lr": 0.9, "differentiable": True},
*da0073e9SAndroid Build Coastguard Worker                *state.values(),
*da0073e9SAndroid Build Coastguard Worker            ),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_adam(self):
*da0073e9SAndroid Build Coastguard Worker        state = {}
*da0073e9SAndroid Build Coastguard Worker        p = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        grad = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        # `step` is not a continuous variable (even though we define it as a float)
*da0073e9SAndroid Build Coastguard Worker        # and so it shouldn't require gradients.
*da0073e9SAndroid Build Coastguard Worker        state["step"] = torch.tensor(10.0, requires_grad=False, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["exp_avg"] = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["exp_avg_sq"] = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["max_exp_avg_sq"] = torch.rand(
*da0073e9SAndroid Build Coastguard Worker            10, requires_grad=True, dtype=torch.float64
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        gradcheck(
*da0073e9SAndroid Build Coastguard Worker            _diff_fn,
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                p,
*da0073e9SAndroid Build Coastguard Worker                grad,
*da0073e9SAndroid Build Coastguard Worker                state,
*da0073e9SAndroid Build Coastguard Worker                Adam,
*da0073e9SAndroid Build Coastguard Worker                {"lr": 0.9, "differentiable": True, "amsgrad": True},
*da0073e9SAndroid Build Coastguard Worker                *state.values(),
*da0073e9SAndroid Build Coastguard Worker            ),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_rmsprop(self):
*da0073e9SAndroid Build Coastguard Worker        state = {}
*da0073e9SAndroid Build Coastguard Worker        p = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        grad = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["step"] = torch.zeros((), dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["square_avg"] = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["momentum_buffer"] = torch.rand(
*da0073e9SAndroid Build Coastguard Worker            10, requires_grad=True, dtype=torch.float64
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        # This can cause issues with large values and nan due to sqrt ops
*da0073e9SAndroid Build Coastguard Worker        state["grad_avg"] = 1e-2 * torch.rand(
*da0073e9SAndroid Build Coastguard Worker            10, requires_grad=True, dtype=torch.float64
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        gradcheck(
*da0073e9SAndroid Build Coastguard Worker            _diff_fn,
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                p,
*da0073e9SAndroid Build Coastguard Worker                grad,
*da0073e9SAndroid Build Coastguard Worker                state,
*da0073e9SAndroid Build Coastguard Worker                RMSprop,
*da0073e9SAndroid Build Coastguard Worker                {
*da0073e9SAndroid Build Coastguard Worker                    "lr": 0.9,
*da0073e9SAndroid Build Coastguard Worker                    "maximize": True,
*da0073e9SAndroid Build Coastguard Worker                    "momentum": 0.9,
*da0073e9SAndroid Build Coastguard Worker                    "differentiable": True,
*da0073e9SAndroid Build Coastguard Worker                    "centered": True,
*da0073e9SAndroid Build Coastguard Worker                    "weight_decay": 0.1,
*da0073e9SAndroid Build Coastguard Worker                },
*da0073e9SAndroid Build Coastguard Worker                *state.values(),
*da0073e9SAndroid Build Coastguard Worker            ),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_adadelta(self):
*da0073e9SAndroid Build Coastguard Worker        state = {}
*da0073e9SAndroid Build Coastguard Worker        p = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        grad = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        # `step` is not a continuous variable (even though we define it as a float)
*da0073e9SAndroid Build Coastguard Worker        # and so it shouldn't require gradients.
*da0073e9SAndroid Build Coastguard Worker        state["step"] = torch.tensor(10.0, requires_grad=False, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["square_avg"] = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["acc_delta"] = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        gradcheck(
*da0073e9SAndroid Build Coastguard Worker            _diff_fn,
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                p,
*da0073e9SAndroid Build Coastguard Worker                grad,
*da0073e9SAndroid Build Coastguard Worker                state,
*da0073e9SAndroid Build Coastguard Worker                Adadelta,
*da0073e9SAndroid Build Coastguard Worker                {"lr": 0.9, "weight_decay": 0.1, "differentiable": True},
*da0073e9SAndroid Build Coastguard Worker                *state.values(),
*da0073e9SAndroid Build Coastguard Worker            ),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_adagrad(self):
*da0073e9SAndroid Build Coastguard Worker        state = {}
*da0073e9SAndroid Build Coastguard Worker        p = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        grad = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        # `step` is not a continuous variable (even though we define it as a float)
*da0073e9SAndroid Build Coastguard Worker        # and so it shouldn't require gradients.
*da0073e9SAndroid Build Coastguard Worker        state["step"] = torch.tensor(10.0, requires_grad=False, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["sum"] = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        gradcheck(
*da0073e9SAndroid Build Coastguard Worker            _diff_fn,
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                p,
*da0073e9SAndroid Build Coastguard Worker                grad,
*da0073e9SAndroid Build Coastguard Worker                state,
*da0073e9SAndroid Build Coastguard Worker                Adagrad,
*da0073e9SAndroid Build Coastguard Worker                {"lr": 0.9, "weight_decay": 0.1, "differentiable": True},
*da0073e9SAndroid Build Coastguard Worker                *state.values(),
*da0073e9SAndroid Build Coastguard Worker            ),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_adamax(self):
*da0073e9SAndroid Build Coastguard Worker        state = {}
*da0073e9SAndroid Build Coastguard Worker        p = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        grad = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        # `step` is not a continuous variable (even though we define it as a float)
*da0073e9SAndroid Build Coastguard Worker        # and so it shouldn't require gradients.
*da0073e9SAndroid Build Coastguard Worker        state["step"] = torch.tensor(10.0, requires_grad=False, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["exp_avg"] = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["exp_inf"] = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        gradcheck(
*da0073e9SAndroid Build Coastguard Worker            _diff_fn,
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                p,
*da0073e9SAndroid Build Coastguard Worker                grad,
*da0073e9SAndroid Build Coastguard Worker                state,
*da0073e9SAndroid Build Coastguard Worker                Adamax,
*da0073e9SAndroid Build Coastguard Worker                {"lr": 0.9, "weight_decay": 0.1, "differentiable": True},
*da0073e9SAndroid Build Coastguard Worker                *state.values(),
*da0073e9SAndroid Build Coastguard Worker            ),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @skipIfTorchDynamo(
*da0073e9SAndroid Build Coastguard Worker        "The inplace mu update fails with dynamo, "
*da0073e9SAndroid Build Coastguard Worker        "since this is only happening when differentiable is enabled, skipping for now"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    def test_asgd(self):
*da0073e9SAndroid Build Coastguard Worker        state = {}
*da0073e9SAndroid Build Coastguard Worker        p = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        grad = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        # `step` `eta` & `mu` are not continuous variables (even though we define them as floats)
*da0073e9SAndroid Build Coastguard Worker        # and so they shouldn't require gradients.
*da0073e9SAndroid Build Coastguard Worker        state["step"] = torch.tensor(10.0, requires_grad=False, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["eta"] = torch.tensor(0.9, requires_grad=False, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["mu"] = torch.tensor(1.0, requires_grad=False, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["ax"] = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        gradcheck(
*da0073e9SAndroid Build Coastguard Worker            _diff_fn,
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                p,
*da0073e9SAndroid Build Coastguard Worker                grad,
*da0073e9SAndroid Build Coastguard Worker                state,
*da0073e9SAndroid Build Coastguard Worker                ASGD,
*da0073e9SAndroid Build Coastguard Worker                {"lr": 0.9, "differentiable": True},
*da0073e9SAndroid Build Coastguard Worker                *state.values(),
*da0073e9SAndroid Build Coastguard Worker            ),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_rprop(self):
*da0073e9SAndroid Build Coastguard Worker        state = {}
*da0073e9SAndroid Build Coastguard Worker        p = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        grad = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        # `step` is not a continuous variable (even though we define it as a float)
*da0073e9SAndroid Build Coastguard Worker        # and so it shouldn't require gradients.
*da0073e9SAndroid Build Coastguard Worker        state["step"] = torch.tensor(10.0, requires_grad=False, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["prev"] = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["step_size"] = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        gradcheck(
*da0073e9SAndroid Build Coastguard Worker            _diff_fn,
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                p,
*da0073e9SAndroid Build Coastguard Worker                grad,
*da0073e9SAndroid Build Coastguard Worker                state,
*da0073e9SAndroid Build Coastguard Worker                Rprop,
*da0073e9SAndroid Build Coastguard Worker                {"lr": 0.9, "differentiable": True},
*da0073e9SAndroid Build Coastguard Worker                *state.values(),
*da0073e9SAndroid Build Coastguard Worker            ),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_adamw(self):
*da0073e9SAndroid Build Coastguard Worker        state = {}
*da0073e9SAndroid Build Coastguard Worker        p = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        grad = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        # `step` is not a continuous variable (even though we define it as a float)
*da0073e9SAndroid Build Coastguard Worker        # and so it shouldn't require gradients.
*da0073e9SAndroid Build Coastguard Worker        state["step"] = torch.tensor(10.0, requires_grad=False, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["exp_avg"] = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["exp_avg_sq"] = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["max_exp_avg_sq"] = torch.rand(
*da0073e9SAndroid Build Coastguard Worker            10, requires_grad=True, dtype=torch.float64
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        gradcheck(
*da0073e9SAndroid Build Coastguard Worker            _diff_fn,
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                p,
*da0073e9SAndroid Build Coastguard Worker                grad,
*da0073e9SAndroid Build Coastguard Worker                state,
*da0073e9SAndroid Build Coastguard Worker                AdamW,
*da0073e9SAndroid Build Coastguard Worker                {"lr": 0.9, "differentiable": True, "amsgrad": True},
*da0073e9SAndroid Build Coastguard Worker                *state.values(),
*da0073e9SAndroid Build Coastguard Worker            ),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_nadam(self):
*da0073e9SAndroid Build Coastguard Worker        state = {}
*da0073e9SAndroid Build Coastguard Worker        p = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        grad = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        # `step` is not a continuous variable (even though we define it as a float)
*da0073e9SAndroid Build Coastguard Worker        # and so it shouldn't require gradients.
*da0073e9SAndroid Build Coastguard Worker        state["step"] = torch.tensor(10.0, requires_grad=False, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["exp_avg"] = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["exp_avg_sq"] = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["mu_product"] = torch.tensor(1.0, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        gradcheck(
*da0073e9SAndroid Build Coastguard Worker            _diff_fn,
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                p,
*da0073e9SAndroid Build Coastguard Worker                grad,
*da0073e9SAndroid Build Coastguard Worker                state,
*da0073e9SAndroid Build Coastguard Worker                NAdam,
*da0073e9SAndroid Build Coastguard Worker                {"lr": 0.9, "differentiable": True},
*da0073e9SAndroid Build Coastguard Worker                *state.values(),
*da0073e9SAndroid Build Coastguard Worker            ),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        gradcheck(
*da0073e9SAndroid Build Coastguard Worker            _diff_fn,
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                p,
*da0073e9SAndroid Build Coastguard Worker                grad,
*da0073e9SAndroid Build Coastguard Worker                state,
*da0073e9SAndroid Build Coastguard Worker                NAdam,
*da0073e9SAndroid Build Coastguard Worker                {"lr": 0.9, "decoupled_weight_decay": True, "differentiable": True},
*da0073e9SAndroid Build Coastguard Worker                *state.values(),
*da0073e9SAndroid Build Coastguard Worker            ),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def test_radam(self):
*da0073e9SAndroid Build Coastguard Worker        state = {}
*da0073e9SAndroid Build Coastguard Worker        p = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        grad = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        # `step` is not a continuous variable (even though we define it as a float)
*da0073e9SAndroid Build Coastguard Worker        # and so it shouldn't require gradients.
*da0073e9SAndroid Build Coastguard Worker        state["step"] = torch.tensor(10.0, requires_grad=False, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["exp_avg"] = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker        state["exp_avg_sq"] = torch.rand(10, requires_grad=True, dtype=torch.float64)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        gradcheck(
*da0073e9SAndroid Build Coastguard Worker            _diff_fn,
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                p,
*da0073e9SAndroid Build Coastguard Worker                grad,
*da0073e9SAndroid Build Coastguard Worker                state,
*da0073e9SAndroid Build Coastguard Worker                RAdam,
*da0073e9SAndroid Build Coastguard Worker                {"lr": 0.9, "differentiable": True},
*da0073e9SAndroid Build Coastguard Worker                *state.values(),
*da0073e9SAndroid Build Coastguard Worker            ),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        gradcheck(
*da0073e9SAndroid Build Coastguard Worker            _diff_fn,
*da0073e9SAndroid Build Coastguard Worker            (
*da0073e9SAndroid Build Coastguard Worker                p,
*da0073e9SAndroid Build Coastguard Worker                grad,
*da0073e9SAndroid Build Coastguard Worker                state,
*da0073e9SAndroid Build Coastguard Worker                RAdam,
*da0073e9SAndroid Build Coastguard Worker                {
*da0073e9SAndroid Build Coastguard Worker                    "lr": 0.9,
*da0073e9SAndroid Build Coastguard Worker                    "weight_decay": 0.1,
*da0073e9SAndroid Build Coastguard Worker                    "decoupled_weight_decay": True,
*da0073e9SAndroid Build Coastguard Worker                    "differentiable": True,
*da0073e9SAndroid Build Coastguard Worker                },
*da0073e9SAndroid Build Coastguard Worker                *state.values(),
*da0073e9SAndroid Build Coastguard Worker            ),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerif __name__ == "__main__":
*da0073e9SAndroid Build Coastguard Worker    print("These tests should be run through test/test_optim.py instead")