torch/optim/sgd.py

*da0073e9SAndroid Build Coastguard Worker# mypy: allow-untyped-defs
*da0073e9SAndroid Build Coastguard Workerr"""Implementation for Stochastic Gradient Descent optimizer."""
*da0073e9SAndroid Build Coastguard Workerfrom typing import cast, List, Optional, Union
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport torch
*da0073e9SAndroid Build Coastguard Workerfrom torch import Tensor
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerfrom .optimizer import (
*da0073e9SAndroid Build Coastguard Worker    _default_to_fused_or_foreach,
*da0073e9SAndroid Build Coastguard Worker    _device_dtype_check_for_fused,
*da0073e9SAndroid Build Coastguard Worker    _differentiable_doc,
*da0073e9SAndroid Build Coastguard Worker    _foreach_doc,
*da0073e9SAndroid Build Coastguard Worker    _fused_doc,
*da0073e9SAndroid Build Coastguard Worker    _maximize_doc,
*da0073e9SAndroid Build Coastguard Worker    _use_grad_for_differentiable,
*da0073e9SAndroid Build Coastguard Worker    DeviceDict,
*da0073e9SAndroid Build Coastguard Worker    Optimizer,
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker__all__ = ["SGD", "sgd"]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass SGD(Optimizer):  # noqa: D101
*da0073e9SAndroid Build Coastguard Worker    def __init__(
*da0073e9SAndroid Build Coastguard Worker        self,
*da0073e9SAndroid Build Coastguard Worker        params,
*da0073e9SAndroid Build Coastguard Worker        lr: Union[float, Tensor] = 1e-3,
*da0073e9SAndroid Build Coastguard Worker        momentum: float = 0,
*da0073e9SAndroid Build Coastguard Worker        dampening: float = 0,
*da0073e9SAndroid Build Coastguard Worker        weight_decay: float = 0,
*da0073e9SAndroid Build Coastguard Worker        nesterov=False,
*da0073e9SAndroid Build Coastguard Worker        *,
*da0073e9SAndroid Build Coastguard Worker        maximize: bool = False,
*da0073e9SAndroid Build Coastguard Worker        foreach: Optional[bool] = None,
*da0073e9SAndroid Build Coastguard Worker        differentiable: bool = False,
*da0073e9SAndroid Build Coastguard Worker        fused: Optional[bool] = None,
*da0073e9SAndroid Build Coastguard Worker    ):  # noqa: D107
*da0073e9SAndroid Build Coastguard Worker        if isinstance(lr, Tensor) and lr.numel() != 1:
*da0073e9SAndroid Build Coastguard Worker            raise ValueError("Tensor lr must be 1-element")
*da0073e9SAndroid Build Coastguard Worker        if lr < 0.0:
*da0073e9SAndroid Build Coastguard Worker            raise ValueError(f"Invalid learning rate: {lr}")
*da0073e9SAndroid Build Coastguard Worker        if momentum < 0.0:
*da0073e9SAndroid Build Coastguard Worker            raise ValueError(f"Invalid momentum value: {momentum}")
*da0073e9SAndroid Build Coastguard Worker        if weight_decay < 0.0:
*da0073e9SAndroid Build Coastguard Worker            raise ValueError(f"Invalid weight_decay value: {weight_decay}")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        defaults = dict(
*da0073e9SAndroid Build Coastguard Worker            lr=lr,
*da0073e9SAndroid Build Coastguard Worker            momentum=momentum,
*da0073e9SAndroid Build Coastguard Worker            dampening=dampening,
*da0073e9SAndroid Build Coastguard Worker            weight_decay=weight_decay,
*da0073e9SAndroid Build Coastguard Worker            nesterov=nesterov,
*da0073e9SAndroid Build Coastguard Worker            maximize=maximize,
*da0073e9SAndroid Build Coastguard Worker            foreach=foreach,
*da0073e9SAndroid Build Coastguard Worker            differentiable=differentiable,
*da0073e9SAndroid Build Coastguard Worker            fused=fused,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        if nesterov and (momentum <= 0 or dampening != 0):
*da0073e9SAndroid Build Coastguard Worker            raise ValueError("Nesterov momentum requires a momentum and zero dampening")
*da0073e9SAndroid Build Coastguard Worker        super().__init__(params, defaults)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if fused:
*da0073e9SAndroid Build Coastguard Worker            self._step_supports_amp_scaling = True
*da0073e9SAndroid Build Coastguard Worker            self._need_device_dtype_check_for_fused = True
*da0073e9SAndroid Build Coastguard Worker            if differentiable:
*da0073e9SAndroid Build Coastguard Worker                raise RuntimeError("`fused` does not support `differentiable`")
*da0073e9SAndroid Build Coastguard Worker            if foreach:
*da0073e9SAndroid Build Coastguard Worker                raise RuntimeError("`fused` and `foreach` cannot be `True` together.")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __setstate__(self, state):  # noqa: D105
*da0073e9SAndroid Build Coastguard Worker        super().__setstate__(state)
*da0073e9SAndroid Build Coastguard Worker        for group in self.param_groups:
*da0073e9SAndroid Build Coastguard Worker            group.setdefault("nesterov", False)
*da0073e9SAndroid Build Coastguard Worker            group.setdefault("maximize", False)
*da0073e9SAndroid Build Coastguard Worker            group.setdefault("foreach", None)
*da0073e9SAndroid Build Coastguard Worker            group.setdefault("differentiable", False)
*da0073e9SAndroid Build Coastguard Worker            group.setdefault("fused", False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _init_group(self, group, params, grads, momentum_buffer_list):
*da0073e9SAndroid Build Coastguard Worker        has_sparse_grad = False
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for p in group["params"]:
*da0073e9SAndroid Build Coastguard Worker            if p.grad is not None:
*da0073e9SAndroid Build Coastguard Worker                if group["fused"] and getattr(
*da0073e9SAndroid Build Coastguard Worker                    self, "_need_device_dtype_check_for_fused", True
*da0073e9SAndroid Build Coastguard Worker                ):
*da0073e9SAndroid Build Coastguard Worker                    _device_dtype_check_for_fused(p)
*da0073e9SAndroid Build Coastguard Worker                    self._need_device_dtype_check_for_fused = False
*da0073e9SAndroid Build Coastguard Worker                params.append(p)
*da0073e9SAndroid Build Coastguard Worker                grads.append(p.grad)
*da0073e9SAndroid Build Coastguard Worker                if p.grad.is_sparse:
*da0073e9SAndroid Build Coastguard Worker                    has_sparse_grad = True
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                if group["momentum"] != 0:
*da0073e9SAndroid Build Coastguard Worker                    state = self.state[p]
*da0073e9SAndroid Build Coastguard Worker                    momentum_buffer_list.append(state.get("momentum_buffer"))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        return has_sparse_grad
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @_use_grad_for_differentiable
*da0073e9SAndroid Build Coastguard Worker    def step(self, closure=None):
*da0073e9SAndroid Build Coastguard Worker        """Perform a single optimization step.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Args:
*da0073e9SAndroid Build Coastguard Worker            closure (Callable, optional): A closure that reevaluates the model
*da0073e9SAndroid Build Coastguard Worker                and returns the loss.
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        loss = None
*da0073e9SAndroid Build Coastguard Worker        if closure is not None:
*da0073e9SAndroid Build Coastguard Worker            with torch.enable_grad():
*da0073e9SAndroid Build Coastguard Worker                loss = closure()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for group in self.param_groups:
*da0073e9SAndroid Build Coastguard Worker            params: List[Tensor] = []
*da0073e9SAndroid Build Coastguard Worker            grads: List[Tensor] = []
*da0073e9SAndroid Build Coastguard Worker            momentum_buffer_list: List[Optional[Tensor]] = []
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            has_sparse_grad = self._init_group(
*da0073e9SAndroid Build Coastguard Worker                group, params, grads, momentum_buffer_list
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            sgd(
*da0073e9SAndroid Build Coastguard Worker                params,
*da0073e9SAndroid Build Coastguard Worker                grads,
*da0073e9SAndroid Build Coastguard Worker                momentum_buffer_list,
*da0073e9SAndroid Build Coastguard Worker                weight_decay=group["weight_decay"],
*da0073e9SAndroid Build Coastguard Worker                momentum=group["momentum"],
*da0073e9SAndroid Build Coastguard Worker                lr=group["lr"],
*da0073e9SAndroid Build Coastguard Worker                dampening=group["dampening"],
*da0073e9SAndroid Build Coastguard Worker                nesterov=group["nesterov"],
*da0073e9SAndroid Build Coastguard Worker                maximize=group["maximize"],
*da0073e9SAndroid Build Coastguard Worker                has_sparse_grad=has_sparse_grad,
*da0073e9SAndroid Build Coastguard Worker                foreach=group["foreach"],
*da0073e9SAndroid Build Coastguard Worker                fused=group["fused"],
*da0073e9SAndroid Build Coastguard Worker                grad_scale=getattr(self, "grad_scale", None),
*da0073e9SAndroid Build Coastguard Worker                found_inf=getattr(self, "found_inf", None),
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if group["momentum"] != 0:
*da0073e9SAndroid Build Coastguard Worker                # update momentum_buffers in state
*da0073e9SAndroid Build Coastguard Worker                for p, momentum_buffer in zip(params, momentum_buffer_list):
*da0073e9SAndroid Build Coastguard Worker                    state = self.state[p]
*da0073e9SAndroid Build Coastguard Worker                    state["momentum_buffer"] = momentum_buffer
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        return loss
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerSGD.__doc__ = (
*da0073e9SAndroid Build Coastguard Worker    r"""Implements stochastic gradient descent (optionally with momentum).
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    .. math::
*da0073e9SAndroid Build Coastguard Worker       \begin{aligned}
*da0073e9SAndroid Build Coastguard Worker            &\rule{110mm}{0.4pt}                                                                 \\
*da0073e9SAndroid Build Coastguard Worker            &\textbf{input}      : \gamma \text{ (lr)}, \: \theta_0 \text{ (params)}, \: f(\theta)
*da0073e9SAndroid Build Coastguard Worker                \text{ (objective)}, \: \lambda \text{ (weight decay)},                          \\
*da0073e9SAndroid Build Coastguard Worker            &\hspace{13mm} \:\mu \text{ (momentum)}, \:\tau \text{ (dampening)},
*da0073e9SAndroid Build Coastguard Worker            \:\textit{ nesterov,}\:\textit{ maximize}                                     \\[-1.ex]
*da0073e9SAndroid Build Coastguard Worker            &\rule{110mm}{0.4pt}                                                                 \\
*da0073e9SAndroid Build Coastguard Worker            &\textbf{for} \: t=1 \: \textbf{to} \: \ldots \: \textbf{do}                         \\
*da0073e9SAndroid Build Coastguard Worker            &\hspace{5mm}g_t           \leftarrow   \nabla_{\theta} f_t (\theta_{t-1})           \\
*da0073e9SAndroid Build Coastguard Worker            &\hspace{5mm}\textbf{if} \: \lambda \neq 0                                           \\
*da0073e9SAndroid Build Coastguard Worker            &\hspace{10mm} g_t \leftarrow g_t + \lambda  \theta_{t-1}                            \\
*da0073e9SAndroid Build Coastguard Worker            &\hspace{5mm}\textbf{if} \: \mu \neq 0                                               \\
*da0073e9SAndroid Build Coastguard Worker            &\hspace{10mm}\textbf{if} \: t > 1                                                   \\
*da0073e9SAndroid Build Coastguard Worker            &\hspace{15mm} \textbf{b}_t \leftarrow \mu \textbf{b}_{t-1} + (1-\tau) g_t           \\
*da0073e9SAndroid Build Coastguard Worker            &\hspace{10mm}\textbf{else}                                                          \\
*da0073e9SAndroid Build Coastguard Worker            &\hspace{15mm} \textbf{b}_t \leftarrow g_t                                           \\
*da0073e9SAndroid Build Coastguard Worker            &\hspace{10mm}\textbf{if} \: \textit{nesterov}                                       \\
*da0073e9SAndroid Build Coastguard Worker            &\hspace{15mm} g_t \leftarrow g_{t} + \mu \textbf{b}_t                             \\
*da0073e9SAndroid Build Coastguard Worker            &\hspace{10mm}\textbf{else}                                                   \\[-1.ex]
*da0073e9SAndroid Build Coastguard Worker            &\hspace{15mm} g_t  \leftarrow  \textbf{b}_t                                         \\
*da0073e9SAndroid Build Coastguard Worker            &\hspace{5mm}\textbf{if} \: \textit{maximize}                                          \\
*da0073e9SAndroid Build Coastguard Worker            &\hspace{10mm}\theta_t \leftarrow \theta_{t-1} + \gamma g_t                   \\[-1.ex]
*da0073e9SAndroid Build Coastguard Worker            &\hspace{5mm}\textbf{else}                                                    \\[-1.ex]
*da0073e9SAndroid Build Coastguard Worker            &\hspace{10mm}\theta_t \leftarrow \theta_{t-1} - \gamma g_t                   \\[-1.ex]
*da0073e9SAndroid Build Coastguard Worker            &\rule{110mm}{0.4pt}                                                          \\[-1.ex]
*da0073e9SAndroid Build Coastguard Worker            &\bf{return} \:  \theta_t                                                     \\[-1.ex]
*da0073e9SAndroid Build Coastguard Worker            &\rule{110mm}{0.4pt}                                                          \\[-1.ex]
*da0073e9SAndroid Build Coastguard Worker       \end{aligned}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Nesterov momentum is based on the formula from
*da0073e9SAndroid Build Coastguard Worker    `On the importance of initialization and momentum in deep learning`__.
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    + rf"""
*da0073e9SAndroid Build Coastguard Worker    Args:
*da0073e9SAndroid Build Coastguard Worker        params (iterable): iterable of parameters to optimize or dicts defining
*da0073e9SAndroid Build Coastguard Worker            parameter groups
*da0073e9SAndroid Build Coastguard Worker        lr (float, Tensor, optional): learning rate (default: 1e-3)
*da0073e9SAndroid Build Coastguard Worker        momentum (float, optional): momentum factor (default: 0)
*da0073e9SAndroid Build Coastguard Worker        weight_decay (float, optional): weight decay (L2 penalty) (default: 0)
*da0073e9SAndroid Build Coastguard Worker        dampening (float, optional): dampening for momentum (default: 0)
*da0073e9SAndroid Build Coastguard Worker        nesterov (bool, optional): enables Nesterov momentum (default: False)
*da0073e9SAndroid Build Coastguard Worker        {_maximize_doc}
*da0073e9SAndroid Build Coastguard Worker        {_foreach_doc}
*da0073e9SAndroid Build Coastguard Worker        {_differentiable_doc}
*da0073e9SAndroid Build Coastguard Worker        {_fused_doc}
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    + r"""
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Example:
*da0073e9SAndroid Build Coastguard Worker        >>> # xdoctest: +SKIP
*da0073e9SAndroid Build Coastguard Worker        >>> optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)
*da0073e9SAndroid Build Coastguard Worker        >>> optimizer.zero_grad()
*da0073e9SAndroid Build Coastguard Worker        >>> loss_fn(model(input), target).backward()
*da0073e9SAndroid Build Coastguard Worker        >>> optimizer.step()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    __ http://www.cs.toronto.edu/%7Ehinton/absps/momentum.pdf
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    .. note::
*da0073e9SAndroid Build Coastguard Worker        The implementation of SGD with Momentum/Nesterov subtly differs from
*da0073e9SAndroid Build Coastguard Worker        Sutskever et al. and implementations in some other frameworks.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Considering the specific case of Momentum, the update can be written as
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        .. math::
*da0073e9SAndroid Build Coastguard Worker            \begin{aligned}
*da0073e9SAndroid Build Coastguard Worker                v_{t+1} & = \mu * v_{t} + g_{t+1}, \\
*da0073e9SAndroid Build Coastguard Worker                p_{t+1} & = p_{t} - \text{lr} * v_{t+1},
*da0073e9SAndroid Build Coastguard Worker            \end{aligned}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        where :math:`p`, :math:`g`, :math:`v` and :math:`\mu` denote the
*da0073e9SAndroid Build Coastguard Worker        parameters, gradient, velocity, and momentum respectively.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        This is in contrast to Sutskever et al. and
*da0073e9SAndroid Build Coastguard Worker        other frameworks which employ an update of the form
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        .. math::
*da0073e9SAndroid Build Coastguard Worker            \begin{aligned}
*da0073e9SAndroid Build Coastguard Worker                v_{t+1} & = \mu * v_{t} + \text{lr} * g_{t+1}, \\
*da0073e9SAndroid Build Coastguard Worker                p_{t+1} & = p_{t} - v_{t+1}.
*da0073e9SAndroid Build Coastguard Worker            \end{aligned}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        The Nesterov version is analogously modified.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Moreover, the initial value of the momentum buffer is set to the
*da0073e9SAndroid Build Coastguard Worker        gradient value at the first step. This is in contrast to some other
*da0073e9SAndroid Build Coastguard Worker        frameworks that initialize it to all zeros.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef sgd(
*da0073e9SAndroid Build Coastguard Worker    params: List[Tensor],
*da0073e9SAndroid Build Coastguard Worker    d_p_list: List[Tensor],
*da0073e9SAndroid Build Coastguard Worker    momentum_buffer_list: List[Optional[Tensor]],
*da0073e9SAndroid Build Coastguard Worker    # kwonly args with defaults are not supported by functions compiled with torchscript issue #70627
*da0073e9SAndroid Build Coastguard Worker    # setting this as kwarg for now as functional API is compiled by torch/distributed/optim
*da0073e9SAndroid Build Coastguard Worker    has_sparse_grad: bool = False,
*da0073e9SAndroid Build Coastguard Worker    foreach: Optional[bool] = None,
*da0073e9SAndroid Build Coastguard Worker    fused: Optional[bool] = None,
*da0073e9SAndroid Build Coastguard Worker    grad_scale: Optional[Tensor] = None,
*da0073e9SAndroid Build Coastguard Worker    found_inf: Optional[Tensor] = None,
*da0073e9SAndroid Build Coastguard Worker    *,
*da0073e9SAndroid Build Coastguard Worker    weight_decay: float,
*da0073e9SAndroid Build Coastguard Worker    momentum: float,
*da0073e9SAndroid Build Coastguard Worker    lr: float,
*da0073e9SAndroid Build Coastguard Worker    dampening: float,
*da0073e9SAndroid Build Coastguard Worker    nesterov: bool,
*da0073e9SAndroid Build Coastguard Worker    maximize: bool,
*da0073e9SAndroid Build Coastguard Worker):
*da0073e9SAndroid Build Coastguard Worker    r"""Functional API that performs SGD algorithm computation.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    See :class:`~torch.optim.SGD` for details.
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    # Respect when the user inputs False/True for foreach or fused. We only want to change
*da0073e9SAndroid Build Coastguard Worker    # the default when neither have been user-specified. Note that we default to foreach
*da0073e9SAndroid Build Coastguard Worker    # and pass False to use_fused. This is not a mistake--we want to give the fused impl
*da0073e9SAndroid Build Coastguard Worker    # bake-in time before making it the default, even if it is typically faster.
*da0073e9SAndroid Build Coastguard Worker    if foreach is None and fused is None:
*da0073e9SAndroid Build Coastguard Worker        # why must we be explicit about an if statement for torch.jit.is_scripting here?
*da0073e9SAndroid Build Coastguard Worker        # because JIT can't handle Optionals nor fancy conditionals when scripting
*da0073e9SAndroid Build Coastguard Worker        if not torch.jit.is_scripting():
*da0073e9SAndroid Build Coastguard Worker            fused, foreach = _default_to_fused_or_foreach(
*da0073e9SAndroid Build Coastguard Worker                params, differentiable=False, use_fused=False
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            foreach = False
*da0073e9SAndroid Build Coastguard Worker            fused = False
*da0073e9SAndroid Build Coastguard Worker    if foreach is None:
*da0073e9SAndroid Build Coastguard Worker        foreach = False
*da0073e9SAndroid Build Coastguard Worker    if fused is None:
*da0073e9SAndroid Build Coastguard Worker        fused = False
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if foreach and torch.jit.is_scripting():
*da0073e9SAndroid Build Coastguard Worker        raise RuntimeError("torch.jit.script not supported with foreach optimizers")
*da0073e9SAndroid Build Coastguard Worker    if fused and torch.jit.is_scripting():
*da0073e9SAndroid Build Coastguard Worker        raise RuntimeError("torch.jit.script not supported with fused optimizers")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if foreach and not torch.jit.is_scripting():
*da0073e9SAndroid Build Coastguard Worker        func = _multi_tensor_sgd
*da0073e9SAndroid Build Coastguard Worker    elif fused and not torch.jit.is_scripting():
*da0073e9SAndroid Build Coastguard Worker        func = _fused_sgd
*da0073e9SAndroid Build Coastguard Worker    else:
*da0073e9SAndroid Build Coastguard Worker        func = _single_tensor_sgd
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    func(
*da0073e9SAndroid Build Coastguard Worker        params,
*da0073e9SAndroid Build Coastguard Worker        d_p_list,
*da0073e9SAndroid Build Coastguard Worker        momentum_buffer_list,
*da0073e9SAndroid Build Coastguard Worker        weight_decay=weight_decay,
*da0073e9SAndroid Build Coastguard Worker        momentum=momentum,
*da0073e9SAndroid Build Coastguard Worker        lr=lr,
*da0073e9SAndroid Build Coastguard Worker        dampening=dampening,
*da0073e9SAndroid Build Coastguard Worker        nesterov=nesterov,
*da0073e9SAndroid Build Coastguard Worker        has_sparse_grad=has_sparse_grad,
*da0073e9SAndroid Build Coastguard Worker        maximize=maximize,
*da0073e9SAndroid Build Coastguard Worker        grad_scale=grad_scale,
*da0073e9SAndroid Build Coastguard Worker        found_inf=found_inf,
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _single_tensor_sgd(
*da0073e9SAndroid Build Coastguard Worker    params: List[Tensor],
*da0073e9SAndroid Build Coastguard Worker    grads: List[Tensor],
*da0073e9SAndroid Build Coastguard Worker    momentum_buffer_list: List[Optional[Tensor]],
*da0073e9SAndroid Build Coastguard Worker    grad_scale: Optional[Tensor],
*da0073e9SAndroid Build Coastguard Worker    found_inf: Optional[Tensor],
*da0073e9SAndroid Build Coastguard Worker    *,
*da0073e9SAndroid Build Coastguard Worker    weight_decay: float,
*da0073e9SAndroid Build Coastguard Worker    momentum: float,
*da0073e9SAndroid Build Coastguard Worker    lr: float,
*da0073e9SAndroid Build Coastguard Worker    dampening: float,
*da0073e9SAndroid Build Coastguard Worker    nesterov: bool,
*da0073e9SAndroid Build Coastguard Worker    maximize: bool,
*da0073e9SAndroid Build Coastguard Worker    has_sparse_grad: bool,
*da0073e9SAndroid Build Coastguard Worker):
*da0073e9SAndroid Build Coastguard Worker    assert grad_scale is None and found_inf is None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    for i, param in enumerate(params):
*da0073e9SAndroid Build Coastguard Worker        grad = grads[i] if not maximize else -grads[i]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if weight_decay != 0:
*da0073e9SAndroid Build Coastguard Worker            grad = grad.add(param, alpha=weight_decay)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if momentum != 0:
*da0073e9SAndroid Build Coastguard Worker            buf = momentum_buffer_list[i]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if buf is None:
*da0073e9SAndroid Build Coastguard Worker                buf = torch.clone(grad).detach()
*da0073e9SAndroid Build Coastguard Worker                momentum_buffer_list[i] = buf
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                buf.mul_(momentum).add_(grad, alpha=1 - dampening)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if nesterov:
*da0073e9SAndroid Build Coastguard Worker                grad = grad.add(buf, alpha=momentum)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                grad = buf
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        param.add_(grad, alpha=-lr)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _multi_tensor_sgd(
*da0073e9SAndroid Build Coastguard Worker    params: List[Tensor],
*da0073e9SAndroid Build Coastguard Worker    grads: List[Tensor],
*da0073e9SAndroid Build Coastguard Worker    momentum_buffer_list: List[Optional[Tensor]],
*da0073e9SAndroid Build Coastguard Worker    grad_scale: Optional[Tensor],
*da0073e9SAndroid Build Coastguard Worker    found_inf: Optional[Tensor],
*da0073e9SAndroid Build Coastguard Worker    *,
*da0073e9SAndroid Build Coastguard Worker    weight_decay: float,
*da0073e9SAndroid Build Coastguard Worker    momentum: float,
*da0073e9SAndroid Build Coastguard Worker    lr: float,
*da0073e9SAndroid Build Coastguard Worker    dampening: float,
*da0073e9SAndroid Build Coastguard Worker    nesterov: bool,
*da0073e9SAndroid Build Coastguard Worker    maximize: bool,
*da0073e9SAndroid Build Coastguard Worker    has_sparse_grad: bool,
*da0073e9SAndroid Build Coastguard Worker):
*da0073e9SAndroid Build Coastguard Worker    assert grad_scale is None and found_inf is None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if len(params) == 0:
*da0073e9SAndroid Build Coastguard Worker        return
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    grouped_tensors = Optimizer._group_tensors_by_device_and_dtype(
*da0073e9SAndroid Build Coastguard Worker        [params, grads, momentum_buffer_list], with_indices=True  # type: ignore[list-item]
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    for (
*da0073e9SAndroid Build Coastguard Worker        device_params_,
*da0073e9SAndroid Build Coastguard Worker        device_grads_,
*da0073e9SAndroid Build Coastguard Worker        device_momentum_buffer_list,
*da0073e9SAndroid Build Coastguard Worker    ), indices in grouped_tensors.values():
*da0073e9SAndroid Build Coastguard Worker        device_params: List[Tensor] = cast(List[Tensor], device_params_)
*da0073e9SAndroid Build Coastguard Worker        device_grads: List[Tensor] = cast(List[Tensor], device_grads_)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        device_has_sparse_grad = has_sparse_grad and any(
*da0073e9SAndroid Build Coastguard Worker            grad.is_sparse for grad in device_grads
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if maximize:
*da0073e9SAndroid Build Coastguard Worker            device_grads = torch._foreach_neg(device_grads)  # type: ignore[assignment]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if weight_decay != 0:
*da0073e9SAndroid Build Coastguard Worker            # Re-use the intermediate memory (device_grads) already allocated for maximize
*da0073e9SAndroid Build Coastguard Worker            if maximize:
*da0073e9SAndroid Build Coastguard Worker                torch._foreach_add_(device_grads, device_params, alpha=weight_decay)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                device_grads = torch._foreach_add(  # type: ignore[assignment]
*da0073e9SAndroid Build Coastguard Worker                    device_grads, device_params, alpha=weight_decay
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if momentum != 0:
*da0073e9SAndroid Build Coastguard Worker            bufs: List[Tensor] = []
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            all_states_with_momentum_buffer = True
*da0073e9SAndroid Build Coastguard Worker            for i in range(len(device_momentum_buffer_list)):
*da0073e9SAndroid Build Coastguard Worker                if device_momentum_buffer_list[i] is None:
*da0073e9SAndroid Build Coastguard Worker                    all_states_with_momentum_buffer = False
*da0073e9SAndroid Build Coastguard Worker                    break
*da0073e9SAndroid Build Coastguard Worker                else:
*da0073e9SAndroid Build Coastguard Worker                    bufs.append(cast(Tensor, device_momentum_buffer_list[i]))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if all_states_with_momentum_buffer:
*da0073e9SAndroid Build Coastguard Worker                torch._foreach_mul_(bufs, momentum)
*da0073e9SAndroid Build Coastguard Worker                torch._foreach_add_(bufs, device_grads, alpha=1 - dampening)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                bufs = []
*da0073e9SAndroid Build Coastguard Worker                for i in range(len(device_momentum_buffer_list)):
*da0073e9SAndroid Build Coastguard Worker                    if device_momentum_buffer_list[i] is None:
*da0073e9SAndroid Build Coastguard Worker                        buf = device_momentum_buffer_list[i] = momentum_buffer_list[
*da0073e9SAndroid Build Coastguard Worker                            indices[i]
*da0073e9SAndroid Build Coastguard Worker                        ] = torch.clone(device_grads[i]).detach()
*da0073e9SAndroid Build Coastguard Worker                    else:
*da0073e9SAndroid Build Coastguard Worker                        buf = cast(Tensor, device_momentum_buffer_list[i])
*da0073e9SAndroid Build Coastguard Worker                        buf.mul_(momentum).add_(device_grads[i], alpha=1 - dampening)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                    bufs.append(buf)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if nesterov:
*da0073e9SAndroid Build Coastguard Worker                torch._foreach_add_(device_grads, bufs, alpha=momentum)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                device_grads = bufs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if not device_has_sparse_grad:
*da0073e9SAndroid Build Coastguard Worker            # handle internal item() call if lr is a tensor
*da0073e9SAndroid Build Coastguard Worker            if isinstance(lr, torch.Tensor) and torch._utils.is_compiling():
*da0073e9SAndroid Build Coastguard Worker                grads_x_lr = torch._foreach_mul(device_grads, -lr)
*da0073e9SAndroid Build Coastguard Worker                torch._foreach_add_(device_params, grads_x_lr)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                torch._foreach_add_(device_params, device_grads, alpha=-lr)
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            # foreach APIs don't support sparse
*da0073e9SAndroid Build Coastguard Worker            for i in range(len(device_params)):
*da0073e9SAndroid Build Coastguard Worker                device_params[i].add_(device_grads[i], alpha=-lr)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _fused_sgd(
*da0073e9SAndroid Build Coastguard Worker    params: List[Tensor],
*da0073e9SAndroid Build Coastguard Worker    grads: List[Tensor],
*da0073e9SAndroid Build Coastguard Worker    momentum_buffer_list: List[Optional[Tensor]],
*da0073e9SAndroid Build Coastguard Worker    grad_scale: Optional[Tensor],
*da0073e9SAndroid Build Coastguard Worker    found_inf: Optional[Tensor],
*da0073e9SAndroid Build Coastguard Worker    *,
*da0073e9SAndroid Build Coastguard Worker    weight_decay: float,
*da0073e9SAndroid Build Coastguard Worker    momentum: float,
*da0073e9SAndroid Build Coastguard Worker    lr: float,
*da0073e9SAndroid Build Coastguard Worker    dampening: float,
*da0073e9SAndroid Build Coastguard Worker    nesterov: bool,
*da0073e9SAndroid Build Coastguard Worker    maximize: bool,
*da0073e9SAndroid Build Coastguard Worker    has_sparse_grad: bool,
*da0073e9SAndroid Build Coastguard Worker) -> None:
*da0073e9SAndroid Build Coastguard Worker    if not params:
*da0073e9SAndroid Build Coastguard Worker        return
*da0073e9SAndroid Build Coastguard Worker    if has_sparse_grad:
*da0073e9SAndroid Build Coastguard Worker        raise RuntimeError("`_fused_sgd` does not support sparse gradients")
*da0073e9SAndroid Build Coastguard Worker    grad_scale_dict: DeviceDict = (
*da0073e9SAndroid Build Coastguard Worker        {grad_scale.device: grad_scale} if grad_scale is not None else {}
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    found_inf_dict: DeviceDict = (
*da0073e9SAndroid Build Coastguard Worker        {found_inf.device: found_inf} if found_inf is not None else {}
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    no_momentum_buffer = momentum == 0
*da0073e9SAndroid Build Coastguard Worker    is_first_step = (
*da0073e9SAndroid Build Coastguard Worker        all(t is None for t in momentum_buffer_list) and not no_momentum_buffer
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    if is_first_step:
*da0073e9SAndroid Build Coastguard Worker        for i, g in enumerate(grads):
*da0073e9SAndroid Build Coastguard Worker            momentum_buffer_list[i] = torch.empty_like(g)
*da0073e9SAndroid Build Coastguard Worker    grouped_tensors = Optimizer._group_tensors_by_device_and_dtype(
*da0073e9SAndroid Build Coastguard Worker        [params, grads, momentum_buffer_list], with_indices=False  # type: ignore[list-item]
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    for (device, _), (
*da0073e9SAndroid Build Coastguard Worker        (device_params_, device_grads_, device_momentum_buffer_list),
*da0073e9SAndroid Build Coastguard Worker        _,
*da0073e9SAndroid Build Coastguard Worker    ) in grouped_tensors.items():
*da0073e9SAndroid Build Coastguard Worker        device_params: List[Tensor] = cast(List[Tensor], device_params_)
*da0073e9SAndroid Build Coastguard Worker        device_grads: List[Tensor] = cast(List[Tensor], device_grads_)
*da0073e9SAndroid Build Coastguard Worker        device_grad_scale, device_found_inf = None, None
*da0073e9SAndroid Build Coastguard Worker        if grad_scale is not None:
*da0073e9SAndroid Build Coastguard Worker            device_grad_scale = grad_scale_dict.setdefault(
*da0073e9SAndroid Build Coastguard Worker                device, grad_scale.to(device)
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker        if found_inf_dict is not None and found_inf is not None:
*da0073e9SAndroid Build Coastguard Worker            device_found_inf = found_inf_dict.setdefault(device, found_inf.to(device))
*da0073e9SAndroid Build Coastguard Worker        torch._fused_sgd_(
*da0073e9SAndroid Build Coastguard Worker            device_params,
*da0073e9SAndroid Build Coastguard Worker            device_grads,
*da0073e9SAndroid Build Coastguard Worker            []
*da0073e9SAndroid Build Coastguard Worker            if no_momentum_buffer
*da0073e9SAndroid Build Coastguard Worker            else cast(List[Tensor], device_momentum_buffer_list),
*da0073e9SAndroid Build Coastguard Worker            weight_decay=weight_decay,
*da0073e9SAndroid Build Coastguard Worker            momentum=momentum,
*da0073e9SAndroid Build Coastguard Worker            lr=lr,
*da0073e9SAndroid Build Coastguard Worker            dampening=dampening,
*da0073e9SAndroid Build Coastguard Worker            nesterov=nesterov,
*da0073e9SAndroid Build Coastguard Worker            maximize=maximize,
*da0073e9SAndroid Build Coastguard Worker            is_first_step=is_first_step,
*da0073e9SAndroid Build Coastguard Worker            grad_scale=device_grad_scale,
*da0073e9SAndroid Build Coastguard Worker            found_inf=device_found_inf,
*da0073e9SAndroid Build Coastguard Worker        )