benchmarks/fastrnns/custom_lstms.py

*da0073e9SAndroid Build Coastguard Workerimport numbers
*da0073e9SAndroid Build Coastguard Workerimport warnings
*da0073e9SAndroid Build Coastguard Workerfrom collections import namedtuple
*da0073e9SAndroid Build Coastguard Workerfrom typing import List, Tuple
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport torch
*da0073e9SAndroid Build Coastguard Workerimport torch.jit as jit
*da0073e9SAndroid Build Coastguard Workerimport torch.nn as nn
*da0073e9SAndroid Build Coastguard Workerfrom torch import Tensor
*da0073e9SAndroid Build Coastguard Workerfrom torch.nn import Parameter
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker"""
*da0073e9SAndroid Build Coastguard WorkerSome helper classes for writing custom TorchScript LSTMs.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerGoals:
*da0073e9SAndroid Build Coastguard Worker- Classes are easy to read, use, and extend
*da0073e9SAndroid Build Coastguard Worker- Performance of custom LSTMs approach fused-kernel-levels of speed.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerA few notes about features we could add to clean up the below code:
*da0073e9SAndroid Build Coastguard Worker- Support enumerate with nn.ModuleList:
*da0073e9SAndroid Build Coastguard Worker  https://github.com/pytorch/pytorch/issues/14471
*da0073e9SAndroid Build Coastguard Worker- Support enumerate/zip with lists:
*da0073e9SAndroid Build Coastguard Worker  https://github.com/pytorch/pytorch/issues/15952
*da0073e9SAndroid Build Coastguard Worker- Support overriding of class methods:
*da0073e9SAndroid Build Coastguard Worker  https://github.com/pytorch/pytorch/issues/10733
*da0073e9SAndroid Build Coastguard Worker- Support passing around user-defined namedtuple types for readability
*da0073e9SAndroid Build Coastguard Worker- Support slicing w/ range. It enables reversing lists easily.
*da0073e9SAndroid Build Coastguard Worker  https://github.com/pytorch/pytorch/issues/10774
*da0073e9SAndroid Build Coastguard Worker- Multiline type annotations. List[List[Tuple[Tensor,Tensor]]] is verbose
*da0073e9SAndroid Build Coastguard Worker  https://github.com/pytorch/pytorch/pull/14922
*da0073e9SAndroid Build Coastguard Worker"""
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef script_lstm(
*da0073e9SAndroid Build Coastguard Worker    input_size,
*da0073e9SAndroid Build Coastguard Worker    hidden_size,
*da0073e9SAndroid Build Coastguard Worker    num_layers,
*da0073e9SAndroid Build Coastguard Worker    bias=True,
*da0073e9SAndroid Build Coastguard Worker    batch_first=False,
*da0073e9SAndroid Build Coastguard Worker    dropout=False,
*da0073e9SAndroid Build Coastguard Worker    bidirectional=False,
*da0073e9SAndroid Build Coastguard Worker):
*da0073e9SAndroid Build Coastguard Worker    """Returns a ScriptModule that mimics a PyTorch native LSTM."""
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # The following are not implemented.
*da0073e9SAndroid Build Coastguard Worker    assert bias
*da0073e9SAndroid Build Coastguard Worker    assert not batch_first
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if bidirectional:
*da0073e9SAndroid Build Coastguard Worker        stack_type = StackedLSTM2
*da0073e9SAndroid Build Coastguard Worker        layer_type = BidirLSTMLayer
*da0073e9SAndroid Build Coastguard Worker        dirs = 2
*da0073e9SAndroid Build Coastguard Worker    elif dropout:
*da0073e9SAndroid Build Coastguard Worker        stack_type = StackedLSTMWithDropout
*da0073e9SAndroid Build Coastguard Worker        layer_type = LSTMLayer
*da0073e9SAndroid Build Coastguard Worker        dirs = 1
*da0073e9SAndroid Build Coastguard Worker    else:
*da0073e9SAndroid Build Coastguard Worker        stack_type = StackedLSTM
*da0073e9SAndroid Build Coastguard Worker        layer_type = LSTMLayer
*da0073e9SAndroid Build Coastguard Worker        dirs = 1
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return stack_type(
*da0073e9SAndroid Build Coastguard Worker        num_layers,
*da0073e9SAndroid Build Coastguard Worker        layer_type,
*da0073e9SAndroid Build Coastguard Worker        first_layer_args=[LSTMCell, input_size, hidden_size],
*da0073e9SAndroid Build Coastguard Worker        other_layer_args=[LSTMCell, hidden_size * dirs, hidden_size],
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef script_lnlstm(
*da0073e9SAndroid Build Coastguard Worker    input_size,
*da0073e9SAndroid Build Coastguard Worker    hidden_size,
*da0073e9SAndroid Build Coastguard Worker    num_layers,
*da0073e9SAndroid Build Coastguard Worker    bias=True,
*da0073e9SAndroid Build Coastguard Worker    batch_first=False,
*da0073e9SAndroid Build Coastguard Worker    dropout=False,
*da0073e9SAndroid Build Coastguard Worker    bidirectional=False,
*da0073e9SAndroid Build Coastguard Worker    decompose_layernorm=False,
*da0073e9SAndroid Build Coastguard Worker):
*da0073e9SAndroid Build Coastguard Worker    """Returns a ScriptModule that mimics a PyTorch native LSTM."""
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # The following are not implemented.
*da0073e9SAndroid Build Coastguard Worker    assert bias
*da0073e9SAndroid Build Coastguard Worker    assert not batch_first
*da0073e9SAndroid Build Coastguard Worker    assert not dropout
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if bidirectional:
*da0073e9SAndroid Build Coastguard Worker        stack_type = StackedLSTM2
*da0073e9SAndroid Build Coastguard Worker        layer_type = BidirLSTMLayer
*da0073e9SAndroid Build Coastguard Worker        dirs = 2
*da0073e9SAndroid Build Coastguard Worker    else:
*da0073e9SAndroid Build Coastguard Worker        stack_type = StackedLSTM
*da0073e9SAndroid Build Coastguard Worker        layer_type = LSTMLayer
*da0073e9SAndroid Build Coastguard Worker        dirs = 1
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return stack_type(
*da0073e9SAndroid Build Coastguard Worker        num_layers,
*da0073e9SAndroid Build Coastguard Worker        layer_type,
*da0073e9SAndroid Build Coastguard Worker        first_layer_args=[
*da0073e9SAndroid Build Coastguard Worker            LayerNormLSTMCell,
*da0073e9SAndroid Build Coastguard Worker            input_size,
*da0073e9SAndroid Build Coastguard Worker            hidden_size,
*da0073e9SAndroid Build Coastguard Worker            decompose_layernorm,
*da0073e9SAndroid Build Coastguard Worker        ],
*da0073e9SAndroid Build Coastguard Worker        other_layer_args=[
*da0073e9SAndroid Build Coastguard Worker            LayerNormLSTMCell,
*da0073e9SAndroid Build Coastguard Worker            hidden_size * dirs,
*da0073e9SAndroid Build Coastguard Worker            hidden_size,
*da0073e9SAndroid Build Coastguard Worker            decompose_layernorm,
*da0073e9SAndroid Build Coastguard Worker        ],
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerLSTMState = namedtuple("LSTMState", ["hx", "cx"])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef reverse(lst: List[Tensor]) -> List[Tensor]:
*da0073e9SAndroid Build Coastguard Worker    return lst[::-1]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass LSTMCell(jit.ScriptModule):
*da0073e9SAndroid Build Coastguard Worker    def __init__(self, input_size, hidden_size):
*da0073e9SAndroid Build Coastguard Worker        super().__init__()
*da0073e9SAndroid Build Coastguard Worker        self.input_size = input_size
*da0073e9SAndroid Build Coastguard Worker        self.hidden_size = hidden_size
*da0073e9SAndroid Build Coastguard Worker        self.weight_ih = Parameter(torch.randn(4 * hidden_size, input_size))
*da0073e9SAndroid Build Coastguard Worker        self.weight_hh = Parameter(torch.randn(4 * hidden_size, hidden_size))
*da0073e9SAndroid Build Coastguard Worker        self.bias_ih = Parameter(torch.randn(4 * hidden_size))
*da0073e9SAndroid Build Coastguard Worker        self.bias_hh = Parameter(torch.randn(4 * hidden_size))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @jit.script_method
*da0073e9SAndroid Build Coastguard Worker    def forward(
*da0073e9SAndroid Build Coastguard Worker        self, input: Tensor, state: Tuple[Tensor, Tensor]
*da0073e9SAndroid Build Coastguard Worker    ) -> Tuple[Tensor, Tuple[Tensor, Tensor]]:
*da0073e9SAndroid Build Coastguard Worker        hx, cx = state
*da0073e9SAndroid Build Coastguard Worker        gates = (
*da0073e9SAndroid Build Coastguard Worker            torch.mm(input, self.weight_ih.t())
*da0073e9SAndroid Build Coastguard Worker            + self.bias_ih
*da0073e9SAndroid Build Coastguard Worker            + torch.mm(hx, self.weight_hh.t())
*da0073e9SAndroid Build Coastguard Worker            + self.bias_hh
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        ingate, forgetgate, cellgate, outgate = gates.chunk(4, 1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        ingate = torch.sigmoid(ingate)
*da0073e9SAndroid Build Coastguard Worker        forgetgate = torch.sigmoid(forgetgate)
*da0073e9SAndroid Build Coastguard Worker        cellgate = torch.tanh(cellgate)
*da0073e9SAndroid Build Coastguard Worker        outgate = torch.sigmoid(outgate)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        cy = (forgetgate * cx) + (ingate * cellgate)
*da0073e9SAndroid Build Coastguard Worker        hy = outgate * torch.tanh(cy)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        return hy, (hy, cy)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass LayerNorm(jit.ScriptModule):
*da0073e9SAndroid Build Coastguard Worker    def __init__(self, normalized_shape):
*da0073e9SAndroid Build Coastguard Worker        super().__init__()
*da0073e9SAndroid Build Coastguard Worker        if isinstance(normalized_shape, numbers.Integral):
*da0073e9SAndroid Build Coastguard Worker            normalized_shape = (normalized_shape,)
*da0073e9SAndroid Build Coastguard Worker        normalized_shape = torch.Size(normalized_shape)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # XXX: This is true for our LSTM / NLP use case and helps simplify code
*da0073e9SAndroid Build Coastguard Worker        assert len(normalized_shape) == 1
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.weight = Parameter(torch.ones(normalized_shape))
*da0073e9SAndroid Build Coastguard Worker        self.bias = Parameter(torch.zeros(normalized_shape))
*da0073e9SAndroid Build Coastguard Worker        self.normalized_shape = normalized_shape
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @jit.script_method
*da0073e9SAndroid Build Coastguard Worker    def compute_layernorm_stats(self, input):
*da0073e9SAndroid Build Coastguard Worker        mu = input.mean(-1, keepdim=True)
*da0073e9SAndroid Build Coastguard Worker        sigma = input.std(-1, keepdim=True, unbiased=False)
*da0073e9SAndroid Build Coastguard Worker        return mu, sigma
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @jit.script_method
*da0073e9SAndroid Build Coastguard Worker    def forward(self, input):
*da0073e9SAndroid Build Coastguard Worker        mu, sigma = self.compute_layernorm_stats(input)
*da0073e9SAndroid Build Coastguard Worker        return (input - mu) / sigma * self.weight + self.bias
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass LayerNormLSTMCell(jit.ScriptModule):
*da0073e9SAndroid Build Coastguard Worker    def __init__(self, input_size, hidden_size, decompose_layernorm=False):
*da0073e9SAndroid Build Coastguard Worker        super().__init__()
*da0073e9SAndroid Build Coastguard Worker        self.input_size = input_size
*da0073e9SAndroid Build Coastguard Worker        self.hidden_size = hidden_size
*da0073e9SAndroid Build Coastguard Worker        self.weight_ih = Parameter(torch.randn(4 * hidden_size, input_size))
*da0073e9SAndroid Build Coastguard Worker        self.weight_hh = Parameter(torch.randn(4 * hidden_size, hidden_size))
*da0073e9SAndroid Build Coastguard Worker        # The layernorms provide learnable biases
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if decompose_layernorm:
*da0073e9SAndroid Build Coastguard Worker            ln = LayerNorm
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            ln = nn.LayerNorm
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.layernorm_i = ln(4 * hidden_size)
*da0073e9SAndroid Build Coastguard Worker        self.layernorm_h = ln(4 * hidden_size)
*da0073e9SAndroid Build Coastguard Worker        self.layernorm_c = ln(hidden_size)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @jit.script_method
*da0073e9SAndroid Build Coastguard Worker    def forward(
*da0073e9SAndroid Build Coastguard Worker        self, input: Tensor, state: Tuple[Tensor, Tensor]
*da0073e9SAndroid Build Coastguard Worker    ) -> Tuple[Tensor, Tuple[Tensor, Tensor]]:
*da0073e9SAndroid Build Coastguard Worker        hx, cx = state
*da0073e9SAndroid Build Coastguard Worker        igates = self.layernorm_i(torch.mm(input, self.weight_ih.t()))
*da0073e9SAndroid Build Coastguard Worker        hgates = self.layernorm_h(torch.mm(hx, self.weight_hh.t()))
*da0073e9SAndroid Build Coastguard Worker        gates = igates + hgates
*da0073e9SAndroid Build Coastguard Worker        ingate, forgetgate, cellgate, outgate = gates.chunk(4, 1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        ingate = torch.sigmoid(ingate)
*da0073e9SAndroid Build Coastguard Worker        forgetgate = torch.sigmoid(forgetgate)
*da0073e9SAndroid Build Coastguard Worker        cellgate = torch.tanh(cellgate)
*da0073e9SAndroid Build Coastguard Worker        outgate = torch.sigmoid(outgate)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        cy = self.layernorm_c((forgetgate * cx) + (ingate * cellgate))
*da0073e9SAndroid Build Coastguard Worker        hy = outgate * torch.tanh(cy)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        return hy, (hy, cy)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass LSTMLayer(jit.ScriptModule):
*da0073e9SAndroid Build Coastguard Worker    def __init__(self, cell, *cell_args):
*da0073e9SAndroid Build Coastguard Worker        super().__init__()
*da0073e9SAndroid Build Coastguard Worker        self.cell = cell(*cell_args)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @jit.script_method
*da0073e9SAndroid Build Coastguard Worker    def forward(
*da0073e9SAndroid Build Coastguard Worker        self, input: Tensor, state: Tuple[Tensor, Tensor]
*da0073e9SAndroid Build Coastguard Worker    ) -> Tuple[Tensor, Tuple[Tensor, Tensor]]:
*da0073e9SAndroid Build Coastguard Worker        inputs = input.unbind(0)
*da0073e9SAndroid Build Coastguard Worker        outputs = torch.jit.annotate(List[Tensor], [])
*da0073e9SAndroid Build Coastguard Worker        for i in range(len(inputs)):
*da0073e9SAndroid Build Coastguard Worker            out, state = self.cell(inputs[i], state)
*da0073e9SAndroid Build Coastguard Worker            outputs += [out]
*da0073e9SAndroid Build Coastguard Worker        return torch.stack(outputs), state
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass ReverseLSTMLayer(jit.ScriptModule):
*da0073e9SAndroid Build Coastguard Worker    def __init__(self, cell, *cell_args):
*da0073e9SAndroid Build Coastguard Worker        super().__init__()
*da0073e9SAndroid Build Coastguard Worker        self.cell = cell(*cell_args)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @jit.script_method
*da0073e9SAndroid Build Coastguard Worker    def forward(
*da0073e9SAndroid Build Coastguard Worker        self, input: Tensor, state: Tuple[Tensor, Tensor]
*da0073e9SAndroid Build Coastguard Worker    ) -> Tuple[Tensor, Tuple[Tensor, Tensor]]:
*da0073e9SAndroid Build Coastguard Worker        inputs = reverse(input.unbind(0))
*da0073e9SAndroid Build Coastguard Worker        outputs = jit.annotate(List[Tensor], [])
*da0073e9SAndroid Build Coastguard Worker        for i in range(len(inputs)):
*da0073e9SAndroid Build Coastguard Worker            out, state = self.cell(inputs[i], state)
*da0073e9SAndroid Build Coastguard Worker            outputs += [out]
*da0073e9SAndroid Build Coastguard Worker        return torch.stack(reverse(outputs)), state
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass BidirLSTMLayer(jit.ScriptModule):
*da0073e9SAndroid Build Coastguard Worker    __constants__ = ["directions"]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __init__(self, cell, *cell_args):
*da0073e9SAndroid Build Coastguard Worker        super().__init__()
*da0073e9SAndroid Build Coastguard Worker        self.directions = nn.ModuleList(
*da0073e9SAndroid Build Coastguard Worker            [
*da0073e9SAndroid Build Coastguard Worker                LSTMLayer(cell, *cell_args),
*da0073e9SAndroid Build Coastguard Worker                ReverseLSTMLayer(cell, *cell_args),
*da0073e9SAndroid Build Coastguard Worker            ]
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @jit.script_method
*da0073e9SAndroid Build Coastguard Worker    def forward(
*da0073e9SAndroid Build Coastguard Worker        self, input: Tensor, states: List[Tuple[Tensor, Tensor]]
*da0073e9SAndroid Build Coastguard Worker    ) -> Tuple[Tensor, List[Tuple[Tensor, Tensor]]]:
*da0073e9SAndroid Build Coastguard Worker        # List[LSTMState]: [forward LSTMState, backward LSTMState]
*da0073e9SAndroid Build Coastguard Worker        outputs = jit.annotate(List[Tensor], [])
*da0073e9SAndroid Build Coastguard Worker        output_states = jit.annotate(List[Tuple[Tensor, Tensor]], [])
*da0073e9SAndroid Build Coastguard Worker        # XXX: enumerate https://github.com/pytorch/pytorch/issues/14471
*da0073e9SAndroid Build Coastguard Worker        i = 0
*da0073e9SAndroid Build Coastguard Worker        for direction in self.directions:
*da0073e9SAndroid Build Coastguard Worker            state = states[i]
*da0073e9SAndroid Build Coastguard Worker            out, out_state = direction(input, state)
*da0073e9SAndroid Build Coastguard Worker            outputs += [out]
*da0073e9SAndroid Build Coastguard Worker            output_states += [out_state]
*da0073e9SAndroid Build Coastguard Worker            i += 1
*da0073e9SAndroid Build Coastguard Worker        return torch.cat(outputs, -1), output_states
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef init_stacked_lstm(num_layers, layer, first_layer_args, other_layer_args):
*da0073e9SAndroid Build Coastguard Worker    layers = [layer(*first_layer_args)] + [
*da0073e9SAndroid Build Coastguard Worker        layer(*other_layer_args) for _ in range(num_layers - 1)
*da0073e9SAndroid Build Coastguard Worker    ]
*da0073e9SAndroid Build Coastguard Worker    return nn.ModuleList(layers)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass StackedLSTM(jit.ScriptModule):
*da0073e9SAndroid Build Coastguard Worker    __constants__ = ["layers"]  # Necessary for iterating through self.layers
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __init__(self, num_layers, layer, first_layer_args, other_layer_args):
*da0073e9SAndroid Build Coastguard Worker        super().__init__()
*da0073e9SAndroid Build Coastguard Worker        self.layers = init_stacked_lstm(
*da0073e9SAndroid Build Coastguard Worker            num_layers, layer, first_layer_args, other_layer_args
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @jit.script_method
*da0073e9SAndroid Build Coastguard Worker    def forward(
*da0073e9SAndroid Build Coastguard Worker        self, input: Tensor, states: List[Tuple[Tensor, Tensor]]
*da0073e9SAndroid Build Coastguard Worker    ) -> Tuple[Tensor, List[Tuple[Tensor, Tensor]]]:
*da0073e9SAndroid Build Coastguard Worker        # List[LSTMState]: One state per layer
*da0073e9SAndroid Build Coastguard Worker        output_states = jit.annotate(List[Tuple[Tensor, Tensor]], [])
*da0073e9SAndroid Build Coastguard Worker        output = input
*da0073e9SAndroid Build Coastguard Worker        # XXX: enumerate https://github.com/pytorch/pytorch/issues/14471
*da0073e9SAndroid Build Coastguard Worker        i = 0
*da0073e9SAndroid Build Coastguard Worker        for rnn_layer in self.layers:
*da0073e9SAndroid Build Coastguard Worker            state = states[i]
*da0073e9SAndroid Build Coastguard Worker            output, out_state = rnn_layer(output, state)
*da0073e9SAndroid Build Coastguard Worker            output_states += [out_state]
*da0073e9SAndroid Build Coastguard Worker            i += 1
*da0073e9SAndroid Build Coastguard Worker        return output, output_states
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker# Differs from StackedLSTM in that its forward method takes
*da0073e9SAndroid Build Coastguard Worker# List[List[Tuple[Tensor,Tensor]]]. It would be nice to subclass StackedLSTM
*da0073e9SAndroid Build Coastguard Worker# except we don't support overriding script methods.
*da0073e9SAndroid Build Coastguard Worker# https://github.com/pytorch/pytorch/issues/10733
*da0073e9SAndroid Build Coastguard Workerclass StackedLSTM2(jit.ScriptModule):
*da0073e9SAndroid Build Coastguard Worker    __constants__ = ["layers"]  # Necessary for iterating through self.layers
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __init__(self, num_layers, layer, first_layer_args, other_layer_args):
*da0073e9SAndroid Build Coastguard Worker        super().__init__()
*da0073e9SAndroid Build Coastguard Worker        self.layers = init_stacked_lstm(
*da0073e9SAndroid Build Coastguard Worker            num_layers, layer, first_layer_args, other_layer_args
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @jit.script_method
*da0073e9SAndroid Build Coastguard Worker    def forward(
*da0073e9SAndroid Build Coastguard Worker        self, input: Tensor, states: List[List[Tuple[Tensor, Tensor]]]
*da0073e9SAndroid Build Coastguard Worker    ) -> Tuple[Tensor, List[List[Tuple[Tensor, Tensor]]]]:
*da0073e9SAndroid Build Coastguard Worker        # List[List[LSTMState]]: The outer list is for layers,
*da0073e9SAndroid Build Coastguard Worker        #                        inner list is for directions.
*da0073e9SAndroid Build Coastguard Worker        output_states = jit.annotate(List[List[Tuple[Tensor, Tensor]]], [])
*da0073e9SAndroid Build Coastguard Worker        output = input
*da0073e9SAndroid Build Coastguard Worker        # XXX: enumerate https://github.com/pytorch/pytorch/issues/14471
*da0073e9SAndroid Build Coastguard Worker        i = 0
*da0073e9SAndroid Build Coastguard Worker        for rnn_layer in self.layers:
*da0073e9SAndroid Build Coastguard Worker            state = states[i]
*da0073e9SAndroid Build Coastguard Worker            output, out_state = rnn_layer(output, state)
*da0073e9SAndroid Build Coastguard Worker            output_states += [out_state]
*da0073e9SAndroid Build Coastguard Worker            i += 1
*da0073e9SAndroid Build Coastguard Worker        return output, output_states
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass StackedLSTMWithDropout(jit.ScriptModule):
*da0073e9SAndroid Build Coastguard Worker    # Necessary for iterating through self.layers and dropout support
*da0073e9SAndroid Build Coastguard Worker    __constants__ = ["layers", "num_layers"]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __init__(self, num_layers, layer, first_layer_args, other_layer_args):
*da0073e9SAndroid Build Coastguard Worker        super().__init__()
*da0073e9SAndroid Build Coastguard Worker        self.layers = init_stacked_lstm(
*da0073e9SAndroid Build Coastguard Worker            num_layers, layer, first_layer_args, other_layer_args
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        # Introduces a Dropout layer on the outputs of each LSTM layer except
*da0073e9SAndroid Build Coastguard Worker        # the last layer, with dropout probability = 0.4.
*da0073e9SAndroid Build Coastguard Worker        self.num_layers = num_layers
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if num_layers == 1:
*da0073e9SAndroid Build Coastguard Worker            warnings.warn(
*da0073e9SAndroid Build Coastguard Worker                "dropout lstm adds dropout layers after all but last "
*da0073e9SAndroid Build Coastguard Worker                "recurrent layer, it expects num_layers greater than "
*da0073e9SAndroid Build Coastguard Worker                "1, but got num_layers = 1"
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.dropout_layer = nn.Dropout(0.4)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @jit.script_method
*da0073e9SAndroid Build Coastguard Worker    def forward(
*da0073e9SAndroid Build Coastguard Worker        self, input: Tensor, states: List[Tuple[Tensor, Tensor]]
*da0073e9SAndroid Build Coastguard Worker    ) -> Tuple[Tensor, List[Tuple[Tensor, Tensor]]]:
*da0073e9SAndroid Build Coastguard Worker        # List[LSTMState]: One state per layer
*da0073e9SAndroid Build Coastguard Worker        output_states = jit.annotate(List[Tuple[Tensor, Tensor]], [])
*da0073e9SAndroid Build Coastguard Worker        output = input
*da0073e9SAndroid Build Coastguard Worker        # XXX: enumerate https://github.com/pytorch/pytorch/issues/14471
*da0073e9SAndroid Build Coastguard Worker        i = 0
*da0073e9SAndroid Build Coastguard Worker        for rnn_layer in self.layers:
*da0073e9SAndroid Build Coastguard Worker            state = states[i]
*da0073e9SAndroid Build Coastguard Worker            output, out_state = rnn_layer(output, state)
*da0073e9SAndroid Build Coastguard Worker            # Apply the dropout layer except the last layer
*da0073e9SAndroid Build Coastguard Worker            if i < self.num_layers - 1:
*da0073e9SAndroid Build Coastguard Worker                output = self.dropout_layer(output)
*da0073e9SAndroid Build Coastguard Worker            output_states += [out_state]
*da0073e9SAndroid Build Coastguard Worker            i += 1
*da0073e9SAndroid Build Coastguard Worker        return output, output_states
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef flatten_states(states):
*da0073e9SAndroid Build Coastguard Worker    states = list(zip(*states))
*da0073e9SAndroid Build Coastguard Worker    assert len(states) == 2
*da0073e9SAndroid Build Coastguard Worker    return [torch.stack(state) for state in states]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef double_flatten_states(states):
*da0073e9SAndroid Build Coastguard Worker    # XXX: Can probably write this in a nicer way
*da0073e9SAndroid Build Coastguard Worker    states = flatten_states([flatten_states(inner) for inner in states])
*da0073e9SAndroid Build Coastguard Worker    return [hidden.view([-1] + list(hidden.shape[2:])) for hidden in states]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef test_script_rnn_layer(seq_len, batch, input_size, hidden_size):
*da0073e9SAndroid Build Coastguard Worker    inp = torch.randn(seq_len, batch, input_size)
*da0073e9SAndroid Build Coastguard Worker    state = LSTMState(torch.randn(batch, hidden_size), torch.randn(batch, hidden_size))
*da0073e9SAndroid Build Coastguard Worker    rnn = LSTMLayer(LSTMCell, input_size, hidden_size)
*da0073e9SAndroid Build Coastguard Worker    out, out_state = rnn(inp, state)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # Control: pytorch native LSTM
*da0073e9SAndroid Build Coastguard Worker    lstm = nn.LSTM(input_size, hidden_size, 1)
*da0073e9SAndroid Build Coastguard Worker    lstm_state = LSTMState(state.hx.unsqueeze(0), state.cx.unsqueeze(0))
*da0073e9SAndroid Build Coastguard Worker    for lstm_param, custom_param in zip(lstm.all_weights[0], rnn.parameters()):
*da0073e9SAndroid Build Coastguard Worker        assert lstm_param.shape == custom_param.shape
*da0073e9SAndroid Build Coastguard Worker        with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker            lstm_param.copy_(custom_param)
*da0073e9SAndroid Build Coastguard Worker    lstm_out, lstm_out_state = lstm(inp, lstm_state)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    assert (out - lstm_out).abs().max() < 1e-5
*da0073e9SAndroid Build Coastguard Worker    assert (out_state[0] - lstm_out_state[0]).abs().max() < 1e-5
*da0073e9SAndroid Build Coastguard Worker    assert (out_state[1] - lstm_out_state[1]).abs().max() < 1e-5
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef test_script_stacked_rnn(seq_len, batch, input_size, hidden_size, num_layers):
*da0073e9SAndroid Build Coastguard Worker    inp = torch.randn(seq_len, batch, input_size)
*da0073e9SAndroid Build Coastguard Worker    states = [
*da0073e9SAndroid Build Coastguard Worker        LSTMState(torch.randn(batch, hidden_size), torch.randn(batch, hidden_size))
*da0073e9SAndroid Build Coastguard Worker        for _ in range(num_layers)
*da0073e9SAndroid Build Coastguard Worker    ]
*da0073e9SAndroid Build Coastguard Worker    rnn = script_lstm(input_size, hidden_size, num_layers)
*da0073e9SAndroid Build Coastguard Worker    out, out_state = rnn(inp, states)
*da0073e9SAndroid Build Coastguard Worker    custom_state = flatten_states(out_state)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # Control: pytorch native LSTM
*da0073e9SAndroid Build Coastguard Worker    lstm = nn.LSTM(input_size, hidden_size, num_layers)
*da0073e9SAndroid Build Coastguard Worker    lstm_state = flatten_states(states)
*da0073e9SAndroid Build Coastguard Worker    for layer in range(num_layers):
*da0073e9SAndroid Build Coastguard Worker        custom_params = list(rnn.parameters())[4 * layer : 4 * (layer + 1)]
*da0073e9SAndroid Build Coastguard Worker        for lstm_param, custom_param in zip(lstm.all_weights[layer], custom_params):
*da0073e9SAndroid Build Coastguard Worker            assert lstm_param.shape == custom_param.shape
*da0073e9SAndroid Build Coastguard Worker            with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker                lstm_param.copy_(custom_param)
*da0073e9SAndroid Build Coastguard Worker    lstm_out, lstm_out_state = lstm(inp, lstm_state)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    assert (out - lstm_out).abs().max() < 1e-5
*da0073e9SAndroid Build Coastguard Worker    assert (custom_state[0] - lstm_out_state[0]).abs().max() < 1e-5
*da0073e9SAndroid Build Coastguard Worker    assert (custom_state[1] - lstm_out_state[1]).abs().max() < 1e-5
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef test_script_stacked_bidir_rnn(seq_len, batch, input_size, hidden_size, num_layers):
*da0073e9SAndroid Build Coastguard Worker    inp = torch.randn(seq_len, batch, input_size)
*da0073e9SAndroid Build Coastguard Worker    states = [
*da0073e9SAndroid Build Coastguard Worker        [
*da0073e9SAndroid Build Coastguard Worker            LSTMState(torch.randn(batch, hidden_size), torch.randn(batch, hidden_size))
*da0073e9SAndroid Build Coastguard Worker            for _ in range(2)
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker        for _ in range(num_layers)
*da0073e9SAndroid Build Coastguard Worker    ]
*da0073e9SAndroid Build Coastguard Worker    rnn = script_lstm(input_size, hidden_size, num_layers, bidirectional=True)
*da0073e9SAndroid Build Coastguard Worker    out, out_state = rnn(inp, states)
*da0073e9SAndroid Build Coastguard Worker    custom_state = double_flatten_states(out_state)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # Control: pytorch native LSTM
*da0073e9SAndroid Build Coastguard Worker    lstm = nn.LSTM(input_size, hidden_size, num_layers, bidirectional=True)
*da0073e9SAndroid Build Coastguard Worker    lstm_state = double_flatten_states(states)
*da0073e9SAndroid Build Coastguard Worker    for layer in range(num_layers):
*da0073e9SAndroid Build Coastguard Worker        for direct in range(2):
*da0073e9SAndroid Build Coastguard Worker            index = 2 * layer + direct
*da0073e9SAndroid Build Coastguard Worker            custom_params = list(rnn.parameters())[4 * index : 4 * index + 4]
*da0073e9SAndroid Build Coastguard Worker            for lstm_param, custom_param in zip(lstm.all_weights[index], custom_params):
*da0073e9SAndroid Build Coastguard Worker                assert lstm_param.shape == custom_param.shape
*da0073e9SAndroid Build Coastguard Worker                with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker                    lstm_param.copy_(custom_param)
*da0073e9SAndroid Build Coastguard Worker    lstm_out, lstm_out_state = lstm(inp, lstm_state)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    assert (out - lstm_out).abs().max() < 1e-5
*da0073e9SAndroid Build Coastguard Worker    assert (custom_state[0] - lstm_out_state[0]).abs().max() < 1e-5
*da0073e9SAndroid Build Coastguard Worker    assert (custom_state[1] - lstm_out_state[1]).abs().max() < 1e-5
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef test_script_stacked_lstm_dropout(
*da0073e9SAndroid Build Coastguard Worker    seq_len, batch, input_size, hidden_size, num_layers
*da0073e9SAndroid Build Coastguard Worker):
*da0073e9SAndroid Build Coastguard Worker    inp = torch.randn(seq_len, batch, input_size)
*da0073e9SAndroid Build Coastguard Worker    states = [
*da0073e9SAndroid Build Coastguard Worker        LSTMState(torch.randn(batch, hidden_size), torch.randn(batch, hidden_size))
*da0073e9SAndroid Build Coastguard Worker        for _ in range(num_layers)
*da0073e9SAndroid Build Coastguard Worker    ]
*da0073e9SAndroid Build Coastguard Worker    rnn = script_lstm(input_size, hidden_size, num_layers, dropout=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # just a smoke test
*da0073e9SAndroid Build Coastguard Worker    out, out_state = rnn(inp, states)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef test_script_stacked_lnlstm(seq_len, batch, input_size, hidden_size, num_layers):
*da0073e9SAndroid Build Coastguard Worker    inp = torch.randn(seq_len, batch, input_size)
*da0073e9SAndroid Build Coastguard Worker    states = [
*da0073e9SAndroid Build Coastguard Worker        LSTMState(torch.randn(batch, hidden_size), torch.randn(batch, hidden_size))
*da0073e9SAndroid Build Coastguard Worker        for _ in range(num_layers)
*da0073e9SAndroid Build Coastguard Worker    ]
*da0073e9SAndroid Build Coastguard Worker    rnn = script_lnlstm(input_size, hidden_size, num_layers)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # just a smoke test
*da0073e9SAndroid Build Coastguard Worker    out, out_state = rnn(inp, states)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertest_script_rnn_layer(5, 2, 3, 7)
*da0073e9SAndroid Build Coastguard Workertest_script_stacked_rnn(5, 2, 3, 7, 4)
*da0073e9SAndroid Build Coastguard Workertest_script_stacked_bidir_rnn(5, 2, 3, 7, 4)
*da0073e9SAndroid Build Coastguard Workertest_script_stacked_lstm_dropout(5, 2, 3, 7, 4)
*da0073e9SAndroid Build Coastguard Workertest_script_stacked_lnlstm(5, 2, 3, 7, 4)