benchmarks/tensorexpr/attention.py

*da0073e9SAndroid Build Coastguard Worker# This is a copy of rnn_attention from MLPerf, with some common sizes hardcoded
*da0073e9SAndroid Build Coastguard Worker# for benchmarking and some control flow stripped out.
*da0073e9SAndroid Build Coastguard Worker# https://github.com/mlperf/training/blob/master/rnn_translator/pytorch/seq2seq/models/attention.py
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport torch
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerfrom . import benchmark
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass BahdanauAttention(benchmark.Benchmark):
*da0073e9SAndroid Build Coastguard Worker    def __init__(self, mode, device, dtype, b, t_q, t_k, n):
*da0073e9SAndroid Build Coastguard Worker        super().__init__(mode, device, dtype)
*da0073e9SAndroid Build Coastguard Worker        self.b = b
*da0073e9SAndroid Build Coastguard Worker        self.t_q = t_q
*da0073e9SAndroid Build Coastguard Worker        self.t_k = t_k
*da0073e9SAndroid Build Coastguard Worker        self.n = n
*da0073e9SAndroid Build Coastguard Worker        self.att_query = self.rand(
*da0073e9SAndroid Build Coastguard Worker            [b, t_q, n], device=device, dtype=dtype, requires_grad=self.requires_grad
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        self.att_keys = self.rand(
*da0073e9SAndroid Build Coastguard Worker            [b, t_k, n], device=device, dtype=dtype, requires_grad=self.requires_grad
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        self.normalize_bias = self.rand(
*da0073e9SAndroid Build Coastguard Worker            [n], device=device, dtype=dtype, requires_grad=self.requires_grad
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        self.linear_att = self.rand(
*da0073e9SAndroid Build Coastguard Worker            [n], device=device, dtype=dtype, requires_grad=self.requires_grad
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        self.inputs = [
*da0073e9SAndroid Build Coastguard Worker            self.att_query,
*da0073e9SAndroid Build Coastguard Worker            self.att_keys,
*da0073e9SAndroid Build Coastguard Worker            self.normalize_bias,
*da0073e9SAndroid Build Coastguard Worker            self.linear_att,
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def forward(self, att_query, att_keys, normalize_bias, linear_att):
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        Calculate Bahdanau score
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        :param att_query: b x t_q x n
*da0073e9SAndroid Build Coastguard Worker        :param att_keys: b x t_k x n
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        return b x t_q x t_k scores
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        b, t_k, n = att_keys.size()
*da0073e9SAndroid Build Coastguard Worker        t_q = att_query.size(1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        att_query = att_query.unsqueeze(2).expand(b, t_q, t_k, n)
*da0073e9SAndroid Build Coastguard Worker        att_keys = att_keys.unsqueeze(1).expand(b, t_q, t_k, n)
*da0073e9SAndroid Build Coastguard Worker        sum_qk = att_query + att_keys + normalize_bias
*da0073e9SAndroid Build Coastguard Worker        out = torch.tanh(sum_qk).matmul(linear_att)
*da0073e9SAndroid Build Coastguard Worker        return out
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def reference(self):
*da0073e9SAndroid Build Coastguard Worker        return self.numpy(self.forward(*self.inputs))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def config(self):
*da0073e9SAndroid Build Coastguard Worker        return [self.b, self.t_q, self.t_k, self.n]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @staticmethod
*da0073e9SAndroid Build Coastguard Worker    def module():
*da0073e9SAndroid Build Coastguard Worker        return "attention"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def memory_workload(self):
*da0073e9SAndroid Build Coastguard Worker        def memsize(t):
*da0073e9SAndroid Build Coastguard Worker            return t.numel() * t.element_size()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        input_size = (
*da0073e9SAndroid Build Coastguard Worker            memsize(self.att_query)
*da0073e9SAndroid Build Coastguard Worker            + memsize(self.att_keys)
*da0073e9SAndroid Build Coastguard Worker            + memsize(self.normalize_bias)
*da0073e9SAndroid Build Coastguard Worker            + memsize(self.linear_att)
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        output_size = 4 * torch.Size([self.b, self.t_q, self.t_k]).numel()
*da0073e9SAndroid Build Coastguard Worker        io_size = input_size + output_size
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # If matmul is not fused, must write and then read `sum_qk`.
*da0073e9SAndroid Build Coastguard Worker        intermediate_size = (
*da0073e9SAndroid Build Coastguard Worker            2 * 4 * torch.Size([self.b, self.t_q, self.t_k, self.n]).numel()
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        return {"sol": io_size, "algorithmic": io_size + intermediate_size}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @staticmethod
*da0073e9SAndroid Build Coastguard Worker    def default_configs():
*da0073e9SAndroid Build Coastguard Worker        mlperf_inference = [1280, 1, 66, 1024]
*da0073e9SAndroid Build Coastguard Worker        nvidia = [128, 10, 128, 1024]
*da0073e9SAndroid Build Coastguard Worker        return [mlperf_inference, nvidia]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerbenchmark.register_benchmark_class(BahdanauAttention)