libopus/dnn/nnet_arch.h

*a58d3d2aSXin Li/* Copyright (c) 2018-2019 Mozilla
*a58d3d2aSXin Li                 2023 Amazon */
*a58d3d2aSXin Li/*
*a58d3d2aSXin Li   Redistribution and use in source and binary forms, with or without
*a58d3d2aSXin Li   modification, are permitted provided that the following conditions
*a58d3d2aSXin Li   are met:
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions of source code must retain the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions in binary form must reproduce the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer in the
*a58d3d2aSXin Li   documentation and/or other materials provided with the distribution.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
*a58d3d2aSXin Li   ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
*a58d3d2aSXin Li   LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
*a58d3d2aSXin Li   A PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE FOUNDATION OR
*a58d3d2aSXin Li   CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
*a58d3d2aSXin Li   EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
*a58d3d2aSXin Li   PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
*a58d3d2aSXin Li   PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
*a58d3d2aSXin Li   LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
*a58d3d2aSXin Li   NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
*a58d3d2aSXin Li   SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
*a58d3d2aSXin Li*/
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifndef NNET_ARCH_H
*a58d3d2aSXin Li#define NNET_ARCH_H
*a58d3d2aSXin Li
*a58d3d2aSXin Li#include "nnet.h"
*a58d3d2aSXin Li#include "arch.h"
*a58d3d2aSXin Li#include "os_support.h"
*a58d3d2aSXin Li#include "vec.h"
*a58d3d2aSXin Li
*a58d3d2aSXin Li#define CAT_SUFFIX2(a,b) a ## b
*a58d3d2aSXin Li#define CAT_SUFFIX(a,b) CAT_SUFFIX2(a, b)
*a58d3d2aSXin Li
*a58d3d2aSXin Li#define RTCD_SUF(name) CAT_SUFFIX(name, RTCD_ARCH)
*a58d3d2aSXin Li
*a58d3d2aSXin Li/* Force vectorization on for DNN code because some of the loops rely on
*a58d3d2aSXin Li   compiler vectorization rather than explicitly using intrinsics. */
*a58d3d2aSXin Li#if OPUS_GNUC_PREREQ(5,1)
*a58d3d2aSXin Li#define GCC_POP_OPTIONS
*a58d3d2aSXin Li#pragma GCC push_options
*a58d3d2aSXin Li#pragma GCC optimize("tree-vectorize")
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li#define MAX_ACTIVATIONS (4096)
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic OPUS_INLINE void vec_swish(float *y, const float *x, int N)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i;
*a58d3d2aSXin Li   float tmp[MAX_ACTIVATIONS];
*a58d3d2aSXin Li   celt_assert(N <= MAX_ACTIVATIONS);
*a58d3d2aSXin Li   vec_sigmoid(tmp, x, N);
*a58d3d2aSXin Li   for (i=0;i<N;i++)
*a58d3d2aSXin Li      y[i] = x[i]*tmp[i];
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic OPUS_INLINE float relu(float x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   return x < 0 ? 0 : x;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li/*#define HIGH_ACCURACY */
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid RTCD_SUF(compute_activation_)(float *output, const float *input, int N, int activation)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i;
*a58d3d2aSXin Li   if (activation == ACTIVATION_SIGMOID) {
*a58d3d2aSXin Li#ifdef HIGH_ACCURACY
*a58d3d2aSXin Li      for (int n=0; n<N; n++)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         output[n] = 1.f  / (1 + exp(-input[n]));
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li#else
*a58d3d2aSXin Li      vec_sigmoid(output, input, N);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   } else if (activation == ACTIVATION_TANH) {
*a58d3d2aSXin Li#ifdef HIGH_ACCURACY
*a58d3d2aSXin Li      for (int n=0; n<N; n++)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         output[n] = tanh(input[n]);
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li#else
*a58d3d2aSXin Li      vec_tanh(output, input, N);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   } else if (activation == ACTIVATION_SWISH) {
*a58d3d2aSXin Li      vec_swish(output, input, N);
*a58d3d2aSXin Li   } else if (activation == ACTIVATION_RELU) {
*a58d3d2aSXin Li      for (i=0;i<N;i++)
*a58d3d2aSXin Li         output[i] = relu(input[i]);
*a58d3d2aSXin Li   } else if (activation == ACTIVATION_SOFTMAX) {
*a58d3d2aSXin Li#ifdef SOFTMAX_HACK
*a58d3d2aSXin Li      OPUS_COPY(output, input, N);
*a58d3d2aSXin Li      /*for (i=0;i<N;i++)
*a58d3d2aSXin Li         output[i] = input[i];*/
*a58d3d2aSXin Li#else
*a58d3d2aSXin Li      float sum = 0;
*a58d3d2aSXin Li      softmax(output, input, N);
*a58d3d2aSXin Li      for (i=0;i<N;i++) {
*a58d3d2aSXin Li         sum += output[i];
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li      sum = 1.f/(sum+1e-30);
*a58d3d2aSXin Li      for (i=0;i<N;i++)
*a58d3d2aSXin Li         output[i] = sum*output[i];
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   } else {
*a58d3d2aSXin Li      celt_assert(activation == ACTIVATION_LINEAR);
*a58d3d2aSXin Li      if (input != output) {
*a58d3d2aSXin Li         for (i=0;i<N;i++)
*a58d3d2aSXin Li            output[i] = input[i];
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid RTCD_SUF(compute_linear_) (const LinearLayer *linear, float *out, const float *in)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i, M, N;
*a58d3d2aSXin Li   const float *bias;
*a58d3d2aSXin Li   celt_assert(in != out);
*a58d3d2aSXin Li   bias = linear->bias;
*a58d3d2aSXin Li   M = linear->nb_inputs;
*a58d3d2aSXin Li   N = linear->nb_outputs;
*a58d3d2aSXin Li   if (linear->float_weights != NULL) {
*a58d3d2aSXin Li     if (linear->weights_idx != NULL) sparse_sgemv8x4(out, linear->float_weights, linear->weights_idx, N, in);
*a58d3d2aSXin Li     else sgemv(out, linear->float_weights, N, M, N, in);
*a58d3d2aSXin Li   } else if (linear->weights != NULL) {
*a58d3d2aSXin Li     if (linear->weights_idx != NULL) sparse_cgemv8x4(out, linear->weights, linear->weights_idx, linear->scale, N, M, in);
*a58d3d2aSXin Li     else cgemv8x4(out, linear->weights, linear->scale, N, M, in);
*a58d3d2aSXin Li     /* Only use SU biases on for integer matrices on SU archs. */
*a58d3d2aSXin Li#ifdef USE_SU_BIAS
*a58d3d2aSXin Li     bias = linear->subias;
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   else OPUS_CLEAR(out, N);
*a58d3d2aSXin Li   if (bias != NULL) {
*a58d3d2aSXin Li      for (i=0;i<N;i++) out[i] += bias[i];
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   if (linear->diag) {
*a58d3d2aSXin Li      /* Diag is only used for GRU recurrent weights. */
*a58d3d2aSXin Li      celt_assert(3*M == N);
*a58d3d2aSXin Li      for (i=0;i<M;i++) {
*a58d3d2aSXin Li         out[i] += linear->diag[i]*in[i];
*a58d3d2aSXin Li         out[i+M] += linear->diag[i+M]*in[i];
*a58d3d2aSXin Li         out[i+2*M] += linear->diag[i+2*M]*in[i];
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li/* Computes non-padded convolution for input [ ksize1 x in_channels x (len2+ksize2) ],
*a58d3d2aSXin Li   kernel [ out_channels x in_channels x ksize1 x ksize2 ],
*a58d3d2aSXin Li   storing the output as [ out_channels x len2 ].
*a58d3d2aSXin Li   We assume that the output dimension along the ksize1 axis is 1,
*a58d3d2aSXin Li   i.e. processing one frame at a time. */
*a58d3d2aSXin Listatic void conv2d_float(float *out, const float *weights, int in_channels, int out_channels, int ktime, int kheight, const float *in, int height, int hstride)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i;
*a58d3d2aSXin Li   int in_stride;
*a58d3d2aSXin Li   in_stride = height+kheight-1;
*a58d3d2aSXin Li   for (i=0;i<out_channels;i++) {
*a58d3d2aSXin Li      int m;
*a58d3d2aSXin Li      OPUS_CLEAR(&out[i*hstride], height);
*a58d3d2aSXin Li      for (m=0;m<in_channels;m++) {
*a58d3d2aSXin Li         int t;
*a58d3d2aSXin Li         for (t=0;t<ktime;t++) {
*a58d3d2aSXin Li            int h;
*a58d3d2aSXin Li            for (h=0;h<kheight;h++) {
*a58d3d2aSXin Li               int j;
*a58d3d2aSXin Li               for (j=0;j<height;j++) {
*a58d3d2aSXin Li                  out[i*hstride + j] += weights[i*in_channels*ktime*kheight + m*ktime*kheight + t*kheight + h] *
*a58d3d2aSXin Li                                     in[t*in_channels*in_stride + m*in_stride + j + h];
*a58d3d2aSXin Li               }
*a58d3d2aSXin Li            }
*a58d3d2aSXin Li         }
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li/* There's no intrinsics in this function (or the one above) because the gcc (and hopefully other compiler) auto-vectorizer is smart enough to
*a58d3d2aSXin Li   produce the right code by itself based on the compile flags. */
*a58d3d2aSXin Listatic void conv2d_3x3_float(float *out, const float *weights, int in_channels, int out_channels, const float *in, int height, int hstride)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i;
*a58d3d2aSXin Li   int in_stride;
*a58d3d2aSXin Li   int kheight, ktime;
*a58d3d2aSXin Li   kheight = ktime = 3;
*a58d3d2aSXin Li   in_stride = height+kheight-1;
*a58d3d2aSXin Li   for (i=0;i<out_channels;i++) {
*a58d3d2aSXin Li      int m;
*a58d3d2aSXin Li      OPUS_CLEAR(&out[i*hstride], height);
*a58d3d2aSXin Li      for (m=0;m<in_channels;m++) {
*a58d3d2aSXin Li         int j;
*a58d3d2aSXin Li         for (j=0;j<height;j++) {
*a58d3d2aSXin Li            /* Unrolled version of previous function -- compiler will figure out the indexing simplifications. */
*a58d3d2aSXin Li            out[i*hstride + j] += weights[i*in_channels*ktime*kheight + m*ktime*kheight + 0*kheight + 0]*in[0*in_channels*in_stride + m*in_stride + j + 0]
*a58d3d2aSXin Li                                + weights[i*in_channels*ktime*kheight + m*ktime*kheight + 0*kheight + 1]*in[0*in_channels*in_stride + m*in_stride + j + 1]
*a58d3d2aSXin Li                                + weights[i*in_channels*ktime*kheight + m*ktime*kheight + 0*kheight + 2]*in[0*in_channels*in_stride + m*in_stride + j + 2]
*a58d3d2aSXin Li                                + weights[i*in_channels*ktime*kheight + m*ktime*kheight + 1*kheight + 0]*in[1*in_channels*in_stride + m*in_stride + j + 0]
*a58d3d2aSXin Li                                + weights[i*in_channels*ktime*kheight + m*ktime*kheight + 1*kheight + 1]*in[1*in_channels*in_stride + m*in_stride + j + 1]
*a58d3d2aSXin Li                                + weights[i*in_channels*ktime*kheight + m*ktime*kheight + 1*kheight + 2]*in[1*in_channels*in_stride + m*in_stride + j + 2]
*a58d3d2aSXin Li                                + weights[i*in_channels*ktime*kheight + m*ktime*kheight + 2*kheight + 0]*in[2*in_channels*in_stride + m*in_stride + j + 0]
*a58d3d2aSXin Li                                + weights[i*in_channels*ktime*kheight + m*ktime*kheight + 2*kheight + 1]*in[2*in_channels*in_stride + m*in_stride + j + 1]
*a58d3d2aSXin Li                                + weights[i*in_channels*ktime*kheight + m*ktime*kheight + 2*kheight + 2]*in[2*in_channels*in_stride + m*in_stride + j + 2];
*a58d3d2aSXin Li               }
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#define MAX_CONV2D_INPUTS 8192
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid RTCD_SUF(compute_conv2d_)(const Conv2dLayer *conv, float *out, float *mem, const float *in, int height, int hstride, int activation)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i;
*a58d3d2aSXin Li   const float *bias;
*a58d3d2aSXin Li   float in_buf[MAX_CONV2D_INPUTS];
*a58d3d2aSXin Li   int time_stride;
*a58d3d2aSXin Li   celt_assert(in != out);
*a58d3d2aSXin Li   time_stride = conv->in_channels*(height+conv->kheight-1);
*a58d3d2aSXin Li   celt_assert(conv->ktime*time_stride <= MAX_CONV2D_INPUTS);
*a58d3d2aSXin Li   OPUS_COPY(in_buf, mem, (conv->ktime-1)*time_stride);
*a58d3d2aSXin Li   OPUS_COPY(&in_buf[(conv->ktime-1)*time_stride], in, time_stride);
*a58d3d2aSXin Li   OPUS_COPY(mem, &in_buf[time_stride], (conv->ktime-1)*time_stride);
*a58d3d2aSXin Li   bias = conv->bias;
*a58d3d2aSXin Li   if (conv->kheight == 3 && conv->ktime == 3)
*a58d3d2aSXin Li     conv2d_3x3_float(out, conv->float_weights, conv->in_channels, conv->out_channels, in_buf, height, hstride);
*a58d3d2aSXin Li   else
*a58d3d2aSXin Li     conv2d_float(out, conv->float_weights, conv->in_channels, conv->out_channels, conv->ktime, conv->kheight, in_buf, height, hstride);
*a58d3d2aSXin Li   if (bias != NULL) {
*a58d3d2aSXin Li     for (i=0;i<conv->out_channels;i++) {
*a58d3d2aSXin Li       int j;
*a58d3d2aSXin Li       for (j=0;j<height;j++) out[i*hstride+j] += bias[i];
*a58d3d2aSXin Li     }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   for (i=0;i<conv->out_channels;i++) {
*a58d3d2aSXin Li     RTCD_SUF(compute_activation_)(&out[i*hstride], &out[i*hstride], height, activation);
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef GCC_POP_OPTIONS
*a58d3d2aSXin Li#pragma GCC pop_options
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li#endif