libopus/dnn/vec_neon.h

*a58d3d2aSXin Li/* Copyright (c) 2018 David Rowe
*a58d3d2aSXin Li                 2018 Mozilla
*a58d3d2aSXin Li                 2008-2011 Octasic Inc.
*a58d3d2aSXin Li                 2012-2017 Jean-Marc Valin */
*a58d3d2aSXin Li/*
*a58d3d2aSXin Li   Redistribution and use in source and binary forms, with or without
*a58d3d2aSXin Li   modification, are permitted provided that the following conditions
*a58d3d2aSXin Li   are met:
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions of source code must retain the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions in binary form must reproduce the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer in the
*a58d3d2aSXin Li   documentation and/or other materials provided with the distribution.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
*a58d3d2aSXin Li   ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
*a58d3d2aSXin Li   LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
*a58d3d2aSXin Li   A PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE FOUNDATION OR
*a58d3d2aSXin Li   CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
*a58d3d2aSXin Li   EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
*a58d3d2aSXin Li   PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
*a58d3d2aSXin Li   PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
*a58d3d2aSXin Li   LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
*a58d3d2aSXin Li   NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
*a58d3d2aSXin Li   SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
*a58d3d2aSXin Li*/
*a58d3d2aSXin Li/* NEON support for ARM machines */
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifndef VEC_NEON_H
*a58d3d2aSXin Li#define VEC_NEON_H
*a58d3d2aSXin Li
*a58d3d2aSXin Li#include <arm_neon.h>
*a58d3d2aSXin Li#include "os_support.h"
*a58d3d2aSXin Li
*a58d3d2aSXin Li#if defined(__arm__) && !defined(__aarch64__)
*a58d3d2aSXin Li/* Emulate vcvtnq_s32_f32() for ARMv7 Neon. */
*a58d3d2aSXin Listatic OPUS_INLINE int32x4_t vcvtnq_s32_f32(float32x4_t x) {
*a58d3d2aSXin Li  return vrshrq_n_s32(vcvtq_n_s32_f32(x, 8), 8);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic OPUS_INLINE int16x8_t vpaddq_s16(int16x8_t a, int16x8_t b) {
*a58d3d2aSXin Li  return vcombine_s16(vpadd_s16(vget_low_s16(a), vget_high_s16(a)), vpadd_s16(vget_low_s16(b), vget_high_s16(b)));
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic OPUS_INLINE int16x8_t vmull_high_s8(int8x16_t a, int8x16_t b) {
*a58d3d2aSXin Li  return vmull_s8(vget_high_s8(a), vget_high_s8(b));
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef __ARM_FEATURE_FMA
*a58d3d2aSXin Li/* If we can, force the compiler to use an FMA instruction rather than break
*a58d3d2aSXin Li   vmlaq_f32() into fmul/fadd. */
*a58d3d2aSXin Li#define vmlaq_f32(a,b,c) vfmaq_f32(a,b,c)
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifndef LPCNET_TEST
*a58d3d2aSXin Listatic inline float32x4_t exp4_approx(float32x4_t x) {
*a58d3d2aSXin Li  int32x4_t i;
*a58d3d2aSXin Li  float32x4_t xf;
*a58d3d2aSXin Li
*a58d3d2aSXin Li  x = vmaxq_f32(vminq_f32(x, vdupq_n_f32(88.f)), vdupq_n_f32(-88.f));
*a58d3d2aSXin Li
*a58d3d2aSXin Li  /* express exp(x) as exp2(x/log(2)), add 127 for the exponent later */
*a58d3d2aSXin Li  x = vmlaq_f32(vdupq_n_f32(127.f), x, vdupq_n_f32(1.44269504f));
*a58d3d2aSXin Li
*a58d3d2aSXin Li  /* split into integer and fractional parts */
*a58d3d2aSXin Li  i = vcvtq_s32_f32(x);
*a58d3d2aSXin Li  xf = vcvtq_f32_s32(i);
*a58d3d2aSXin Li  x = vsubq_f32(x, xf);
*a58d3d2aSXin Li
*a58d3d2aSXin Li  float32x4_t K0 = vdupq_n_f32(0.99992522f);
*a58d3d2aSXin Li  float32x4_t K1 = vdupq_n_f32(0.69583354f);
*a58d3d2aSXin Li  float32x4_t K2 = vdupq_n_f32(0.22606716f);
*a58d3d2aSXin Li  float32x4_t K3 = vdupq_n_f32(0.078024523f);
*a58d3d2aSXin Li  float32x4_t Y = vmlaq_f32(K0, x, vmlaq_f32(K1, x, vmlaq_f32(K2, K3, x)));
*a58d3d2aSXin Li
*a58d3d2aSXin Li  /* compute 2^i */
*a58d3d2aSXin Li  float32x4_t exponent = vreinterpretq_f32_s32(vshlq_n_s32(i, 23));
*a58d3d2aSXin Li
*a58d3d2aSXin Li  Y = vmulq_f32(Y, exponent);
*a58d3d2aSXin Li  return Y;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline float32x4_t tanh4_approx(float32x4_t X)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li  const float32x4_t N0 = vdupq_n_f32(952.52801514f);
*a58d3d2aSXin Li  const float32x4_t N1 = vdupq_n_f32(96.39235687f);
*a58d3d2aSXin Li  const float32x4_t N2 = vdupq_n_f32(0.60863042f);
*a58d3d2aSXin Li  const float32x4_t D0 = vdupq_n_f32(952.72399902f);
*a58d3d2aSXin Li  const float32x4_t D1 = vdupq_n_f32(413.36801147f);
*a58d3d2aSXin Li  const float32x4_t D2 = vdupq_n_f32(11.88600922f);
*a58d3d2aSXin Li  const float32x4_t max_out = vdupq_n_f32(1.f);
*a58d3d2aSXin Li  const float32x4_t min_out = vdupq_n_f32(-1.f);
*a58d3d2aSXin Li  float32x4_t X2, num, den;
*a58d3d2aSXin Li  X2 = vmulq_f32(X, X);
*a58d3d2aSXin Li  num = vmlaq_f32(N0, X2, vmlaq_f32(N1, N2, X2));
*a58d3d2aSXin Li  den = vmlaq_f32(D0, X2, vmlaq_f32(D1, D2, X2));
*a58d3d2aSXin Li  num = vmulq_f32(num, X);
*a58d3d2aSXin Li  den = vrecpeq_f32(den);
*a58d3d2aSXin Li  num = vmulq_f32(num, den);
*a58d3d2aSXin Li  return vmaxq_f32(min_out, vminq_f32(max_out, num));
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline float32x4_t sigmoid4_approx(float32x4_t X)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li  const float32x4_t N0 = vdupq_n_f32(238.13200378f);
*a58d3d2aSXin Li  const float32x4_t N1 = vdupq_n_f32(6.02452230f);
*a58d3d2aSXin Li  const float32x4_t N2 = vdupq_n_f32(0.00950985f);
*a58d3d2aSXin Li  const float32x4_t D0 = vdupq_n_f32(952.72399902f);
*a58d3d2aSXin Li  const float32x4_t D1 = vdupq_n_f32(103.34200287f);
*a58d3d2aSXin Li  const float32x4_t D2 = vdupq_n_f32(0.74287558f);
*a58d3d2aSXin Li  const float32x4_t half = vdupq_n_f32(0.5f);
*a58d3d2aSXin Li  const float32x4_t max_out = vdupq_n_f32(1.f);
*a58d3d2aSXin Li  const float32x4_t min_out = vdupq_n_f32(0.f);
*a58d3d2aSXin Li  float32x4_t X2, num, den;
*a58d3d2aSXin Li  X2 = vmulq_f32(X, X);
*a58d3d2aSXin Li  num = vmlaq_f32(N0, X2, vmlaq_f32(N1, N2, X2));
*a58d3d2aSXin Li  den = vmlaq_f32(D0, X2, vmlaq_f32(D1, D2, X2));
*a58d3d2aSXin Li  num = vmulq_f32(num, X);
*a58d3d2aSXin Li  den = vrecpeq_f32(den);
*a58d3d2aSXin Li  num = vmlaq_f32(half, num, den);
*a58d3d2aSXin Li  return vmaxq_f32(min_out, vminq_f32(max_out, num));
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline float lpcnet_exp(float x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   float out[4];
*a58d3d2aSXin Li   float32x4_t X, Y;
*a58d3d2aSXin Li   X = vdupq_n_f32(x);
*a58d3d2aSXin Li   Y = exp4_approx(X);
*a58d3d2aSXin Li   vst1q_f32(out, Y);
*a58d3d2aSXin Li   return out[0];
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline float tanh_approx(float x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   float out[4];
*a58d3d2aSXin Li   float32x4_t X, Y;
*a58d3d2aSXin Li   X = vdupq_n_f32(x);
*a58d3d2aSXin Li   Y = tanh4_approx(X);
*a58d3d2aSXin Li   vst1q_f32(out, Y);
*a58d3d2aSXin Li   return out[0];
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline float sigmoid_approx(float x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   float out[4];
*a58d3d2aSXin Li   float32x4_t X, Y;
*a58d3d2aSXin Li   X = vdupq_n_f32(x);
*a58d3d2aSXin Li   Y = sigmoid4_approx(X);
*a58d3d2aSXin Li   vst1q_f32(out, Y);
*a58d3d2aSXin Li   return out[0];
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void softmax(float *y, const float *x, int N)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    int i;
*a58d3d2aSXin Li    for (i=0;i<N-3;i+=4)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        float32x4_t X, Y;
*a58d3d2aSXin Li        X = vld1q_f32(&x[i]);
*a58d3d2aSXin Li        Y = exp4_approx(X);
*a58d3d2aSXin Li        vst1q_f32(&y[i], Y);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    for (;i<N;i++)
*a58d3d2aSXin Li        y[i] = lpcnet_exp(x[i]);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void vec_tanh(float *y, const float *x, int N)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    int i;
*a58d3d2aSXin Li    for (i=0;i<N-3;i+=4)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        float32x4_t X, Y;
*a58d3d2aSXin Li        X = vld1q_f32(&x[i]);
*a58d3d2aSXin Li        Y = tanh4_approx(X);
*a58d3d2aSXin Li        vst1q_f32(&y[i], Y);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    for (;i<N;i++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        float ex2;
*a58d3d2aSXin Li        ex2 = lpcnet_exp(2*x[i]);
*a58d3d2aSXin Li        y[i] = (ex2-1)/(ex2+1);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void vec_sigmoid(float *y, const float *x, int N)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    int i;
*a58d3d2aSXin Li    for (i=0;i<N-3;i+=4)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        float32x4_t X, Y;
*a58d3d2aSXin Li        X = vld1q_f32(&x[i]);
*a58d3d2aSXin Li        Y = sigmoid4_approx(X);
*a58d3d2aSXin Li        vst1q_f32(&y[i], Y);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    for (;i<N;i++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        float ex;
*a58d3d2aSXin Li        ex = lpcnet_exp(x[i]);
*a58d3d2aSXin Li        y[i] = (ex)/(ex+1);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void sgemv16x1(float *out, const float *weights, int rows, int cols, int col_stride, const float *x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    int i, j;
*a58d3d2aSXin Li    for (i=0;i<rows;i+=16)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li	float * restrict y = &out[i];
*a58d3d2aSXin Li
*a58d3d2aSXin Li	/* keep y[0..15] in registers for duration of inner loop */
*a58d3d2aSXin Li
*a58d3d2aSXin Li	float32x4_t y0_3 = vdupq_n_f32(0);
*a58d3d2aSXin Li	float32x4_t y4_7 = vdupq_n_f32(0);
*a58d3d2aSXin Li	float32x4_t y8_11 = vdupq_n_f32(0);
*a58d3d2aSXin Li	float32x4_t y12_15 = vdupq_n_f32(0);
*a58d3d2aSXin Li
*a58d3d2aSXin Li	for (j=0;j<cols;j++)
*a58d3d2aSXin Li	{
*a58d3d2aSXin Li	    const float * restrict w;
*a58d3d2aSXin Li	    float32x4_t wvec0_3, wvec4_7, wvec8_11, wvec12_15;
*a58d3d2aSXin Li	    float32x4_t xj;
*a58d3d2aSXin Li
*a58d3d2aSXin Li	    w = &weights[j*col_stride + i];
*a58d3d2aSXin Li	    wvec0_3 = vld1q_f32(&w[0]);
*a58d3d2aSXin Li	    wvec4_7 = vld1q_f32(&w[4]);
*a58d3d2aSXin Li	    wvec8_11 = vld1q_f32(&w[8]);
*a58d3d2aSXin Li	    wvec12_15 = vld1q_f32(&w[12]);
*a58d3d2aSXin Li
*a58d3d2aSXin Li	    xj = vld1q_dup_f32(&x[j]);
*a58d3d2aSXin Li
*a58d3d2aSXin Li	    y0_3 = vmlaq_f32(y0_3, wvec0_3, xj);
*a58d3d2aSXin Li	    y4_7 = vmlaq_f32(y4_7, wvec4_7, xj);
*a58d3d2aSXin Li	    y8_11 = vmlaq_f32(y8_11, wvec8_11, xj);
*a58d3d2aSXin Li	    y12_15 = vmlaq_f32(y12_15, wvec12_15, xj);
*a58d3d2aSXin Li	}
*a58d3d2aSXin Li
*a58d3d2aSXin Li	/* save y[0..15] back to memory */
*a58d3d2aSXin Li
*a58d3d2aSXin Li	vst1q_f32(&y[0], y0_3);
*a58d3d2aSXin Li	vst1q_f32(&y[4], y4_7);
*a58d3d2aSXin Li	vst1q_f32(&y[8], y8_11);
*a58d3d2aSXin Li	vst1q_f32(&y[12], y12_15);
*a58d3d2aSXin Li
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void sgemv8x1(float *out, const float *weights, int rows, int cols, int col_stride, const float *x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    int i, j;
*a58d3d2aSXin Li    for (i=0;i<rows;i+=8)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li    float * restrict y = &out[i];
*a58d3d2aSXin Li
*a58d3d2aSXin Li    /* keep y[0..15] in registers for duration of inner loop */
*a58d3d2aSXin Li
*a58d3d2aSXin Li    float32x4_t y0_3 = vdupq_n_f32(0);
*a58d3d2aSXin Li    float32x4_t y4_7 = vdupq_n_f32(0);
*a58d3d2aSXin Li
*a58d3d2aSXin Li    for (j=0;j<cols;j++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        const float * restrict w;
*a58d3d2aSXin Li        float32x4_t wvec0_3, wvec4_7;
*a58d3d2aSXin Li        float32x4_t xj;
*a58d3d2aSXin Li
*a58d3d2aSXin Li        w = &weights[j*col_stride + i];
*a58d3d2aSXin Li        wvec0_3 = vld1q_f32(&w[0]);
*a58d3d2aSXin Li        wvec4_7 = vld1q_f32(&w[4]);
*a58d3d2aSXin Li
*a58d3d2aSXin Li        xj = vld1q_dup_f32(&x[j]);
*a58d3d2aSXin Li
*a58d3d2aSXin Li        y0_3 = vmlaq_f32(y0_3, wvec0_3, xj);
*a58d3d2aSXin Li        y4_7 = vmlaq_f32(y4_7, wvec4_7, xj);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li
*a58d3d2aSXin Li    /* save y[0..15] back to memory */
*a58d3d2aSXin Li
*a58d3d2aSXin Li    vst1q_f32(&y[0], y0_3);
*a58d3d2aSXin Li    vst1q_f32(&y[4], y4_7);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void sgemv(float *out, const float *weights, int rows, int cols, int col_stride, const float *x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   if ((rows&0xf) == 0) sgemv16x1(out, weights, rows, cols, col_stride, x);
*a58d3d2aSXin Li   else if ((rows&0x7) == 0) sgemv8x1(out, weights, rows, cols, col_stride, x);
*a58d3d2aSXin Li   else {
*a58d3d2aSXin Li      int i, j;
*a58d3d2aSXin Li      for (i=0;i<rows;i++)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         out[i] = 0;
*a58d3d2aSXin Li         for (j=0;j<cols;j++) out[i] += weights[j*col_stride + i]*x[j];
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li/* Temporarily use unoptimized version */
*a58d3d2aSXin Listatic inline void sparse_sgemv8x4(float *out, const float *w, const int *idx, int rows, const float *x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i, j;
*a58d3d2aSXin Li   OPUS_CLEAR(out, rows);
*a58d3d2aSXin Li   for (i=0;i<rows;i+=8)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      int cols;
*a58d3d2aSXin Li      cols = *idx++;
*a58d3d2aSXin Li      for (j=0;j<cols;j++)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         int pos;
*a58d3d2aSXin Li         float * restrict y;
*a58d3d2aSXin Li         float xj0, xj1, xj2, xj3;
*a58d3d2aSXin Li         pos = (*idx++);
*a58d3d2aSXin Li         xj0 = x[pos+0];
*a58d3d2aSXin Li         xj1 = x[pos+1];
*a58d3d2aSXin Li         xj2 = x[pos+2];
*a58d3d2aSXin Li         xj3 = x[pos+3];
*a58d3d2aSXin Li         y = &out[i];
*a58d3d2aSXin Li         y[0] += w[0]*xj0;
*a58d3d2aSXin Li         y[1] += w[1]*xj0;
*a58d3d2aSXin Li         y[2] += w[2]*xj0;
*a58d3d2aSXin Li         y[3] += w[3]*xj0;
*a58d3d2aSXin Li         y[4] += w[4]*xj0;
*a58d3d2aSXin Li         y[5] += w[5]*xj0;
*a58d3d2aSXin Li         y[6] += w[6]*xj0;
*a58d3d2aSXin Li         y[7] += w[7]*xj0;
*a58d3d2aSXin Li
*a58d3d2aSXin Li         y[0] += w[8]*xj1;
*a58d3d2aSXin Li         y[1] += w[9]*xj1;
*a58d3d2aSXin Li         y[2] += w[10]*xj1;
*a58d3d2aSXin Li         y[3] += w[11]*xj1;
*a58d3d2aSXin Li         y[4] += w[12]*xj1;
*a58d3d2aSXin Li         y[5] += w[13]*xj1;
*a58d3d2aSXin Li         y[6] += w[14]*xj1;
*a58d3d2aSXin Li         y[7] += w[15]*xj1;
*a58d3d2aSXin Li
*a58d3d2aSXin Li         y[0] += w[16]*xj2;
*a58d3d2aSXin Li         y[1] += w[17]*xj2;
*a58d3d2aSXin Li         y[2] += w[18]*xj2;
*a58d3d2aSXin Li         y[3] += w[19]*xj2;
*a58d3d2aSXin Li         y[4] += w[20]*xj2;
*a58d3d2aSXin Li         y[5] += w[21]*xj2;
*a58d3d2aSXin Li         y[6] += w[22]*xj2;
*a58d3d2aSXin Li         y[7] += w[23]*xj2;
*a58d3d2aSXin Li
*a58d3d2aSXin Li         y[0] += w[24]*xj3;
*a58d3d2aSXin Li         y[1] += w[25]*xj3;
*a58d3d2aSXin Li         y[2] += w[26]*xj3;
*a58d3d2aSXin Li         y[3] += w[27]*xj3;
*a58d3d2aSXin Li         y[4] += w[28]*xj3;
*a58d3d2aSXin Li         y[5] += w[29]*xj3;
*a58d3d2aSXin Li         y[6] += w[30]*xj3;
*a58d3d2aSXin Li         y[7] += w[31]*xj3;
*a58d3d2aSXin Li         w += 32;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li#define SCALE (128.f*127.f)
*a58d3d2aSXin Li#define SCALE_1 (1.f/128.f/127.f)
*a58d3d2aSXin Li
*a58d3d2aSXin Li#define MAX_INPUTS 2048
*a58d3d2aSXin Li#define MAX_OUTPUTS 8192
*a58d3d2aSXin Li
*a58d3d2aSXin Li#if __ARM_FEATURE_DOTPROD
*a58d3d2aSXin Listatic inline int32x4_t vdotprod(int32x4_t acc, int8x16_t a, int8x16_t b) {
*a58d3d2aSXin Li  return vdotq_s32(acc, a, b);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#else
*a58d3d2aSXin Listatic inline int32x4_t vdotprod(int32x4_t acc, int8x16_t a, int8x16_t b)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li  return vpadalq_s16(acc, vpaddq_s16(vmull_s8(vget_low_s8(a), vget_low_s8(b)),  vmull_high_s8(a, b)));
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void cgemv8x4(float *_out, const opus_int8 *w, const float *scale, int rows, int cols, const float *_x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i, j;
*a58d3d2aSXin Li   opus_int32 x_int[MAX_INPUTS/4];
*a58d3d2aSXin Li   opus_int8 *x = (opus_int8*) x_int;
*a58d3d2aSXin Li   const float32x4_t const127 = vdupq_n_f32(127.);
*a58d3d2aSXin Li   for (i=0;i<cols;i+=8) {
*a58d3d2aSXin Li      int32x4_t xi0, xi4;
*a58d3d2aSXin Li      int16x8_t x_short;
*a58d3d2aSXin Li      xi0 = vcvtnq_s32_f32(vmulq_f32(const127, vld1q_f32(&_x[i])));
*a58d3d2aSXin Li      xi4 = vcvtnq_s32_f32(vmulq_f32(const127, vld1q_f32(&_x[i+4])));
*a58d3d2aSXin Li      x_short = vcombine_s16(vmovn_s32(xi0), vmovn_s32(xi4));
*a58d3d2aSXin Li      vst1_s8(&x[i], vmovn_s16(x_short));
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   for (i=0;i<rows;i+=8)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      int32x4_t acc0, acc1;
*a58d3d2aSXin Li      int32x4_t acc2, acc3;
*a58d3d2aSXin Li      acc0 = vdupq_n_s32(0);
*a58d3d2aSXin Li      acc1 = vdupq_n_s32(0);
*a58d3d2aSXin Li      acc2 = vdupq_n_s32(0);
*a58d3d2aSXin Li      acc3 = vdupq_n_s32(0);
*a58d3d2aSXin Li      j=0;
*a58d3d2aSXin Li      for (;j<cols-4;j+=8)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         int8x16_t vw0, vw1, vw2, vw3, vx0, vx1;
*a58d3d2aSXin Li         vx0 = (int8x16_t)vld1q_dup_s32((int*)(void*)&x[j]);
*a58d3d2aSXin Li         vw0 = vld1q_s8(w);
*a58d3d2aSXin Li         vw1 = vld1q_s8(&w[16]);
*a58d3d2aSXin Li         acc0 = vdotprod(acc0, vw0, vx0);
*a58d3d2aSXin Li         acc1 = vdotprod(acc1, vw1, vx0);
*a58d3d2aSXin Li         vx1 = (int8x16_t)vld1q_dup_s32((int*)(void*)&x[j+4]);
*a58d3d2aSXin Li         vw2 = vld1q_s8(&w[32]);
*a58d3d2aSXin Li         vw3 = vld1q_s8(&w[48]);
*a58d3d2aSXin Li         acc2 = vdotprod(acc2, vw2, vx1);
*a58d3d2aSXin Li         acc3 = vdotprod(acc3, vw3, vx1);
*a58d3d2aSXin Li         w += 64;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li      acc0 = vaddq_s32(acc0, acc2);
*a58d3d2aSXin Li      acc1 = vaddq_s32(acc1, acc3);
*a58d3d2aSXin Li      for (;j<cols;j+=4)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         int8x16_t vw0, vw1, vx;
*a58d3d2aSXin Li         vx = (int8x16_t)vld1q_dup_s32((int*)(void*)&x[j]);
*a58d3d2aSXin Li         vw0 = vld1q_s8(w);
*a58d3d2aSXin Li         vw1 = vld1q_s8(&w[16]);
*a58d3d2aSXin Li         acc0 = vdotprod(acc0, vw0, vx);
*a58d3d2aSXin Li         acc1 = vdotprod(acc1, vw1, vx);
*a58d3d2aSXin Li         w += 32;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li      vst1q_f32(&_out[i], vmulq_f32(vld1q_f32(&scale[i]), vcvtq_f32_s32(acc0)));
*a58d3d2aSXin Li      vst1q_f32(&_out[i+4], vmulq_f32(vld1q_f32(&scale[i+4]), vcvtq_f32_s32(acc1)));
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void sparse_cgemv8x4(float *_out, const opus_int8 *w, const int *idx, const float *scale, int rows, int cols, const float *_x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i, j;
*a58d3d2aSXin Li   opus_int32 x_int[MAX_INPUTS/4];
*a58d3d2aSXin Li   opus_int8 *x = (opus_int8*) x_int;
*a58d3d2aSXin Li   const float32x4_t const127 = vdupq_n_f32(127.);
*a58d3d2aSXin Li   for (i=0;i<cols;i+=8) {
*a58d3d2aSXin Li      int32x4_t xi0, xi4;
*a58d3d2aSXin Li      int16x8_t x_short;
*a58d3d2aSXin Li      xi0 = vcvtnq_s32_f32(vmulq_f32(const127, vld1q_f32(&_x[i])));
*a58d3d2aSXin Li      xi4 = vcvtnq_s32_f32(vmulq_f32(const127, vld1q_f32(&_x[i+4])));
*a58d3d2aSXin Li      x_short = vcombine_s16(vmovn_s32(xi0), vmovn_s32(xi4));
*a58d3d2aSXin Li      vst1_s8(&x[i], vmovn_s16(x_short));
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   for (i=0;i<rows;i+=8)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      int colblocks;
*a58d3d2aSXin Li      int32x4_t acc0, acc1;
*a58d3d2aSXin Li      acc0 = vdupq_n_s32(0);
*a58d3d2aSXin Li      acc1 = vdupq_n_s32(0);
*a58d3d2aSXin Li      colblocks = *idx++;
*a58d3d2aSXin Li      for (j=0;j<colblocks;j++)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         int pos;
*a58d3d2aSXin Li         pos = (*idx++);
*a58d3d2aSXin Li         int8x16_t vw0, vw1, vx;
*a58d3d2aSXin Li         vx = (int8x16_t)vld1q_dup_s32((int*)(void*)&x[pos]);
*a58d3d2aSXin Li         vw0 = vld1q_s8(w);
*a58d3d2aSXin Li         vw1 = vld1q_s8(&w[16]);
*a58d3d2aSXin Li         acc0 = vdotprod(acc0, vw0, vx);
*a58d3d2aSXin Li         acc1 = vdotprod(acc1, vw1, vx);
*a58d3d2aSXin Li         w += 32;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li      vst1q_f32(&_out[i], vmulq_f32(vld1q_f32(&scale[i]), vcvtq_f32_s32(acc0)));
*a58d3d2aSXin Li      vst1q_f32(&_out[i+4], vmulq_f32(vld1q_f32(&scale[i+4]), vcvtq_f32_s32(acc1)));
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li#endif