libopus/dnn/vec_avx.h

*a58d3d2aSXin Li/* Copyright (c) 2018 Mozilla
*a58d3d2aSXin Li                 2012-2017 Jean-Marc Valin */
*a58d3d2aSXin Li/*
*a58d3d2aSXin Li   Redistribution and use in source and binary forms, with or without
*a58d3d2aSXin Li   modification, are permitted provided that the following conditions
*a58d3d2aSXin Li   are met:
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions of source code must retain the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions in binary form must reproduce the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer in the
*a58d3d2aSXin Li   documentation and/or other materials provided with the distribution.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
*a58d3d2aSXin Li   ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
*a58d3d2aSXin Li   LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
*a58d3d2aSXin Li   A PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE FOUNDATION OR
*a58d3d2aSXin Li   CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
*a58d3d2aSXin Li   EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
*a58d3d2aSXin Li   PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
*a58d3d2aSXin Li   PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
*a58d3d2aSXin Li   LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
*a58d3d2aSXin Li   NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
*a58d3d2aSXin Li   SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
*a58d3d2aSXin Li*/
*a58d3d2aSXin Li/*
*a58d3d2aSXin Li  AVX implementation of vector operations, compile with -mavx
*a58d3d2aSXin Li  AVX2/FMA implementation of vector operations, compile with -mavx2 -mfma
*a58d3d2aSXin Li*/
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifndef VEC_AVX_H
*a58d3d2aSXin Li#define VEC_AVX_H
*a58d3d2aSXin Li
*a58d3d2aSXin Li#include <immintrin.h>
*a58d3d2aSXin Li#include <math.h>
*a58d3d2aSXin Li#include "celt/x86/x86cpu.h"
*a58d3d2aSXin Li
*a58d3d2aSXin Li#define MAX_INPUTS (2048)
*a58d3d2aSXin Li
*a58d3d2aSXin Li#define USE_SU_BIAS
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifndef __SSE_4_1__
*a58d3d2aSXin Listatic inline __m128 mm_floor_ps(__m128 x) {
*a58d3d2aSXin Li  __m128 half = _mm_set1_ps(0.5);
*a58d3d2aSXin Li  return _mm_cvtepi32_ps(_mm_cvtps_epi32(_mm_sub_ps(x, half)));
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#undef _mm_floor_ps
*a58d3d2aSXin Li#define _mm_floor_ps(x) mm_floor_ps(x)
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li/* If we don't have AVX available, emulate what we need with SSE up to 4.1. */
*a58d3d2aSXin Li#ifndef __AVX__
*a58d3d2aSXin Li
*a58d3d2aSXin Litypedef struct {
*a58d3d2aSXin Li  __m128 lo;
*a58d3d2aSXin Li  __m128 hi;
*a58d3d2aSXin Li} mm256_emu;
*a58d3d2aSXin Li#define __m256 mm256_emu
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256_emu mm256_loadu_ps(const float *src) {
*a58d3d2aSXin Li  mm256_emu ret;
*a58d3d2aSXin Li  ret.lo = _mm_loadu_ps(&src[0]);
*a58d3d2aSXin Li  ret.hi = _mm_loadu_ps(&src[4]);
*a58d3d2aSXin Li  return ret;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_loadu_ps(src) mm256_loadu_ps(src)
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void mm256_storeu_ps(float *dst, mm256_emu src) {
*a58d3d2aSXin Li  _mm_storeu_ps(dst, src.lo);
*a58d3d2aSXin Li  _mm_storeu_ps(&dst[4], src.hi);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_storeu_ps(dst, src) mm256_storeu_ps(dst, src)
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256_emu mm256_setzero_ps(void) {
*a58d3d2aSXin Li  mm256_emu ret;
*a58d3d2aSXin Li  ret.lo = _mm_setzero_ps();
*a58d3d2aSXin Li  ret.hi = ret.lo;
*a58d3d2aSXin Li  return ret;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_setzero_ps mm256_setzero_ps
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256_emu mm256_broadcast_ss(const float *x) {
*a58d3d2aSXin Li  mm256_emu ret;
*a58d3d2aSXin Li  ret.lo = _mm_set1_ps(*x);
*a58d3d2aSXin Li  ret.hi = ret.lo;
*a58d3d2aSXin Li  return ret;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_broadcast_ss(x) mm256_broadcast_ss(x)
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256_emu mm256_set1_ps(float x) {
*a58d3d2aSXin Li  mm256_emu ret;
*a58d3d2aSXin Li  ret.lo = _mm_set1_ps(x);
*a58d3d2aSXin Li  ret.hi = ret.lo;
*a58d3d2aSXin Li  return ret;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_set1_ps(x) mm256_set1_ps(x)
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256_emu mm256_mul_ps(mm256_emu a, mm256_emu b) {
*a58d3d2aSXin Li  mm256_emu ret;
*a58d3d2aSXin Li  ret.lo = _mm_mul_ps(a.lo, b.lo);
*a58d3d2aSXin Li  ret.hi = _mm_mul_ps(a.hi, b.hi);
*a58d3d2aSXin Li  return ret;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_mul_ps(a,b) mm256_mul_ps(a,b)
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256_emu mm256_add_ps(mm256_emu a, mm256_emu b) {
*a58d3d2aSXin Li  mm256_emu ret;
*a58d3d2aSXin Li  ret.lo = _mm_add_ps(a.lo, b.lo);
*a58d3d2aSXin Li  ret.hi = _mm_add_ps(a.hi, b.hi);
*a58d3d2aSXin Li  return ret;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_add_ps(a,b) mm256_add_ps(a,b)
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256_emu mm256_max_ps(mm256_emu a, mm256_emu b) {
*a58d3d2aSXin Li  mm256_emu ret;
*a58d3d2aSXin Li  ret.lo = _mm_max_ps(a.lo, b.lo);
*a58d3d2aSXin Li  ret.hi = _mm_max_ps(a.hi, b.hi);
*a58d3d2aSXin Li  return ret;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_max_ps(a,b) mm256_max_ps(a,b)
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256_emu mm256_min_ps(mm256_emu a, mm256_emu b) {
*a58d3d2aSXin Li  mm256_emu ret;
*a58d3d2aSXin Li  ret.lo = _mm_min_ps(a.lo, b.lo);
*a58d3d2aSXin Li  ret.hi = _mm_min_ps(a.hi, b.hi);
*a58d3d2aSXin Li  return ret;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_min_ps(a,b) mm256_min_ps(a,b)
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256_emu mm256_rcp_ps(mm256_emu a) {
*a58d3d2aSXin Li  mm256_emu ret;
*a58d3d2aSXin Li  ret.lo = _mm_rcp_ps(a.lo);
*a58d3d2aSXin Li  ret.hi = _mm_rcp_ps(a.hi);
*a58d3d2aSXin Li  return ret;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_rcp_ps(a) mm256_rcp_ps(a)
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline __m128 mm256_extractf128_ps(mm256_emu x, int i) {
*a58d3d2aSXin Li    return (i==0) ? x.lo : x.hi;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#undef _mm256_extractf128_ps
*a58d3d2aSXin Li#define _mm256_extractf128_ps(x,i) mm256_extractf128_ps(x,i)
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256_emu mm256_insertf128_ps(mm256_emu dst, __m128 src, int i) {
*a58d3d2aSXin Li    if (i==0) dst.lo = src;
*a58d3d2aSXin Li    else dst.hi = src;
*a58d3d2aSXin Li    return dst;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#undef _mm256_insertf128_ps
*a58d3d2aSXin Li#define _mm256_insertf128_ps(dst,src,i) mm256_insertf128_ps(dst,src,i)
*a58d3d2aSXin Li
*a58d3d2aSXin Li#endif /* __AVX__ */
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li/* If we don't have AVX2 available, emulate what we need with SSE up to 4.1. */
*a58d3d2aSXin Li#ifndef __AVX2__
*a58d3d2aSXin Li
*a58d3d2aSXin Litypedef struct {
*a58d3d2aSXin Li  __m128i lo;
*a58d3d2aSXin Li  __m128i hi;
*a58d3d2aSXin Li} mm256i_emu;
*a58d3d2aSXin Litypedef __m256i real_m256i;
*a58d3d2aSXin Li#define __m256i mm256i_emu
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256i_emu mm256_setzero_si256(void) {
*a58d3d2aSXin Li  mm256i_emu ret;
*a58d3d2aSXin Li  ret.lo = _mm_setzero_si128();
*a58d3d2aSXin Li  ret.hi = ret.lo;
*a58d3d2aSXin Li  return ret;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_setzero_si256 mm256_setzero_si256
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256i_emu mm256_loadu_si256(const mm256i_emu *src) {
*a58d3d2aSXin Li  mm256i_emu ret;
*a58d3d2aSXin Li  ret.lo = _mm_loadu_si128((const __m128i*)src);
*a58d3d2aSXin Li  ret.hi = _mm_loadu_si128(&((const __m128i*)src)[1]);
*a58d3d2aSXin Li  return ret;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_loadu_si256(src) mm256_loadu_si256(src)
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void mm256_storeu_si256(mm256i_emu *dst, mm256i_emu src) {
*a58d3d2aSXin Li  _mm_storeu_si128((__m128i*)dst, src.lo);
*a58d3d2aSXin Li  _mm_storeu_si128(&((__m128i*)dst)[1], src.hi);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_storeu_si256(dst, src) mm256_storeu_si256(dst, src)
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256i_emu mm256_broadcastd_epi32(__m128i x) {
*a58d3d2aSXin Li  mm256i_emu ret;
*a58d3d2aSXin Li  ret.hi = ret.lo = _mm_shuffle_epi32(x, 0);
*a58d3d2aSXin Li  return ret;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_broadcastd_epi32(x) mm256_broadcastd_epi32(x)
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256i_emu mm256_set1_epi32(int x) {
*a58d3d2aSXin Li  mm256i_emu ret;
*a58d3d2aSXin Li  ret.lo = _mm_set1_epi32(x);
*a58d3d2aSXin Li  ret.hi = ret.lo;
*a58d3d2aSXin Li  return ret;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_set1_epi32(x) mm256_set1_epi32(x)
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256i_emu mm256_set1_epi16(int x) {
*a58d3d2aSXin Li  mm256i_emu ret;
*a58d3d2aSXin Li  ret.lo = _mm_set1_epi16(x);
*a58d3d2aSXin Li  ret.hi = ret.lo;
*a58d3d2aSXin Li  return ret;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_set1_epi16(x) mm256_set1_epi16(x)
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256i_emu mm256_add_epi32(mm256i_emu a, mm256i_emu b) {
*a58d3d2aSXin Li  mm256i_emu ret;
*a58d3d2aSXin Li  ret.lo = _mm_add_epi32(a.lo, b.lo);
*a58d3d2aSXin Li  ret.hi = _mm_add_epi32(a.hi, b.hi);
*a58d3d2aSXin Li  return ret;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_add_epi32(a,b) mm256_add_epi32(a,b)
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256i_emu mm256_madd_epi16(mm256i_emu a, mm256i_emu b) {
*a58d3d2aSXin Li  mm256i_emu ret;
*a58d3d2aSXin Li  ret.lo = _mm_madd_epi16(a.lo, b.lo);
*a58d3d2aSXin Li  ret.hi = _mm_madd_epi16(a.hi, b.hi);
*a58d3d2aSXin Li  return ret;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_madd_epi16(a,b) mm256_madd_epi16(a,b)
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256i_emu mm256_maddubs_epi16(mm256i_emu a, mm256i_emu b) {
*a58d3d2aSXin Li  mm256i_emu ret;
*a58d3d2aSXin Li  ret.lo = _mm_maddubs_epi16(a.lo, b.lo);
*a58d3d2aSXin Li  ret.hi = _mm_maddubs_epi16(a.hi, b.hi);
*a58d3d2aSXin Li  return ret;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_maddubs_epi16(a,b) mm256_maddubs_epi16(a,b)
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li/* Emulating the conversion functions is tricky because they use __m256i but are defined in AVX.
*a58d3d2aSXin Li   So we need to make a special when only AVX is available. */
*a58d3d2aSXin Li#ifdef __AVX__
*a58d3d2aSXin Li
*a58d3d2aSXin Litypedef union {
*a58d3d2aSXin Li  mm256i_emu fake;
*a58d3d2aSXin Li  real_m256i real;
*a58d3d2aSXin Li} mm256_union;
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline __m256 mm256_cvtepi32_ps(mm256i_emu a) {
*a58d3d2aSXin Li  mm256_union src;
*a58d3d2aSXin Li  src.fake = a;
*a58d3d2aSXin Li  return _mm256_cvtepi32_ps(src.real);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_cvtepi32_ps(a) mm256_cvtepi32_ps(a)
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256i_emu mm256_cvtps_epi32(__m256 a) {
*a58d3d2aSXin Li  mm256_union ret;
*a58d3d2aSXin Li  ret.real =   _mm256_cvtps_epi32(a);
*a58d3d2aSXin Li  return ret.fake;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_cvtps_epi32(a) mm256_cvtps_epi32(a)
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li#else
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256_emu mm256_cvtepi32_ps(mm256i_emu a) {
*a58d3d2aSXin Li  mm256_emu ret;
*a58d3d2aSXin Li  ret.lo = _mm_cvtepi32_ps(a.lo);
*a58d3d2aSXin Li  ret.hi = _mm_cvtepi32_ps(a.hi);
*a58d3d2aSXin Li  return ret;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_cvtepi32_ps(a) mm256_cvtepi32_ps(a)
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256i_emu mm256_cvtps_epi32(mm256_emu a) {
*a58d3d2aSXin Li  mm256i_emu ret;
*a58d3d2aSXin Li  ret.lo = _mm_cvtps_epi32(a.lo);
*a58d3d2aSXin Li  ret.hi = _mm_cvtps_epi32(a.hi);
*a58d3d2aSXin Li  return ret;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define _mm256_cvtps_epi32(a) mm256_cvtps_epi32(a)
*a58d3d2aSXin Li
*a58d3d2aSXin Li#endif /* __AVX__ */
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li#endif /* __AVX2__ */
*a58d3d2aSXin Li
*a58d3d2aSXin Li/* In case we don't have FMA, make it a mul and an add. */
*a58d3d2aSXin Li#if !(defined(__FMA__) && defined(__AVX__))
*a58d3d2aSXin Li#define _mm256_fmadd_ps(a,b,c) _mm256_add_ps(_mm256_mul_ps(a, b), c)
*a58d3d2aSXin Li#define _mm_fmadd_ps(a,b,c) _mm_add_ps(_mm_mul_ps(a, b), c)
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef __AVX2__
*a58d3d2aSXin Listatic inline __m256 exp8_approx(__m256 X)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   const __m256 K0 = _mm256_set1_ps(0.99992522f);
*a58d3d2aSXin Li   const __m256 K1 = _mm256_set1_ps(0.69583354f);
*a58d3d2aSXin Li   const __m256 K2 = _mm256_set1_ps(0.22606716f);
*a58d3d2aSXin Li   const __m256 K3 = _mm256_set1_ps(0.078024523f);
*a58d3d2aSXin Li   const __m256 log2_E = _mm256_set1_ps(1.44269504f);
*a58d3d2aSXin Li   const __m256 max_in = _mm256_set1_ps(50.f);
*a58d3d2aSXin Li   const __m256 min_in = _mm256_set1_ps(-50.f);
*a58d3d2aSXin Li   __m256 XF, Y;
*a58d3d2aSXin Li   __m256i I;
*a58d3d2aSXin Li   X = _mm256_mul_ps(X, log2_E);
*a58d3d2aSXin Li   X = _mm256_max_ps(min_in, _mm256_min_ps(max_in, X));
*a58d3d2aSXin Li   XF = _mm256_floor_ps(X);
*a58d3d2aSXin Li   I = _mm256_cvtps_epi32(XF);
*a58d3d2aSXin Li   X = _mm256_sub_ps(X, XF);
*a58d3d2aSXin Li   Y = _mm256_fmadd_ps(_mm256_fmadd_ps(_mm256_fmadd_ps(K3, X, K2), X, K1), X, K0);
*a58d3d2aSXin Li   I = _mm256_slli_epi32(I, 23);
*a58d3d2aSXin Li   Y = _mm256_castsi256_ps(_mm256_add_epi32(I, _mm256_castps_si256(Y)));
*a58d3d2aSXin Li   return Y;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void vector_ps_to_epi8(unsigned char *x, const float *_x, int len) {
*a58d3d2aSXin Li    int i;
*a58d3d2aSXin Li   __m256 const127 = _mm256_set1_ps(127.f);
*a58d3d2aSXin Li    for (i=0;i<len;i+=8) {
*a58d3d2aSXin Li       __m256 xf;
*a58d3d2aSXin Li       __m256i xi;
*a58d3d2aSXin Li       xf = _mm256_loadu_ps(&_x[i]);
*a58d3d2aSXin Li       xf = _mm256_fmadd_ps(xf, const127, const127);
*a58d3d2aSXin Li       xi = _mm256_cvtps_epi32(xf);
*a58d3d2aSXin Li       xi = _mm256_packus_epi32(xi,  _mm256_setzero_si256());
*a58d3d2aSXin Li       xi = _mm256_permute4x64_epi64(xi, 0xD8);
*a58d3d2aSXin Li       xi = _mm256_packus_epi16(xi, _mm256_setzero_si256());
*a58d3d2aSXin Li       xi = _mm256_permutevar8x32_epi32(xi, _mm256_setr_epi32(0,1, 0,0, 0,0, 0,0));
*a58d3d2aSXin Li       _mm256_storeu_si256 ((__m256i *)(void*)&x[i], xi);
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#else
*a58d3d2aSXin Listatic inline __m128 exp4_approx(__m128 X)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   const __m128 K0 = _mm_set1_ps(0.99992522f);
*a58d3d2aSXin Li   const __m128 K1 = _mm_set1_ps(0.69583354f);
*a58d3d2aSXin Li   const __m128 K2 = _mm_set1_ps(0.22606716f);
*a58d3d2aSXin Li   const __m128 K3 = _mm_set1_ps(0.078024523f);
*a58d3d2aSXin Li   const __m128 log2_E = _mm_set1_ps(1.44269504);
*a58d3d2aSXin Li   const __m128 max_in = _mm_set1_ps(50.f);
*a58d3d2aSXin Li   const __m128 min_in = _mm_set1_ps(-50.f);
*a58d3d2aSXin Li   const __m128i mask = _mm_set1_epi32(0x7fffffff);
*a58d3d2aSXin Li   __m128 XF, Y;
*a58d3d2aSXin Li   __m128i I;
*a58d3d2aSXin Li   X = _mm_mul_ps(X, log2_E);
*a58d3d2aSXin Li   X = _mm_max_ps(min_in, _mm_min_ps(max_in, X));
*a58d3d2aSXin Li   XF = _mm_floor_ps(X);
*a58d3d2aSXin Li   I = _mm_cvtps_epi32(XF);
*a58d3d2aSXin Li   X = _mm_sub_ps(X, XF);
*a58d3d2aSXin Li   Y = _mm_fmadd_ps(_mm_fmadd_ps(_mm_fmadd_ps(K3, X, K2), X, K1), X, K0);
*a58d3d2aSXin Li   I = _mm_slli_epi32(I, 23);
*a58d3d2aSXin Li   Y = _mm_castsi128_ps(_mm_and_si128(mask, _mm_add_epi32(I, _mm_castps_si128(Y))));
*a58d3d2aSXin Li   return Y;
*a58d3d2aSXin Li}
*a58d3d2aSXin Listatic inline __m256 exp8_approx(__m256 X)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   __m256 Y;
*a58d3d2aSXin Li   __m128 Xhi, Xlo, Yhi, Ylo;
*a58d3d2aSXin Li   Xhi = _mm256_extractf128_ps(X, 1);
*a58d3d2aSXin Li   Xlo = _mm256_extractf128_ps(X, 0);
*a58d3d2aSXin Li   Yhi = exp4_approx(Xhi);
*a58d3d2aSXin Li   Ylo = exp4_approx(Xlo);
*a58d3d2aSXin Li   Y = _mm256_insertf128_ps(_mm256_setzero_ps(), Yhi, 1);
*a58d3d2aSXin Li   Y = _mm256_insertf128_ps(Y, Ylo, 0);
*a58d3d2aSXin Li   return Y;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void vector_ps_to_epi8(unsigned char *x, const float *_x, int len) {
*a58d3d2aSXin Li    int i;
*a58d3d2aSXin Li    for (i=0;i<len;i++) x[i] = 127+(int)floor(.5+127*_x[i]);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef __AVX__
*a58d3d2aSXin Li
*a58d3d2aSXin Li/* Approximating tanh() using a Padé-like rational function:
*a58d3d2aSXin Li   tanh(x) ~= x * (N0 + N1*x^2 + N2*x^4)/(D0 + D1*x^2 + D2*x^4)
*a58d3d2aSXin Li   subject to the +/- 1 bounds.
*a58d3d2aSXin Li   The coefficients were determined by gradient descent trying to minimize
*a58d3d2aSXin Li   the maximum deviation over the whole range (this is only possible because
*a58d3d2aSXin Li   of the bounds). The max error is around 3e-4 and is dominated by the
*a58d3d2aSXin Li   reciprocal approximation (the max error of the rational function is
*a58d3d2aSXin Li   around 6e-5).
*a58d3d2aSXin Li   */
*a58d3d2aSXin Listatic inline __m256 tanh8_approx(__m256 X)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   const __m256 N0 = _mm256_set1_ps(952.52801514f);
*a58d3d2aSXin Li   const __m256 N1 = _mm256_set1_ps(96.39235687f);
*a58d3d2aSXin Li   const __m256 N2 = _mm256_set1_ps(0.60863042f);
*a58d3d2aSXin Li   const __m256 D0 = _mm256_set1_ps(952.72399902f);
*a58d3d2aSXin Li   const __m256 D1 = _mm256_set1_ps(413.36801147f);
*a58d3d2aSXin Li   const __m256 D2 = _mm256_set1_ps(11.88600922f);
*a58d3d2aSXin Li   const __m256 max_out = _mm256_set1_ps(1.f);
*a58d3d2aSXin Li   const __m256 min_out = _mm256_set1_ps(-1.f);
*a58d3d2aSXin Li   __m256 X2, num, den;
*a58d3d2aSXin Li   X2 = _mm256_mul_ps(X, X);
*a58d3d2aSXin Li   num = _mm256_fmadd_ps(_mm256_fmadd_ps(N2, X2, N1), X2, N0);
*a58d3d2aSXin Li   den = _mm256_fmadd_ps(_mm256_fmadd_ps(D2, X2, D1), X2, D0);
*a58d3d2aSXin Li   num = _mm256_mul_ps(num, X);
*a58d3d2aSXin Li   den = _mm256_rcp_ps(den);
*a58d3d2aSXin Li   num = _mm256_mul_ps(num, den);
*a58d3d2aSXin Li   return _mm256_max_ps(min_out, _mm256_min_ps(max_out, num));
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li/* Sigmoid approximation using a Padé-like rational function:
*a58d3d2aSXin Li   1/(1+exp(-x)) ~= 0.5 + x * (N0 + N1*x^2 + N2*x^4)/(D0 + D1*x^2 + D2*x^4)
*a58d3d2aSXin Li   subject to the [0, 1] bounds.
*a58d3d2aSXin Li   The coefficients are directly derived by dividing the tanh() coefficients
*a58d3d2aSXin Li   by powers of two to get the correct scaling. The max error is around 1.5e-4
*a58d3d2aSXin Li   and is dominated by the reciprocal approximation (the max error of the
*a58d3d2aSXin Li   rational function is around 3e-5).
*a58d3d2aSXin Li   */
*a58d3d2aSXin Listatic inline __m256 sigmoid8_approx(__m256 X)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   const __m256 N0 = _mm256_set1_ps(238.13200378f);
*a58d3d2aSXin Li   const __m256 N1 = _mm256_set1_ps(6.02452230f);
*a58d3d2aSXin Li   const __m256 N2 = _mm256_set1_ps(0.00950985f);
*a58d3d2aSXin Li   const __m256 D0 = _mm256_set1_ps(952.72399902f);
*a58d3d2aSXin Li   const __m256 D1 = _mm256_set1_ps(103.34200287f);
*a58d3d2aSXin Li   const __m256 D2 = _mm256_set1_ps(0.74287558f);
*a58d3d2aSXin Li   const __m256 half = _mm256_set1_ps(0.5);
*a58d3d2aSXin Li   const __m256 max_out = _mm256_set1_ps(1.f);
*a58d3d2aSXin Li   const __m256 min_out = _mm256_set1_ps(0.f);
*a58d3d2aSXin Li   __m256 X2, num, den;
*a58d3d2aSXin Li   X2 = _mm256_mul_ps(X, X);
*a58d3d2aSXin Li   num = _mm256_fmadd_ps(_mm256_fmadd_ps(N2, X2, N1), X2, N0);
*a58d3d2aSXin Li   den = _mm256_fmadd_ps(_mm256_fmadd_ps(D2, X2, D1), X2, D0);
*a58d3d2aSXin Li   num = _mm256_mul_ps(num, X);
*a58d3d2aSXin Li   den = _mm256_rcp_ps(den);
*a58d3d2aSXin Li   num = _mm256_fmadd_ps(num, den, half);
*a58d3d2aSXin Li   return _mm256_max_ps(min_out, _mm256_min_ps(max_out, num));
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline float tanh_approx(float x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   float out[8];
*a58d3d2aSXin Li   __m256 X, Y;
*a58d3d2aSXin Li   X = _mm256_set1_ps(x);
*a58d3d2aSXin Li   Y = tanh8_approx(X);
*a58d3d2aSXin Li   _mm256_storeu_ps(out, Y);
*a58d3d2aSXin Li   return out[0];
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline float sigmoid_approx(float x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   float out[8];
*a58d3d2aSXin Li   __m256 X, Y;
*a58d3d2aSXin Li   X = _mm256_set1_ps(x);
*a58d3d2aSXin Li   Y = sigmoid8_approx(X);
*a58d3d2aSXin Li   _mm256_storeu_ps(out, Y);
*a58d3d2aSXin Li   return out[0];
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#else
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline __m128 tanh4_approx(__m128 X)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   const __m128 N0 = _mm_set1_ps(952.52801514f);
*a58d3d2aSXin Li   const __m128 N1 = _mm_set1_ps(96.39235687f);
*a58d3d2aSXin Li   const __m128 N2 = _mm_set1_ps(0.60863042f);
*a58d3d2aSXin Li   const __m128 D0 = _mm_set1_ps(952.72399902f);
*a58d3d2aSXin Li   const __m128 D1 = _mm_set1_ps(413.36801147f);
*a58d3d2aSXin Li   const __m128 D2 = _mm_set1_ps(11.88600922f);
*a58d3d2aSXin Li   const __m128 max_out = _mm_set1_ps(1.f);
*a58d3d2aSXin Li   const __m128 min_out = _mm_set1_ps(-1.f);
*a58d3d2aSXin Li   __m128 X2, num, den;
*a58d3d2aSXin Li   X2 = _mm_mul_ps(X, X);
*a58d3d2aSXin Li   num = _mm_fmadd_ps(_mm_fmadd_ps(N2, X2, N1), X2, N0);
*a58d3d2aSXin Li   den = _mm_fmadd_ps(_mm_fmadd_ps(D2, X2, D1), X2, D0);
*a58d3d2aSXin Li   num = _mm_mul_ps(num, X);
*a58d3d2aSXin Li   den = _mm_rcp_ps(den);
*a58d3d2aSXin Li   num = _mm_mul_ps(num, den);
*a58d3d2aSXin Li   return _mm_max_ps(min_out, _mm_min_ps(max_out, num));
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline __m128 sigmoid4_approx(__m128 X)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   const __m128 N0 = _mm_set1_ps(238.13200378f);
*a58d3d2aSXin Li   const __m128 N1 = _mm_set1_ps(6.02452230f);
*a58d3d2aSXin Li   const __m128 N2 = _mm_set1_ps(0.00950985f);
*a58d3d2aSXin Li   const __m128 D0 = _mm_set1_ps(952.72399902f);
*a58d3d2aSXin Li   const __m128 D1 = _mm_set1_ps(103.34200287f);
*a58d3d2aSXin Li   const __m128 D2 = _mm_set1_ps(0.74287558f);
*a58d3d2aSXin Li   const __m128 half = _mm_set1_ps(0.5);
*a58d3d2aSXin Li   const __m128 max_out = _mm_set1_ps(1.f);
*a58d3d2aSXin Li   const __m128 min_out = _mm_set1_ps(0.f);
*a58d3d2aSXin Li   __m128 X2, num, den;
*a58d3d2aSXin Li   X2 = _mm_mul_ps(X, X);
*a58d3d2aSXin Li   num = _mm_fmadd_ps(_mm_fmadd_ps(N2, X2, N1), X2, N0);
*a58d3d2aSXin Li   den = _mm_fmadd_ps(_mm_fmadd_ps(D2, X2, D1), X2, D0);
*a58d3d2aSXin Li   num = _mm_mul_ps(num, X);
*a58d3d2aSXin Li   den = _mm_rcp_ps(den);
*a58d3d2aSXin Li   num = _mm_fmadd_ps(num, den, half);
*a58d3d2aSXin Li   return _mm_max_ps(min_out, _mm_min_ps(max_out, num));
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline float tanh_approx(float x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   float out[4];
*a58d3d2aSXin Li   __m128 X, Y;
*a58d3d2aSXin Li   X = _mm_set1_ps(x);
*a58d3d2aSXin Li   Y = tanh4_approx(X);
*a58d3d2aSXin Li   _mm_storeu_ps(out, Y);
*a58d3d2aSXin Li   return out[0];
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline float sigmoid_approx(float x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   float out[4];
*a58d3d2aSXin Li   __m128 X, Y;
*a58d3d2aSXin Li   X = _mm_set1_ps(x);
*a58d3d2aSXin Li   Y = sigmoid4_approx(X);
*a58d3d2aSXin Li   _mm_storeu_ps(out, Y);
*a58d3d2aSXin Li   return out[0];
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline float lpcnet_exp(float x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   float out[8];
*a58d3d2aSXin Li   __m256 X, Y;
*a58d3d2aSXin Li   X = _mm256_set1_ps(x);
*a58d3d2aSXin Li   Y = exp8_approx(X);
*a58d3d2aSXin Li   _mm256_storeu_ps(out, Y);
*a58d3d2aSXin Li   return out[0];
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void softmax(float *y, const float *x, int N)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    int i;
*a58d3d2aSXin Li    for (i=0;i<N-7;i+=8)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        __m256 X, Y;
*a58d3d2aSXin Li        X = _mm256_loadu_ps(&x[i]);
*a58d3d2aSXin Li        Y = exp8_approx(X);
*a58d3d2aSXin Li        _mm256_storeu_ps(&y[i], Y);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    for (;i<N;i++)
*a58d3d2aSXin Li        y[i] = lpcnet_exp(x[i]);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef __AVX__
*a58d3d2aSXin Listatic inline void vec_tanh(float *y, const float *x, int N)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    int i;
*a58d3d2aSXin Li    for (i=0;i<N-7;i+=8)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        __m256 X, Y;
*a58d3d2aSXin Li        X = _mm256_loadu_ps(&x[i]);
*a58d3d2aSXin Li        Y = tanh8_approx(X);
*a58d3d2aSXin Li        _mm256_storeu_ps(&y[i], Y);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    for (;i<N;i++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        y[i] = tanh_approx(x[i]);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void vec_sigmoid(float *y, const float *x, int N)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    int i;
*a58d3d2aSXin Li    for (i=0;i<N-7;i+=8)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        __m256 X, Y;
*a58d3d2aSXin Li        X = _mm256_loadu_ps(&x[i]);
*a58d3d2aSXin Li        Y = sigmoid8_approx(X);
*a58d3d2aSXin Li        _mm256_storeu_ps(&y[i], Y);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    for (;i<N;i++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        y[i] = sigmoid_approx(x[i]);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#else
*a58d3d2aSXin Listatic inline void vec_tanh(float *y, const float *x, int N)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    int i;
*a58d3d2aSXin Li    for (i=0;i<N-3;i+=4)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        __m128 X, Y;
*a58d3d2aSXin Li        X = _mm_loadu_ps(&x[i]);
*a58d3d2aSXin Li        Y = tanh4_approx(X);
*a58d3d2aSXin Li        _mm_storeu_ps(&y[i], Y);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    for (;i<N;i++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        y[i] = tanh_approx(x[i]);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void vec_sigmoid(float *y, const float *x, int N)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    int i;
*a58d3d2aSXin Li    for (i=0;i<N-3;i+=4)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        __m128 X, Y;
*a58d3d2aSXin Li        X = _mm_loadu_ps(&x[i]);
*a58d3d2aSXin Li        Y = sigmoid4_approx(X);
*a58d3d2aSXin Li        _mm_storeu_ps(&y[i], Y);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    for (;i<N;i++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        y[i] = sigmoid_approx(x[i]);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li#if defined(__AVXVNNI__) || defined(__AVX512VNNI__)
*a58d3d2aSXin Li
*a58d3d2aSXin Li#define opus_mm256_dpbusds_epi32(src, a, b) _mm256_dpbusds_epi32(src, a, b)
*a58d3d2aSXin Li
*a58d3d2aSXin Li#elif defined(__AVX2__)
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline __m256i opus_mm256_dpbusds_epi32(__m256i src, __m256i a, __m256i b) {
*a58d3d2aSXin Li  __m256i ones, tmp;
*a58d3d2aSXin Li  ones = _mm256_set1_epi16(1);
*a58d3d2aSXin Li  tmp = _mm256_maddubs_epi16(a, b);
*a58d3d2aSXin Li  tmp = _mm256_madd_epi16(tmp, ones);
*a58d3d2aSXin Li  return _mm256_add_epi32(src, tmp);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#elif defined(__SSSE3__)
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256i_emu opus_mm256_dpbusds_epi32(mm256i_emu src, mm256i_emu a, mm256i_emu b) {
*a58d3d2aSXin Li  mm256i_emu ones, tmp;
*a58d3d2aSXin Li  ones = _mm256_set1_epi16(1);
*a58d3d2aSXin Li  tmp = _mm256_maddubs_epi16(a, b);
*a58d3d2aSXin Li  tmp = _mm256_madd_epi16(tmp, ones);
*a58d3d2aSXin Li  return _mm256_add_epi32(src, tmp);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#elif defined(__SSE2__)
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline __m128i mm_dpbusds_epi32(__m128i src, __m128i a, __m128i b) {
*a58d3d2aSXin Li  __m128i ah, al, bh, bl, tmp;
*a58d3d2aSXin Li  ah = _mm_srli_epi16(a, 8);
*a58d3d2aSXin Li  bh = _mm_srai_epi16(b, 8);
*a58d3d2aSXin Li  al = _mm_srli_epi16(_mm_slli_epi16(a, 8), 8);
*a58d3d2aSXin Li  bl = _mm_srai_epi16(_mm_slli_epi16(b, 8), 8);
*a58d3d2aSXin Li  tmp = _mm_add_epi32(_mm_madd_epi16(ah, bh), _mm_madd_epi16(al, bl));
*a58d3d2aSXin Li  return _mm_add_epi32(src, tmp);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline mm256i_emu opus_mm256_dpbusds_epi32(mm256i_emu src, mm256i_emu a, mm256i_emu b) {
*a58d3d2aSXin Li  mm256i_emu res;
*a58d3d2aSXin Li  res.hi = mm_dpbusds_epi32(src.hi, a.hi, b.hi);
*a58d3d2aSXin Li  res.lo = mm_dpbusds_epi32(src.lo, a.lo, b.lo);
*a58d3d2aSXin Li  return res;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li#else
*a58d3d2aSXin Li
*a58d3d2aSXin Li#error "No optimizations in vec_avx.h. This should never happen. "
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void sgemv(float *out, const float *weights, int rows, int cols, int col_stride, const float *x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li  int i, j;
*a58d3d2aSXin Li  i=0;
*a58d3d2aSXin Li  for (;i<rows-15;i+=16)
*a58d3d2aSXin Li  {
*a58d3d2aSXin Li     float *y;
*a58d3d2aSXin Li     __m256 vy0, vy8;
*a58d3d2aSXin Li     y = &out[i];
*a58d3d2aSXin Li     vy0 = _mm256_setzero_ps();
*a58d3d2aSXin Li     vy8 = _mm256_setzero_ps();
*a58d3d2aSXin Li     for (j=0;j<cols;j++)
*a58d3d2aSXin Li     {
*a58d3d2aSXin Li        __m256 vxj;
*a58d3d2aSXin Li        __m256 vw;
*a58d3d2aSXin Li        vxj = _mm256_broadcast_ss(&x[j]);
*a58d3d2aSXin Li
*a58d3d2aSXin Li        vw = _mm256_loadu_ps(&weights[j*col_stride + i]);
*a58d3d2aSXin Li        vy0 = _mm256_fmadd_ps(vw, vxj, vy0);
*a58d3d2aSXin Li
*a58d3d2aSXin Li        vw = _mm256_loadu_ps(&weights[j*col_stride + i + 8]);
*a58d3d2aSXin Li        vy8 = _mm256_fmadd_ps(vw, vxj, vy8);
*a58d3d2aSXin Li     }
*a58d3d2aSXin Li     _mm256_storeu_ps (&y[0], vy0);
*a58d3d2aSXin Li     _mm256_storeu_ps (&y[8], vy8);
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li  for (;i<rows-7;i+=8)
*a58d3d2aSXin Li  {
*a58d3d2aSXin Li     float *y;
*a58d3d2aSXin Li     __m256 vy0;
*a58d3d2aSXin Li     y = &out[i];
*a58d3d2aSXin Li     vy0 = _mm256_setzero_ps();
*a58d3d2aSXin Li     for (j=0;j<cols;j++)
*a58d3d2aSXin Li     {
*a58d3d2aSXin Li        __m256 vxj;
*a58d3d2aSXin Li        __m256 vw;
*a58d3d2aSXin Li        vxj = _mm256_broadcast_ss(&x[j]);
*a58d3d2aSXin Li
*a58d3d2aSXin Li        vw = _mm256_loadu_ps(&weights[j*col_stride + i]);
*a58d3d2aSXin Li        vy0 = _mm256_fmadd_ps(vw, vxj, vy0);
*a58d3d2aSXin Li     }
*a58d3d2aSXin Li     _mm256_storeu_ps (&y[0], vy0);
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li  for (;i<rows-3;i+=4)
*a58d3d2aSXin Li  {
*a58d3d2aSXin Li     float *y;
*a58d3d2aSXin Li     __m128 vy0;
*a58d3d2aSXin Li     y = &out[i];
*a58d3d2aSXin Li     vy0 = _mm_setzero_ps();
*a58d3d2aSXin Li     for (j=0;j<cols;j++)
*a58d3d2aSXin Li     {
*a58d3d2aSXin Li        __m128 vxj;
*a58d3d2aSXin Li        __m128 vw;
*a58d3d2aSXin Li        vxj = _mm_set1_ps(x[j]);
*a58d3d2aSXin Li
*a58d3d2aSXin Li        vw = _mm_loadu_ps(&weights[j*col_stride + i]);
*a58d3d2aSXin Li        vy0 = _mm_fmadd_ps(vw, vxj, vy0);
*a58d3d2aSXin Li     }
*a58d3d2aSXin Li     _mm_storeu_ps (&y[0], vy0);
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li  for (;i<rows;i++)
*a58d3d2aSXin Li  {
*a58d3d2aSXin Li    out[i] = 0;
*a58d3d2aSXin Li    for (j=0;j<cols;j++) out[i] += weights[j*col_stride + i]*x[j];
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void sparse_sgemv8x4(float *out, const float *weights, const int *idx, int rows, const float *x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i, j;
*a58d3d2aSXin Li   for (i=0;i<rows;i+=8)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      float *y;
*a58d3d2aSXin Li      int cols;
*a58d3d2aSXin Li      __m256 vy0;
*a58d3d2aSXin Li      y = &out[i];
*a58d3d2aSXin Li      vy0 = _mm256_setzero_ps();
*a58d3d2aSXin Li      cols = *idx++;
*a58d3d2aSXin Li      for (j=0;j<cols;j++)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         int id;
*a58d3d2aSXin Li         __m256 vxj;
*a58d3d2aSXin Li         __m256 vw;
*a58d3d2aSXin Li         id = *idx++;
*a58d3d2aSXin Li         vxj = _mm256_broadcast_ss(&x[id]);
*a58d3d2aSXin Li         vw = _mm256_loadu_ps(&weights[0]);
*a58d3d2aSXin Li         vy0 = _mm256_fmadd_ps(vw, vxj, vy0);
*a58d3d2aSXin Li
*a58d3d2aSXin Li         vxj = _mm256_broadcast_ss(&x[id+1]);
*a58d3d2aSXin Li         vw = _mm256_loadu_ps(&weights[8]);
*a58d3d2aSXin Li         vy0 = _mm256_fmadd_ps(vw, vxj, vy0);
*a58d3d2aSXin Li
*a58d3d2aSXin Li         vxj = _mm256_broadcast_ss(&x[id+2]);
*a58d3d2aSXin Li         vw = _mm256_loadu_ps(&weights[16]);
*a58d3d2aSXin Li         vy0 = _mm256_fmadd_ps(vw, vxj, vy0);
*a58d3d2aSXin Li
*a58d3d2aSXin Li         vxj = _mm256_broadcast_ss(&x[id+3]);
*a58d3d2aSXin Li         vw = _mm256_loadu_ps(&weights[24]);
*a58d3d2aSXin Li         vy0 = _mm256_fmadd_ps(vw, vxj, vy0);
*a58d3d2aSXin Li
*a58d3d2aSXin Li         weights += 32;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li      _mm256_storeu_ps (&y[0], vy0);
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void sparse_cgemv8x4(float *_out, const opus_int8 *w, const int *idx, const float *scale, int rows, int cols, const float *_x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i, j;
*a58d3d2aSXin Li   unsigned char x[MAX_INPUTS];
*a58d3d2aSXin Li   /*for (i=0;i<cols;i++) x[i] = 127+floor(.5+127*_x[i]);*/
*a58d3d2aSXin Li   vector_ps_to_epi8(x, _x, cols);
*a58d3d2aSXin Li   for (i=0;i<rows;i+=8)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      int colblocks;
*a58d3d2aSXin Li      __m256i vy0;
*a58d3d2aSXin Li      __m256 vout;
*a58d3d2aSXin Li      colblocks = *idx++;
*a58d3d2aSXin Li      vy0 = _mm256_setzero_si256();
*a58d3d2aSXin Li      j=0;
*a58d3d2aSXin Li#if 1 /* Unrolling by 4 gives some gain, comment out if it does not. */
*a58d3d2aSXin Li      for (;j<colblocks-3;j+=4)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         __m256i vxj;
*a58d3d2aSXin Li         __m256i vw;
*a58d3d2aSXin Li         vxj = _mm256_broadcastd_epi32(_mm_loadu_si32(&x[*idx++]));
*a58d3d2aSXin Li         vw = _mm256_loadu_si256((const __m256i *)(void*)w);
*a58d3d2aSXin Li         vy0 = opus_mm256_dpbusds_epi32(vy0, vxj, vw);
*a58d3d2aSXin Li         w += 32;
*a58d3d2aSXin Li         vxj = _mm256_broadcastd_epi32(_mm_loadu_si32(&x[*idx++]));
*a58d3d2aSXin Li         vw = _mm256_loadu_si256((const __m256i *)(void*)w);
*a58d3d2aSXin Li         vy0 = opus_mm256_dpbusds_epi32(vy0, vxj, vw);
*a58d3d2aSXin Li         w += 32;
*a58d3d2aSXin Li         vxj = _mm256_broadcastd_epi32(_mm_loadu_si32(&x[*idx++]));
*a58d3d2aSXin Li         vw = _mm256_loadu_si256((const __m256i *)(void*)w);
*a58d3d2aSXin Li         vy0 = opus_mm256_dpbusds_epi32(vy0, vxj, vw);
*a58d3d2aSXin Li         w += 32;
*a58d3d2aSXin Li         vxj = _mm256_broadcastd_epi32(_mm_loadu_si32(&x[*idx++]));
*a58d3d2aSXin Li         vw = _mm256_loadu_si256((const __m256i *)(void*)w);
*a58d3d2aSXin Li         vy0 = opus_mm256_dpbusds_epi32(vy0, vxj, vw);
*a58d3d2aSXin Li         w += 32;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li      for (;j<colblocks;j++)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         __m256i vxj;
*a58d3d2aSXin Li         __m256i vw;
*a58d3d2aSXin Li         vxj = _mm256_broadcastd_epi32(_mm_loadu_si32(&x[*idx++]));
*a58d3d2aSXin Li         vw = _mm256_loadu_si256((const __m256i *)(void*)w);
*a58d3d2aSXin Li         vy0 = opus_mm256_dpbusds_epi32(vy0, vxj, vw);
*a58d3d2aSXin Li         w += 32;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li      vout = _mm256_cvtepi32_ps(vy0);
*a58d3d2aSXin Li      vout = _mm256_mul_ps(vout, _mm256_loadu_ps(&scale[i]));
*a58d3d2aSXin Li      _mm256_storeu_ps(&_out[i], vout);
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Listatic inline void cgemv8x4(float *_out, const opus_int8 *w, const float *scale, int rows, int cols, const float *_x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i, j;
*a58d3d2aSXin Li   unsigned char x[MAX_INPUTS];
*a58d3d2aSXin Li   /*for (i=0;i<cols;i++) x[i] = 127+floor(.5+127*_x[i]);*/
*a58d3d2aSXin Li   vector_ps_to_epi8(x, _x, cols);
*a58d3d2aSXin Li   for (i=0;i<rows;i+=8)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      __m256i vy0;
*a58d3d2aSXin Li      __m256 vout;
*a58d3d2aSXin Li      vy0 = _mm256_setzero_si256();
*a58d3d2aSXin Li      j=0;
*a58d3d2aSXin Li#if 1 /* Unrolling by 4 gives some gain, comment out if it does not. */
*a58d3d2aSXin Li      for (;j<cols-12;j+=16)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         __m256i vxj;
*a58d3d2aSXin Li         __m256i vw;
*a58d3d2aSXin Li         vxj = _mm256_broadcastd_epi32(_mm_loadu_si32(&x[j]));
*a58d3d2aSXin Li         vw = _mm256_loadu_si256((const __m256i *)(void*)w);
*a58d3d2aSXin Li         vy0 = opus_mm256_dpbusds_epi32(vy0, vxj, vw);
*a58d3d2aSXin Li         w += 32;
*a58d3d2aSXin Li         vxj = _mm256_broadcastd_epi32(_mm_loadu_si32(&x[j+4]));
*a58d3d2aSXin Li         vw = _mm256_loadu_si256((const __m256i *)(void*)w);
*a58d3d2aSXin Li         vy0 = opus_mm256_dpbusds_epi32(vy0, vxj, vw);
*a58d3d2aSXin Li         w += 32;
*a58d3d2aSXin Li         vxj = _mm256_broadcastd_epi32(_mm_loadu_si32(&x[j+8]));
*a58d3d2aSXin Li         vw = _mm256_loadu_si256((const __m256i *)(void*)w);
*a58d3d2aSXin Li         vy0 = opus_mm256_dpbusds_epi32(vy0, vxj, vw);
*a58d3d2aSXin Li         w += 32;
*a58d3d2aSXin Li         vxj = _mm256_broadcastd_epi32(_mm_loadu_si32(&x[j+12]));
*a58d3d2aSXin Li         vw = _mm256_loadu_si256((const __m256i *)(void*)w);
*a58d3d2aSXin Li         vy0 = opus_mm256_dpbusds_epi32(vy0, vxj, vw);
*a58d3d2aSXin Li         w += 32;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li      for (;j<cols;j+=4)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         __m256i vxj;
*a58d3d2aSXin Li         __m256i vw;
*a58d3d2aSXin Li         vxj = _mm256_broadcastd_epi32(_mm_loadu_si32(&x[j]));
*a58d3d2aSXin Li         vw = _mm256_loadu_si256((const __m256i *)(void*)w);
*a58d3d2aSXin Li         vy0 = opus_mm256_dpbusds_epi32(vy0, vxj, vw);
*a58d3d2aSXin Li         w += 32;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li      vout = _mm256_cvtepi32_ps(vy0);
*a58d3d2aSXin Li      vout = _mm256_mul_ps(vout, _mm256_loadu_ps(&scale[i]));
*a58d3d2aSXin Li      _mm256_storeu_ps(&_out[i], vout);
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#define SCALE (128.f*127.f)
*a58d3d2aSXin Li#define SCALE_1 (1.f/128.f/127.f)
*a58d3d2aSXin Li#define USE_SU_BIAS
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li#endif /*VEC_AVX_H*/