libopus/celt/kiss_fft.c

*a58d3d2aSXin Li/*Copyright (c) 2003-2004, Mark Borgerding
*a58d3d2aSXin Li  Lots of modifications by Jean-Marc Valin
*a58d3d2aSXin Li  Copyright (c) 2005-2007, Xiph.Org Foundation
*a58d3d2aSXin Li  Copyright (c) 2008,      Xiph.Org Foundation, CSIRO
*a58d3d2aSXin Li
*a58d3d2aSXin Li  All rights reserved.
*a58d3d2aSXin Li
*a58d3d2aSXin Li  Redistribution and use in source and binary forms, with or without
*a58d3d2aSXin Li   modification, are permitted provided that the following conditions are met:
*a58d3d2aSXin Li
*a58d3d2aSXin Li    * Redistributions of source code must retain the above copyright notice,
*a58d3d2aSXin Li       this list of conditions and the following disclaimer.
*a58d3d2aSXin Li    * Redistributions in binary form must reproduce the above copyright notice,
*a58d3d2aSXin Li       this list of conditions and the following disclaimer in the
*a58d3d2aSXin Li       documentation and/or other materials provided with the distribution.
*a58d3d2aSXin Li
*a58d3d2aSXin Li  THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
*a58d3d2aSXin Li  AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
*a58d3d2aSXin Li  IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
*a58d3d2aSXin Li  ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER OR CONTRIBUTORS BE
*a58d3d2aSXin Li  LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR
*a58d3d2aSXin Li  CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF
*a58d3d2aSXin Li  SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS
*a58d3d2aSXin Li  INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN
*a58d3d2aSXin Li  CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE)
*a58d3d2aSXin Li  ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
*a58d3d2aSXin Li  POSSIBILITY OF SUCH DAMAGE.*/
*a58d3d2aSXin Li
*a58d3d2aSXin Li/* This code is originally from Mark Borgerding's KISS-FFT but has been
*a58d3d2aSXin Li   heavily modified to better suit Opus */
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifndef SKIP_CONFIG_H
*a58d3d2aSXin Li#  ifdef HAVE_CONFIG_H
*a58d3d2aSXin Li#    include "config.h"
*a58d3d2aSXin Li#  endif
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li#include "_kiss_fft_guts.h"
*a58d3d2aSXin Li#include "arch.h"
*a58d3d2aSXin Li#include "os_support.h"
*a58d3d2aSXin Li#include "mathops.h"
*a58d3d2aSXin Li#include "stack_alloc.h"
*a58d3d2aSXin Li
*a58d3d2aSXin Li/* The guts header contains all the multiplication and addition macros that are defined for
*a58d3d2aSXin Li   complex numbers.  It also delares the kf_ internal functions.
*a58d3d2aSXin Li*/
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic void kf_bfly2(
*a58d3d2aSXin Li                     kiss_fft_cpx * Fout,
*a58d3d2aSXin Li                     int m,
*a58d3d2aSXin Li                     int N
*a58d3d2aSXin Li                    )
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   kiss_fft_cpx * Fout2;
*a58d3d2aSXin Li   int i;
*a58d3d2aSXin Li   (void)m;
*a58d3d2aSXin Li#ifdef CUSTOM_MODES
*a58d3d2aSXin Li   if (m==1)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      celt_assert(m==1);
*a58d3d2aSXin Li      for (i=0;i<N;i++)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         kiss_fft_cpx t;
*a58d3d2aSXin Li         Fout2 = Fout + 1;
*a58d3d2aSXin Li         t = *Fout2;
*a58d3d2aSXin Li         C_SUB( *Fout2 ,  *Fout , t );
*a58d3d2aSXin Li         C_ADDTO( *Fout ,  t );
*a58d3d2aSXin Li         Fout += 2;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   } else
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      opus_val16 tw;
*a58d3d2aSXin Li      tw = QCONST16(0.7071067812f, 15);
*a58d3d2aSXin Li      /* We know that m==4 here because the radix-2 is just after a radix-4 */
*a58d3d2aSXin Li      celt_assert(m==4);
*a58d3d2aSXin Li      for (i=0;i<N;i++)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         kiss_fft_cpx t;
*a58d3d2aSXin Li         Fout2 = Fout + 4;
*a58d3d2aSXin Li         t = Fout2[0];
*a58d3d2aSXin Li         C_SUB( Fout2[0] ,  Fout[0] , t );
*a58d3d2aSXin Li         C_ADDTO( Fout[0] ,  t );
*a58d3d2aSXin Li
*a58d3d2aSXin Li         t.r = S_MUL(ADD32_ovflw(Fout2[1].r, Fout2[1].i), tw);
*a58d3d2aSXin Li         t.i = S_MUL(SUB32_ovflw(Fout2[1].i, Fout2[1].r), tw);
*a58d3d2aSXin Li         C_SUB( Fout2[1] ,  Fout[1] , t );
*a58d3d2aSXin Li         C_ADDTO( Fout[1] ,  t );
*a58d3d2aSXin Li
*a58d3d2aSXin Li         t.r = Fout2[2].i;
*a58d3d2aSXin Li         t.i = -Fout2[2].r;
*a58d3d2aSXin Li         C_SUB( Fout2[2] ,  Fout[2] , t );
*a58d3d2aSXin Li         C_ADDTO( Fout[2] ,  t );
*a58d3d2aSXin Li
*a58d3d2aSXin Li         t.r = S_MUL(SUB32_ovflw(Fout2[3].i, Fout2[3].r), tw);
*a58d3d2aSXin Li         t.i = S_MUL(NEG32_ovflw(ADD32_ovflw(Fout2[3].i, Fout2[3].r)), tw);
*a58d3d2aSXin Li         C_SUB( Fout2[3] ,  Fout[3] , t );
*a58d3d2aSXin Li         C_ADDTO( Fout[3] ,  t );
*a58d3d2aSXin Li         Fout += 8;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic void kf_bfly4(
*a58d3d2aSXin Li                     kiss_fft_cpx * Fout,
*a58d3d2aSXin Li                     const size_t fstride,
*a58d3d2aSXin Li                     const kiss_fft_state *st,
*a58d3d2aSXin Li                     int m,
*a58d3d2aSXin Li                     int N,
*a58d3d2aSXin Li                     int mm
*a58d3d2aSXin Li                    )
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i;
*a58d3d2aSXin Li
*a58d3d2aSXin Li   if (m==1)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      /* Degenerate case where all the twiddles are 1. */
*a58d3d2aSXin Li      for (i=0;i<N;i++)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         kiss_fft_cpx scratch0, scratch1;
*a58d3d2aSXin Li
*a58d3d2aSXin Li         C_SUB( scratch0 , *Fout, Fout[2] );
*a58d3d2aSXin Li         C_ADDTO(*Fout, Fout[2]);
*a58d3d2aSXin Li         C_ADD( scratch1 , Fout[1] , Fout[3] );
*a58d3d2aSXin Li         C_SUB( Fout[2], *Fout, scratch1 );
*a58d3d2aSXin Li         C_ADDTO( *Fout , scratch1 );
*a58d3d2aSXin Li         C_SUB( scratch1 , Fout[1] , Fout[3] );
*a58d3d2aSXin Li
*a58d3d2aSXin Li         Fout[1].r = ADD32_ovflw(scratch0.r, scratch1.i);
*a58d3d2aSXin Li         Fout[1].i = SUB32_ovflw(scratch0.i, scratch1.r);
*a58d3d2aSXin Li         Fout[3].r = SUB32_ovflw(scratch0.r, scratch1.i);
*a58d3d2aSXin Li         Fout[3].i = ADD32_ovflw(scratch0.i, scratch1.r);
*a58d3d2aSXin Li         Fout+=4;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   } else {
*a58d3d2aSXin Li      int j;
*a58d3d2aSXin Li      kiss_fft_cpx scratch[6];
*a58d3d2aSXin Li      const kiss_twiddle_cpx *tw1,*tw2,*tw3;
*a58d3d2aSXin Li      const int m2=2*m;
*a58d3d2aSXin Li      const int m3=3*m;
*a58d3d2aSXin Li      kiss_fft_cpx * Fout_beg = Fout;
*a58d3d2aSXin Li      for (i=0;i<N;i++)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         Fout = Fout_beg + i*mm;
*a58d3d2aSXin Li         tw3 = tw2 = tw1 = st->twiddles;
*a58d3d2aSXin Li         /* m is guaranteed to be a multiple of 4. */
*a58d3d2aSXin Li         for (j=0;j<m;j++)
*a58d3d2aSXin Li         {
*a58d3d2aSXin Li            C_MUL(scratch[0],Fout[m] , *tw1 );
*a58d3d2aSXin Li            C_MUL(scratch[1],Fout[m2] , *tw2 );
*a58d3d2aSXin Li            C_MUL(scratch[2],Fout[m3] , *tw3 );
*a58d3d2aSXin Li
*a58d3d2aSXin Li            C_SUB( scratch[5] , *Fout, scratch[1] );
*a58d3d2aSXin Li            C_ADDTO(*Fout, scratch[1]);
*a58d3d2aSXin Li            C_ADD( scratch[3] , scratch[0] , scratch[2] );
*a58d3d2aSXin Li            C_SUB( scratch[4] , scratch[0] , scratch[2] );
*a58d3d2aSXin Li            C_SUB( Fout[m2], *Fout, scratch[3] );
*a58d3d2aSXin Li            tw1 += fstride;
*a58d3d2aSXin Li            tw2 += fstride*2;
*a58d3d2aSXin Li            tw3 += fstride*3;
*a58d3d2aSXin Li            C_ADDTO( *Fout , scratch[3] );
*a58d3d2aSXin Li
*a58d3d2aSXin Li            Fout[m].r = ADD32_ovflw(scratch[5].r, scratch[4].i);
*a58d3d2aSXin Li            Fout[m].i = SUB32_ovflw(scratch[5].i, scratch[4].r);
*a58d3d2aSXin Li            Fout[m3].r = SUB32_ovflw(scratch[5].r, scratch[4].i);
*a58d3d2aSXin Li            Fout[m3].i = ADD32_ovflw(scratch[5].i, scratch[4].r);
*a58d3d2aSXin Li            ++Fout;
*a58d3d2aSXin Li         }
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifndef RADIX_TWO_ONLY
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic void kf_bfly3(
*a58d3d2aSXin Li                     kiss_fft_cpx * Fout,
*a58d3d2aSXin Li                     const size_t fstride,
*a58d3d2aSXin Li                     const kiss_fft_state *st,
*a58d3d2aSXin Li                     int m,
*a58d3d2aSXin Li                     int N,
*a58d3d2aSXin Li                     int mm
*a58d3d2aSXin Li                    )
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i;
*a58d3d2aSXin Li   size_t k;
*a58d3d2aSXin Li   const size_t m2 = 2*m;
*a58d3d2aSXin Li   const kiss_twiddle_cpx *tw1,*tw2;
*a58d3d2aSXin Li   kiss_fft_cpx scratch[5];
*a58d3d2aSXin Li   kiss_twiddle_cpx epi3;
*a58d3d2aSXin Li
*a58d3d2aSXin Li   kiss_fft_cpx * Fout_beg = Fout;
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li   /*epi3.r = -16384;*/ /* Unused */
*a58d3d2aSXin Li   epi3.i = -28378;
*a58d3d2aSXin Li#else
*a58d3d2aSXin Li   epi3 = st->twiddles[fstride*m];
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   for (i=0;i<N;i++)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      Fout = Fout_beg + i*mm;
*a58d3d2aSXin Li      tw1=tw2=st->twiddles;
*a58d3d2aSXin Li      /* For non-custom modes, m is guaranteed to be a multiple of 4. */
*a58d3d2aSXin Li      k=m;
*a58d3d2aSXin Li      do {
*a58d3d2aSXin Li
*a58d3d2aSXin Li         C_MUL(scratch[1],Fout[m] , *tw1);
*a58d3d2aSXin Li         C_MUL(scratch[2],Fout[m2] , *tw2);
*a58d3d2aSXin Li
*a58d3d2aSXin Li         C_ADD(scratch[3],scratch[1],scratch[2]);
*a58d3d2aSXin Li         C_SUB(scratch[0],scratch[1],scratch[2]);
*a58d3d2aSXin Li         tw1 += fstride;
*a58d3d2aSXin Li         tw2 += fstride*2;
*a58d3d2aSXin Li
*a58d3d2aSXin Li         Fout[m].r = SUB32_ovflw(Fout->r, HALF_OF(scratch[3].r));
*a58d3d2aSXin Li         Fout[m].i = SUB32_ovflw(Fout->i, HALF_OF(scratch[3].i));
*a58d3d2aSXin Li
*a58d3d2aSXin Li         C_MULBYSCALAR( scratch[0] , epi3.i );
*a58d3d2aSXin Li
*a58d3d2aSXin Li         C_ADDTO(*Fout,scratch[3]);
*a58d3d2aSXin Li
*a58d3d2aSXin Li         Fout[m2].r = ADD32_ovflw(Fout[m].r, scratch[0].i);
*a58d3d2aSXin Li         Fout[m2].i = SUB32_ovflw(Fout[m].i, scratch[0].r);
*a58d3d2aSXin Li
*a58d3d2aSXin Li         Fout[m].r = SUB32_ovflw(Fout[m].r, scratch[0].i);
*a58d3d2aSXin Li         Fout[m].i = ADD32_ovflw(Fout[m].i, scratch[0].r);
*a58d3d2aSXin Li
*a58d3d2aSXin Li         ++Fout;
*a58d3d2aSXin Li      } while(--k);
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifndef OVERRIDE_kf_bfly5
*a58d3d2aSXin Listatic void kf_bfly5(
*a58d3d2aSXin Li                     kiss_fft_cpx * Fout,
*a58d3d2aSXin Li                     const size_t fstride,
*a58d3d2aSXin Li                     const kiss_fft_state *st,
*a58d3d2aSXin Li                     int m,
*a58d3d2aSXin Li                     int N,
*a58d3d2aSXin Li                     int mm
*a58d3d2aSXin Li                    )
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   kiss_fft_cpx *Fout0,*Fout1,*Fout2,*Fout3,*Fout4;
*a58d3d2aSXin Li   int i, u;
*a58d3d2aSXin Li   kiss_fft_cpx scratch[13];
*a58d3d2aSXin Li   const kiss_twiddle_cpx *tw;
*a58d3d2aSXin Li   kiss_twiddle_cpx ya,yb;
*a58d3d2aSXin Li   kiss_fft_cpx * Fout_beg = Fout;
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li   ya.r = 10126;
*a58d3d2aSXin Li   ya.i = -31164;
*a58d3d2aSXin Li   yb.r = -26510;
*a58d3d2aSXin Li   yb.i = -19261;
*a58d3d2aSXin Li#else
*a58d3d2aSXin Li   ya = st->twiddles[fstride*m];
*a58d3d2aSXin Li   yb = st->twiddles[fstride*2*m];
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   tw=st->twiddles;
*a58d3d2aSXin Li
*a58d3d2aSXin Li   for (i=0;i<N;i++)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      Fout = Fout_beg + i*mm;
*a58d3d2aSXin Li      Fout0=Fout;
*a58d3d2aSXin Li      Fout1=Fout0+m;
*a58d3d2aSXin Li      Fout2=Fout0+2*m;
*a58d3d2aSXin Li      Fout3=Fout0+3*m;
*a58d3d2aSXin Li      Fout4=Fout0+4*m;
*a58d3d2aSXin Li
*a58d3d2aSXin Li      /* For non-custom modes, m is guaranteed to be a multiple of 4. */
*a58d3d2aSXin Li      for ( u=0; u<m; ++u ) {
*a58d3d2aSXin Li         scratch[0] = *Fout0;
*a58d3d2aSXin Li
*a58d3d2aSXin Li         C_MUL(scratch[1] ,*Fout1, tw[u*fstride]);
*a58d3d2aSXin Li         C_MUL(scratch[2] ,*Fout2, tw[2*u*fstride]);
*a58d3d2aSXin Li         C_MUL(scratch[3] ,*Fout3, tw[3*u*fstride]);
*a58d3d2aSXin Li         C_MUL(scratch[4] ,*Fout4, tw[4*u*fstride]);
*a58d3d2aSXin Li
*a58d3d2aSXin Li         C_ADD( scratch[7],scratch[1],scratch[4]);
*a58d3d2aSXin Li         C_SUB( scratch[10],scratch[1],scratch[4]);
*a58d3d2aSXin Li         C_ADD( scratch[8],scratch[2],scratch[3]);
*a58d3d2aSXin Li         C_SUB( scratch[9],scratch[2],scratch[3]);
*a58d3d2aSXin Li
*a58d3d2aSXin Li         Fout0->r = ADD32_ovflw(Fout0->r, ADD32_ovflw(scratch[7].r, scratch[8].r));
*a58d3d2aSXin Li         Fout0->i = ADD32_ovflw(Fout0->i, ADD32_ovflw(scratch[7].i, scratch[8].i));
*a58d3d2aSXin Li
*a58d3d2aSXin Li         scratch[5].r = ADD32_ovflw(scratch[0].r, ADD32_ovflw(S_MUL(scratch[7].r,ya.r), S_MUL(scratch[8].r,yb.r)));
*a58d3d2aSXin Li         scratch[5].i = ADD32_ovflw(scratch[0].i, ADD32_ovflw(S_MUL(scratch[7].i,ya.r), S_MUL(scratch[8].i,yb.r)));
*a58d3d2aSXin Li
*a58d3d2aSXin Li         scratch[6].r =  ADD32_ovflw(S_MUL(scratch[10].i,ya.i), S_MUL(scratch[9].i,yb.i));
*a58d3d2aSXin Li         scratch[6].i = NEG32_ovflw(ADD32_ovflw(S_MUL(scratch[10].r,ya.i), S_MUL(scratch[9].r,yb.i)));
*a58d3d2aSXin Li
*a58d3d2aSXin Li         C_SUB(*Fout1,scratch[5],scratch[6]);
*a58d3d2aSXin Li         C_ADD(*Fout4,scratch[5],scratch[6]);
*a58d3d2aSXin Li
*a58d3d2aSXin Li         scratch[11].r = ADD32_ovflw(scratch[0].r, ADD32_ovflw(S_MUL(scratch[7].r,yb.r), S_MUL(scratch[8].r,ya.r)));
*a58d3d2aSXin Li         scratch[11].i = ADD32_ovflw(scratch[0].i, ADD32_ovflw(S_MUL(scratch[7].i,yb.r), S_MUL(scratch[8].i,ya.r)));
*a58d3d2aSXin Li         scratch[12].r = SUB32_ovflw(S_MUL(scratch[9].i,ya.i), S_MUL(scratch[10].i,yb.i));
*a58d3d2aSXin Li         scratch[12].i = SUB32_ovflw(S_MUL(scratch[10].r,yb.i), S_MUL(scratch[9].r,ya.i));
*a58d3d2aSXin Li
*a58d3d2aSXin Li         C_ADD(*Fout2,scratch[11],scratch[12]);
*a58d3d2aSXin Li         C_SUB(*Fout3,scratch[11],scratch[12]);
*a58d3d2aSXin Li
*a58d3d2aSXin Li         ++Fout0;++Fout1;++Fout2;++Fout3;++Fout4;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#endif /* OVERRIDE_kf_bfly5 */
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef CUSTOM_MODES
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic
*a58d3d2aSXin Livoid compute_bitrev_table(
*a58d3d2aSXin Li         int Fout,
*a58d3d2aSXin Li         opus_int16 *f,
*a58d3d2aSXin Li         const size_t fstride,
*a58d3d2aSXin Li         int in_stride,
*a58d3d2aSXin Li         opus_int16 * factors,
*a58d3d2aSXin Li         const kiss_fft_state *st
*a58d3d2aSXin Li            )
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   const int p=*factors++; /* the radix  */
*a58d3d2aSXin Li   const int m=*factors++; /* stage's fft length/p */
*a58d3d2aSXin Li
*a58d3d2aSXin Li    /*printf ("fft %d %d %d %d %d %d\n", p*m, m, p, s2, fstride*in_stride, N);*/
*a58d3d2aSXin Li   if (m==1)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      int j;
*a58d3d2aSXin Li      for (j=0;j<p;j++)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         *f = Fout+j;
*a58d3d2aSXin Li         f += fstride*in_stride;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   } else {
*a58d3d2aSXin Li      int j;
*a58d3d2aSXin Li      for (j=0;j<p;j++)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         compute_bitrev_table( Fout , f, fstride*p, in_stride, factors,st);
*a58d3d2aSXin Li         f += fstride*in_stride;
*a58d3d2aSXin Li         Fout += m;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li/*  facbuf is populated by p1,m1,p2,m2, ...
*a58d3d2aSXin Li    where
*a58d3d2aSXin Li    p[i] * m[i] = m[i-1]
*a58d3d2aSXin Li    m0 = n                  */
*a58d3d2aSXin Listatic
*a58d3d2aSXin Liint kf_factor(int n,opus_int16 * facbuf)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    int p=4;
*a58d3d2aSXin Li    int i;
*a58d3d2aSXin Li    int stages=0;
*a58d3d2aSXin Li    int nbak = n;
*a58d3d2aSXin Li
*a58d3d2aSXin Li    /*factor out powers of 4, powers of 2, then any remaining primes */
*a58d3d2aSXin Li    do {
*a58d3d2aSXin Li        while (n % p) {
*a58d3d2aSXin Li            switch (p) {
*a58d3d2aSXin Li                case 4: p = 2; break;
*a58d3d2aSXin Li                case 2: p = 3; break;
*a58d3d2aSXin Li                default: p += 2; break;
*a58d3d2aSXin Li            }
*a58d3d2aSXin Li            if (p>32000 || (opus_int32)p*(opus_int32)p > n)
*a58d3d2aSXin Li                p = n;          /* no more factors, skip to end */
*a58d3d2aSXin Li        }
*a58d3d2aSXin Li        n /= p;
*a58d3d2aSXin Li#ifdef RADIX_TWO_ONLY
*a58d3d2aSXin Li        if (p!=2 && p != 4)
*a58d3d2aSXin Li#else
*a58d3d2aSXin Li        if (p>5)
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li        {
*a58d3d2aSXin Li           return 0;
*a58d3d2aSXin Li        }
*a58d3d2aSXin Li        facbuf[2*stages] = p;
*a58d3d2aSXin Li        if (p==2 && stages > 1)
*a58d3d2aSXin Li        {
*a58d3d2aSXin Li           facbuf[2*stages] = 4;
*a58d3d2aSXin Li           facbuf[2] = 2;
*a58d3d2aSXin Li        }
*a58d3d2aSXin Li        stages++;
*a58d3d2aSXin Li    } while (n > 1);
*a58d3d2aSXin Li    n = nbak;
*a58d3d2aSXin Li    /* Reverse the order to get the radix 4 at the end, so we can use the
*a58d3d2aSXin Li       fast degenerate case. It turns out that reversing the order also
*a58d3d2aSXin Li       improves the noise behaviour. */
*a58d3d2aSXin Li    for (i=0;i<stages/2;i++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li       int tmp;
*a58d3d2aSXin Li       tmp = facbuf[2*i];
*a58d3d2aSXin Li       facbuf[2*i] = facbuf[2*(stages-i-1)];
*a58d3d2aSXin Li       facbuf[2*(stages-i-1)] = tmp;
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    for (i=0;i<stages;i++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        n /= facbuf[2*i];
*a58d3d2aSXin Li        facbuf[2*i+1] = n;
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    return 1;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic void compute_twiddles(kiss_twiddle_cpx *twiddles, int nfft)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i;
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li   for (i=0;i<nfft;++i) {
*a58d3d2aSXin Li      opus_val32 phase = -i;
*a58d3d2aSXin Li      kf_cexp2(twiddles+i, DIV32(SHL32(phase,17),nfft));
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li#else
*a58d3d2aSXin Li   for (i=0;i<nfft;++i) {
*a58d3d2aSXin Li      const double pi=3.14159265358979323846264338327;
*a58d3d2aSXin Li      double phase = ( -2*pi /nfft ) * i;
*a58d3d2aSXin Li      kf_cexp(twiddles+i, phase );
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Liint opus_fft_alloc_arch_c(kiss_fft_state *st) {
*a58d3d2aSXin Li   (void)st;
*a58d3d2aSXin Li   return 0;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li/*
*a58d3d2aSXin Li *
*a58d3d2aSXin Li * Allocates all necessary storage space for the fft and ifft.
*a58d3d2aSXin Li * The return value is a contiguous block of memory.  As such,
*a58d3d2aSXin Li * It can be freed with free().
*a58d3d2aSXin Li * */
*a58d3d2aSXin Likiss_fft_state *opus_fft_alloc_twiddles(int nfft,void * mem,size_t * lenmem,
*a58d3d2aSXin Li                                        const kiss_fft_state *base, int arch)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    kiss_fft_state *st=NULL;
*a58d3d2aSXin Li    size_t memneeded = sizeof(struct kiss_fft_state); /* twiddle factors*/
*a58d3d2aSXin Li
*a58d3d2aSXin Li    if ( lenmem==NULL ) {
*a58d3d2aSXin Li        st = ( kiss_fft_state*)KISS_FFT_MALLOC( memneeded );
*a58d3d2aSXin Li    }else{
*a58d3d2aSXin Li        if (mem != NULL && *lenmem >= memneeded)
*a58d3d2aSXin Li            st = (kiss_fft_state*)mem;
*a58d3d2aSXin Li        *lenmem = memneeded;
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    if (st) {
*a58d3d2aSXin Li        opus_int16 *bitrev;
*a58d3d2aSXin Li        kiss_twiddle_cpx *twiddles;
*a58d3d2aSXin Li
*a58d3d2aSXin Li        st->nfft=nfft;
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li        st->scale_shift = celt_ilog2(st->nfft);
*a58d3d2aSXin Li        if (st->nfft == 1<<st->scale_shift)
*a58d3d2aSXin Li           st->scale = Q15ONE;
*a58d3d2aSXin Li        else
*a58d3d2aSXin Li           st->scale = (1073741824+st->nfft/2)/st->nfft>>(15-st->scale_shift);
*a58d3d2aSXin Li#else
*a58d3d2aSXin Li        st->scale = 1.f/nfft;
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li        if (base != NULL)
*a58d3d2aSXin Li        {
*a58d3d2aSXin Li           st->twiddles = base->twiddles;
*a58d3d2aSXin Li           st->shift = 0;
*a58d3d2aSXin Li           while (st->shift < 32 && nfft<<st->shift != base->nfft)
*a58d3d2aSXin Li              st->shift++;
*a58d3d2aSXin Li           if (st->shift>=32)
*a58d3d2aSXin Li              goto fail;
*a58d3d2aSXin Li        } else {
*a58d3d2aSXin Li           st->twiddles = twiddles = (kiss_twiddle_cpx*)KISS_FFT_MALLOC(sizeof(kiss_twiddle_cpx)*nfft);
*a58d3d2aSXin Li           compute_twiddles(twiddles, nfft);
*a58d3d2aSXin Li           st->shift = -1;
*a58d3d2aSXin Li        }
*a58d3d2aSXin Li        if (!kf_factor(nfft,st->factors))
*a58d3d2aSXin Li        {
*a58d3d2aSXin Li           goto fail;
*a58d3d2aSXin Li        }
*a58d3d2aSXin Li
*a58d3d2aSXin Li        /* bitrev */
*a58d3d2aSXin Li        st->bitrev = bitrev = (opus_int16*)KISS_FFT_MALLOC(sizeof(opus_int16)*nfft);
*a58d3d2aSXin Li        if (st->bitrev==NULL)
*a58d3d2aSXin Li            goto fail;
*a58d3d2aSXin Li        compute_bitrev_table(0, bitrev, 1,1, st->factors,st);
*a58d3d2aSXin Li
*a58d3d2aSXin Li        /* Initialize architecture specific fft parameters */
*a58d3d2aSXin Li        if (opus_fft_alloc_arch(st, arch))
*a58d3d2aSXin Li            goto fail;
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    return st;
*a58d3d2aSXin Lifail:
*a58d3d2aSXin Li    opus_fft_free(st, arch);
*a58d3d2aSXin Li    return NULL;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Likiss_fft_state *opus_fft_alloc(int nfft,void * mem,size_t * lenmem, int arch)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   return opus_fft_alloc_twiddles(nfft, mem, lenmem, NULL, arch);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid opus_fft_free_arch_c(kiss_fft_state *st) {
*a58d3d2aSXin Li   (void)st;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid opus_fft_free(const kiss_fft_state *cfg, int arch)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   if (cfg)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      opus_fft_free_arch((kiss_fft_state *)cfg, arch);
*a58d3d2aSXin Li      opus_free((opus_int16*)cfg->bitrev);
*a58d3d2aSXin Li      if (cfg->shift < 0)
*a58d3d2aSXin Li         opus_free((kiss_twiddle_cpx*)cfg->twiddles);
*a58d3d2aSXin Li      opus_free((kiss_fft_state*)cfg);
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#endif /* CUSTOM_MODES */
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid opus_fft_impl(const kiss_fft_state *st,kiss_fft_cpx *fout)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    int m2, m;
*a58d3d2aSXin Li    int p;
*a58d3d2aSXin Li    int L;
*a58d3d2aSXin Li    int fstride[MAXFACTORS];
*a58d3d2aSXin Li    int i;
*a58d3d2aSXin Li    int shift;
*a58d3d2aSXin Li
*a58d3d2aSXin Li    /* st->shift can be -1 */
*a58d3d2aSXin Li    shift = st->shift>0 ? st->shift : 0;
*a58d3d2aSXin Li
*a58d3d2aSXin Li    fstride[0] = 1;
*a58d3d2aSXin Li    L=0;
*a58d3d2aSXin Li    do {
*a58d3d2aSXin Li       p = st->factors[2*L];
*a58d3d2aSXin Li       m = st->factors[2*L+1];
*a58d3d2aSXin Li       fstride[L+1] = fstride[L]*p;
*a58d3d2aSXin Li       L++;
*a58d3d2aSXin Li    } while(m!=1);
*a58d3d2aSXin Li    m = st->factors[2*L-1];
*a58d3d2aSXin Li    for (i=L-1;i>=0;i--)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li       if (i!=0)
*a58d3d2aSXin Li          m2 = st->factors[2*i-1];
*a58d3d2aSXin Li       else
*a58d3d2aSXin Li          m2 = 1;
*a58d3d2aSXin Li       switch (st->factors[2*i])
*a58d3d2aSXin Li       {
*a58d3d2aSXin Li       case 2:
*a58d3d2aSXin Li          kf_bfly2(fout, m, fstride[i]);
*a58d3d2aSXin Li          break;
*a58d3d2aSXin Li       case 4:
*a58d3d2aSXin Li          kf_bfly4(fout,fstride[i]<<shift,st,m, fstride[i], m2);
*a58d3d2aSXin Li          break;
*a58d3d2aSXin Li #ifndef RADIX_TWO_ONLY
*a58d3d2aSXin Li       case 3:
*a58d3d2aSXin Li          kf_bfly3(fout,fstride[i]<<shift,st,m, fstride[i], m2);
*a58d3d2aSXin Li          break;
*a58d3d2aSXin Li       case 5:
*a58d3d2aSXin Li          kf_bfly5(fout,fstride[i]<<shift,st,m, fstride[i], m2);
*a58d3d2aSXin Li          break;
*a58d3d2aSXin Li #endif
*a58d3d2aSXin Li       }
*a58d3d2aSXin Li       m = m2;
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid opus_fft_c(const kiss_fft_state *st,const kiss_fft_cpx *fin,kiss_fft_cpx *fout)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i;
*a58d3d2aSXin Li   opus_val16 scale;
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li   /* Allows us to scale with MULT16_32_Q16(), which is faster than
*a58d3d2aSXin Li      MULT16_32_Q15() on ARM. */
*a58d3d2aSXin Li   int scale_shift = st->scale_shift-1;
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   scale = st->scale;
*a58d3d2aSXin Li
*a58d3d2aSXin Li   celt_assert2 (fin != fout, "In-place FFT not supported");
*a58d3d2aSXin Li   /* Bit-reverse the input */
*a58d3d2aSXin Li   for (i=0;i<st->nfft;i++)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      kiss_fft_cpx x = fin[i];
*a58d3d2aSXin Li      fout[st->bitrev[i]].r = SHR32(MULT16_32_Q16(scale, x.r), scale_shift);
*a58d3d2aSXin Li      fout[st->bitrev[i]].i = SHR32(MULT16_32_Q16(scale, x.i), scale_shift);
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   opus_fft_impl(st, fout);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid opus_ifft_c(const kiss_fft_state *st,const kiss_fft_cpx *fin,kiss_fft_cpx *fout)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i;
*a58d3d2aSXin Li   celt_assert2 (fin != fout, "In-place FFT not supported");
*a58d3d2aSXin Li   /* Bit-reverse the input */
*a58d3d2aSXin Li   for (i=0;i<st->nfft;i++)
*a58d3d2aSXin Li      fout[st->bitrev[i]] = fin[i];
*a58d3d2aSXin Li   for (i=0;i<st->nfft;i++)
*a58d3d2aSXin Li      fout[i].i = -fout[i].i;
*a58d3d2aSXin Li   opus_fft_impl(st, fout);
*a58d3d2aSXin Li   for (i=0;i<st->nfft;i++)
*a58d3d2aSXin Li      fout[i].i = -fout[i].i;
*a58d3d2aSXin Li}