libopus/celt/celt_lpc.c

*a58d3d2aSXin Li/* Copyright (c) 2009-2010 Xiph.Org Foundation
*a58d3d2aSXin Li   Written by Jean-Marc Valin */
*a58d3d2aSXin Li/*
*a58d3d2aSXin Li   Redistribution and use in source and binary forms, with or without
*a58d3d2aSXin Li   modification, are permitted provided that the following conditions
*a58d3d2aSXin Li   are met:
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions of source code must retain the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions in binary form must reproduce the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer in the
*a58d3d2aSXin Li   documentation and/or other materials provided with the distribution.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
*a58d3d2aSXin Li   ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
*a58d3d2aSXin Li   LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
*a58d3d2aSXin Li   A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER
*a58d3d2aSXin Li   OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
*a58d3d2aSXin Li   EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
*a58d3d2aSXin Li   PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
*a58d3d2aSXin Li   PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
*a58d3d2aSXin Li   LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
*a58d3d2aSXin Li   NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
*a58d3d2aSXin Li   SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
*a58d3d2aSXin Li*/
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef HAVE_CONFIG_H
*a58d3d2aSXin Li#include "config.h"
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li#include "celt_lpc.h"
*a58d3d2aSXin Li#include "stack_alloc.h"
*a58d3d2aSXin Li#include "mathops.h"
*a58d3d2aSXin Li#include "pitch.h"
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid _celt_lpc(
*a58d3d2aSXin Li      opus_val16       *_lpc, /* out: [0...p-1] LPC coefficients      */
*a58d3d2aSXin Liconst opus_val32 *ac,  /* in:  [0...p] autocorrelation values  */
*a58d3d2aSXin Liint          p
*a58d3d2aSXin Li)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i, j;
*a58d3d2aSXin Li   opus_val32 r;
*a58d3d2aSXin Li   opus_val32 error = ac[0];
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li   opus_val32 lpc[CELT_LPC_ORDER];
*a58d3d2aSXin Li#else
*a58d3d2aSXin Li   float *lpc = _lpc;
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li   OPUS_CLEAR(lpc, p);
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li   if (ac[0] != 0)
*a58d3d2aSXin Li#else
*a58d3d2aSXin Li   if (ac[0] > 1e-10f)
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      for (i = 0; i < p; i++) {
*a58d3d2aSXin Li         /* Sum up this iteration's reflection coefficient */
*a58d3d2aSXin Li         opus_val32 rr = 0;
*a58d3d2aSXin Li         for (j = 0; j < i; j++)
*a58d3d2aSXin Li            rr += MULT32_32_Q31(lpc[j],ac[i - j]);
*a58d3d2aSXin Li         rr += SHR32(ac[i + 1],6);
*a58d3d2aSXin Li         r = -frac_div32(SHL32(rr,6), error);
*a58d3d2aSXin Li         /*  Update LPC coefficients and total error */
*a58d3d2aSXin Li         lpc[i] = SHR32(r,6);
*a58d3d2aSXin Li         for (j = 0; j < (i+1)>>1; j++)
*a58d3d2aSXin Li         {
*a58d3d2aSXin Li            opus_val32 tmp1, tmp2;
*a58d3d2aSXin Li            tmp1 = lpc[j];
*a58d3d2aSXin Li            tmp2 = lpc[i-1-j];
*a58d3d2aSXin Li            lpc[j]     = tmp1 + MULT32_32_Q31(r,tmp2);
*a58d3d2aSXin Li            lpc[i-1-j] = tmp2 + MULT32_32_Q31(r,tmp1);
*a58d3d2aSXin Li         }
*a58d3d2aSXin Li
*a58d3d2aSXin Li         error = error - MULT32_32_Q31(MULT32_32_Q31(r,r),error);
*a58d3d2aSXin Li         /* Bail out once we get 30 dB gain */
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li         if (error<=SHR32(ac[0],10))
*a58d3d2aSXin Li            break;
*a58d3d2aSXin Li#else
*a58d3d2aSXin Li         if (error<=.001f*ac[0])
*a58d3d2aSXin Li            break;
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      /* Convert the int32 lpcs to int16 and ensure there are no wrap-arounds.
*a58d3d2aSXin Li         This reuses the logic in silk_LPC_fit() and silk_bwexpander_32(). Any bug
*a58d3d2aSXin Li         fixes should also be applied there. */
*a58d3d2aSXin Li      int iter, idx = 0;
*a58d3d2aSXin Li      opus_val32 maxabs, absval, chirp_Q16, chirp_minus_one_Q16;
*a58d3d2aSXin Li
*a58d3d2aSXin Li      for (iter = 0; iter < 10; iter++) {
*a58d3d2aSXin Li         maxabs = 0;
*a58d3d2aSXin Li         for (i = 0; i < p; i++) {
*a58d3d2aSXin Li            absval = ABS32(lpc[i]);
*a58d3d2aSXin Li            if (absval > maxabs) {
*a58d3d2aSXin Li               maxabs = absval;
*a58d3d2aSXin Li               idx = i;
*a58d3d2aSXin Li            }
*a58d3d2aSXin Li         }
*a58d3d2aSXin Li         maxabs = PSHR32(maxabs, 13);  /* Q25->Q12 */
*a58d3d2aSXin Li
*a58d3d2aSXin Li         if (maxabs > 32767) {
*a58d3d2aSXin Li            maxabs = MIN32(maxabs, 163838);
*a58d3d2aSXin Li            chirp_Q16 = QCONST32(0.999, 16) - DIV32(SHL32(maxabs - 32767, 14),
*a58d3d2aSXin Li                                                    SHR32(MULT32_32_32(maxabs, idx + 1), 2));
*a58d3d2aSXin Li            chirp_minus_one_Q16 = chirp_Q16 - 65536;
*a58d3d2aSXin Li
*a58d3d2aSXin Li            /* Apply bandwidth expansion. */
*a58d3d2aSXin Li            for (i = 0; i < p - 1; i++) {
*a58d3d2aSXin Li               lpc[i] = MULT32_32_Q16(chirp_Q16, lpc[i]);
*a58d3d2aSXin Li               chirp_Q16 += PSHR32(MULT32_32_32(chirp_Q16, chirp_minus_one_Q16), 16);
*a58d3d2aSXin Li            }
*a58d3d2aSXin Li            lpc[p - 1] = MULT32_32_Q16(chirp_Q16, lpc[p - 1]);
*a58d3d2aSXin Li         } else {
*a58d3d2aSXin Li            break;
*a58d3d2aSXin Li         }
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li
*a58d3d2aSXin Li      if (iter == 10) {
*a58d3d2aSXin Li         /* If the coeffs still do not fit into the 16 bit range after 10 iterations,
*a58d3d2aSXin Li            fall back to the A(z)=1 filter. */
*a58d3d2aSXin Li         OPUS_CLEAR(lpc, p);
*a58d3d2aSXin Li         _lpc[0] = 4096;  /* Q12 */
*a58d3d2aSXin Li      } else {
*a58d3d2aSXin Li         for (i = 0; i < p; i++) {
*a58d3d2aSXin Li            _lpc[i] = EXTRACT16(PSHR32(lpc[i], 13));  /* Q25->Q12 */
*a58d3d2aSXin Li         }
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid celt_fir_c(
*a58d3d2aSXin Li         const opus_val16 *x,
*a58d3d2aSXin Li         const opus_val16 *num,
*a58d3d2aSXin Li         opus_val16 *y,
*a58d3d2aSXin Li         int N,
*a58d3d2aSXin Li         int ord,
*a58d3d2aSXin Li         int arch)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i,j;
*a58d3d2aSXin Li   VARDECL(opus_val16, rnum);
*a58d3d2aSXin Li   SAVE_STACK;
*a58d3d2aSXin Li   celt_assert(x != y);
*a58d3d2aSXin Li   ALLOC(rnum, ord, opus_val16);
*a58d3d2aSXin Li   for(i=0;i<ord;i++)
*a58d3d2aSXin Li      rnum[i] = num[ord-i-1];
*a58d3d2aSXin Li   for (i=0;i<N-3;i+=4)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      opus_val32 sum[4];
*a58d3d2aSXin Li      sum[0] = SHL32(EXTEND32(x[i  ]), SIG_SHIFT);
*a58d3d2aSXin Li      sum[1] = SHL32(EXTEND32(x[i+1]), SIG_SHIFT);
*a58d3d2aSXin Li      sum[2] = SHL32(EXTEND32(x[i+2]), SIG_SHIFT);
*a58d3d2aSXin Li      sum[3] = SHL32(EXTEND32(x[i+3]), SIG_SHIFT);
*a58d3d2aSXin Li#if defined(OPUS_CHECK_ASM) && defined(FIXED_POINT)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         opus_val32 sum_c[4];
*a58d3d2aSXin Li         memcpy(sum_c, sum, sizeof(sum_c));
*a58d3d2aSXin Li         xcorr_kernel_c(rnum, x+i-ord, sum_c, ord);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li         xcorr_kernel(rnum, x+i-ord, sum, ord, arch);
*a58d3d2aSXin Li#if defined(OPUS_CHECK_ASM) && defined(FIXED_POINT)
*a58d3d2aSXin Li         celt_assert(memcmp(sum, sum_c, sizeof(sum)) == 0);
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li      y[i  ] = SROUND16(sum[0], SIG_SHIFT);
*a58d3d2aSXin Li      y[i+1] = SROUND16(sum[1], SIG_SHIFT);
*a58d3d2aSXin Li      y[i+2] = SROUND16(sum[2], SIG_SHIFT);
*a58d3d2aSXin Li      y[i+3] = SROUND16(sum[3], SIG_SHIFT);
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   for (;i<N;i++)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      opus_val32 sum = SHL32(EXTEND32(x[i]), SIG_SHIFT);
*a58d3d2aSXin Li      for (j=0;j<ord;j++)
*a58d3d2aSXin Li         sum = MAC16_16(sum,rnum[j],x[i+j-ord]);
*a58d3d2aSXin Li      y[i] = SROUND16(sum, SIG_SHIFT);
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   RESTORE_STACK;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid celt_iir(const opus_val32 *_x,
*a58d3d2aSXin Li         const opus_val16 *den,
*a58d3d2aSXin Li         opus_val32 *_y,
*a58d3d2aSXin Li         int N,
*a58d3d2aSXin Li         int ord,
*a58d3d2aSXin Li         opus_val16 *mem,
*a58d3d2aSXin Li         int arch)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li#ifdef SMALL_FOOTPRINT
*a58d3d2aSXin Li   int i,j;
*a58d3d2aSXin Li   (void)arch;
*a58d3d2aSXin Li   for (i=0;i<N;i++)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      opus_val32 sum = _x[i];
*a58d3d2aSXin Li      for (j=0;j<ord;j++)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         sum -= MULT16_16(den[j],mem[j]);
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li      for (j=ord-1;j>=1;j--)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         mem[j]=mem[j-1];
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li      mem[0] = SROUND16(sum, SIG_SHIFT);
*a58d3d2aSXin Li      _y[i] = sum;
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li#else
*a58d3d2aSXin Li   int i,j;
*a58d3d2aSXin Li   VARDECL(opus_val16, rden);
*a58d3d2aSXin Li   VARDECL(opus_val16, y);
*a58d3d2aSXin Li   SAVE_STACK;
*a58d3d2aSXin Li
*a58d3d2aSXin Li   celt_assert((ord&3)==0);
*a58d3d2aSXin Li   ALLOC(rden, ord, opus_val16);
*a58d3d2aSXin Li   ALLOC(y, N+ord, opus_val16);
*a58d3d2aSXin Li   for(i=0;i<ord;i++)
*a58d3d2aSXin Li      rden[i] = den[ord-i-1];
*a58d3d2aSXin Li   for(i=0;i<ord;i++)
*a58d3d2aSXin Li      y[i] = -mem[ord-i-1];
*a58d3d2aSXin Li   for(;i<N+ord;i++)
*a58d3d2aSXin Li      y[i]=0;
*a58d3d2aSXin Li   for (i=0;i<N-3;i+=4)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      /* Unroll by 4 as if it were an FIR filter */
*a58d3d2aSXin Li      opus_val32 sum[4];
*a58d3d2aSXin Li      sum[0]=_x[i];
*a58d3d2aSXin Li      sum[1]=_x[i+1];
*a58d3d2aSXin Li      sum[2]=_x[i+2];
*a58d3d2aSXin Li      sum[3]=_x[i+3];
*a58d3d2aSXin Li#if defined(OPUS_CHECK_ASM) && defined(FIXED_POINT)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         opus_val32 sum_c[4];
*a58d3d2aSXin Li         memcpy(sum_c, sum, sizeof(sum_c));
*a58d3d2aSXin Li         xcorr_kernel_c(rden, y+i, sum_c, ord);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li         xcorr_kernel(rden, y+i, sum, ord, arch);
*a58d3d2aSXin Li#if defined(OPUS_CHECK_ASM) && defined(FIXED_POINT)
*a58d3d2aSXin Li         celt_assert(memcmp(sum, sum_c, sizeof(sum)) == 0);
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li      /* Patch up the result to compensate for the fact that this is an IIR */
*a58d3d2aSXin Li      y[i+ord  ] = -SROUND16(sum[0],SIG_SHIFT);
*a58d3d2aSXin Li      _y[i  ] = sum[0];
*a58d3d2aSXin Li      sum[1] = MAC16_16(sum[1], y[i+ord  ], den[0]);
*a58d3d2aSXin Li      y[i+ord+1] = -SROUND16(sum[1],SIG_SHIFT);
*a58d3d2aSXin Li      _y[i+1] = sum[1];
*a58d3d2aSXin Li      sum[2] = MAC16_16(sum[2], y[i+ord+1], den[0]);
*a58d3d2aSXin Li      sum[2] = MAC16_16(sum[2], y[i+ord  ], den[1]);
*a58d3d2aSXin Li      y[i+ord+2] = -SROUND16(sum[2],SIG_SHIFT);
*a58d3d2aSXin Li      _y[i+2] = sum[2];
*a58d3d2aSXin Li
*a58d3d2aSXin Li      sum[3] = MAC16_16(sum[3], y[i+ord+2], den[0]);
*a58d3d2aSXin Li      sum[3] = MAC16_16(sum[3], y[i+ord+1], den[1]);
*a58d3d2aSXin Li      sum[3] = MAC16_16(sum[3], y[i+ord  ], den[2]);
*a58d3d2aSXin Li      y[i+ord+3] = -SROUND16(sum[3],SIG_SHIFT);
*a58d3d2aSXin Li      _y[i+3] = sum[3];
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   for (;i<N;i++)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      opus_val32 sum = _x[i];
*a58d3d2aSXin Li      for (j=0;j<ord;j++)
*a58d3d2aSXin Li         sum -= MULT16_16(rden[j],y[i+j]);
*a58d3d2aSXin Li      y[i+ord] = SROUND16(sum,SIG_SHIFT);
*a58d3d2aSXin Li      _y[i] = sum;
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   for(i=0;i<ord;i++)
*a58d3d2aSXin Li      mem[i] = _y[N-i-1];
*a58d3d2aSXin Li   RESTORE_STACK;
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Liint _celt_autocorr(
*a58d3d2aSXin Li                   const opus_val16 *x,   /*  in: [0...n-1] samples x   */
*a58d3d2aSXin Li                   opus_val32       *ac,  /* out: [0...lag-1] ac values */
*a58d3d2aSXin Li                   const opus_val16       *window,
*a58d3d2aSXin Li                   int          overlap,
*a58d3d2aSXin Li                   int          lag,
*a58d3d2aSXin Li                   int          n,
*a58d3d2aSXin Li                   int          arch
*a58d3d2aSXin Li                  )
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   opus_val32 d;
*a58d3d2aSXin Li   int i, k;
*a58d3d2aSXin Li   int fastN=n-lag;
*a58d3d2aSXin Li   int shift;
*a58d3d2aSXin Li   const opus_val16 *xptr;
*a58d3d2aSXin Li   VARDECL(opus_val16, xx);
*a58d3d2aSXin Li   SAVE_STACK;
*a58d3d2aSXin Li   ALLOC(xx, n, opus_val16);
*a58d3d2aSXin Li   celt_assert(n>0);
*a58d3d2aSXin Li   celt_assert(overlap>=0);
*a58d3d2aSXin Li   if (overlap == 0)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      xptr = x;
*a58d3d2aSXin Li   } else {
*a58d3d2aSXin Li      for (i=0;i<n;i++)
*a58d3d2aSXin Li         xx[i] = x[i];
*a58d3d2aSXin Li      for (i=0;i<overlap;i++)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         xx[i] = MULT16_16_Q15(x[i],window[i]);
*a58d3d2aSXin Li         xx[n-i-1] = MULT16_16_Q15(x[n-i-1],window[i]);
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li      xptr = xx;
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   shift=0;
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      opus_val32 ac0;
*a58d3d2aSXin Li      ac0 = 1+(n<<7);
*a58d3d2aSXin Li      if (n&1) ac0 += SHR32(MULT16_16(xptr[0],xptr[0]),9);
*a58d3d2aSXin Li      for(i=(n&1);i<n;i+=2)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         ac0 += SHR32(MULT16_16(xptr[i],xptr[i]),9);
*a58d3d2aSXin Li         ac0 += SHR32(MULT16_16(xptr[i+1],xptr[i+1]),9);
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li
*a58d3d2aSXin Li      shift = celt_ilog2(ac0)-30+10;
*a58d3d2aSXin Li      shift = (shift)/2;
*a58d3d2aSXin Li      if (shift>0)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         for(i=0;i<n;i++)
*a58d3d2aSXin Li            xx[i] = PSHR32(xptr[i], shift);
*a58d3d2aSXin Li         xptr = xx;
*a58d3d2aSXin Li      } else
*a58d3d2aSXin Li         shift = 0;
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   celt_pitch_xcorr(xptr, xptr, ac, fastN, lag+1, arch);
*a58d3d2aSXin Li   for (k=0;k<=lag;k++)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      for (i = k+fastN, d = 0; i < n; i++)
*a58d3d2aSXin Li         d = MAC16_16(d, xptr[i], xptr[i-k]);
*a58d3d2aSXin Li      ac[k] += d;
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li   shift = 2*shift;
*a58d3d2aSXin Li   if (shift<=0)
*a58d3d2aSXin Li      ac[0] += SHL32((opus_int32)1, -shift);
*a58d3d2aSXin Li   if (ac[0] < 268435456)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      int shift2 = 29 - EC_ILOG(ac[0]);
*a58d3d2aSXin Li      for (i=0;i<=lag;i++)
*a58d3d2aSXin Li         ac[i] = SHL32(ac[i], shift2);
*a58d3d2aSXin Li      shift -= shift2;
*a58d3d2aSXin Li   } else if (ac[0] >= 536870912)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      int shift2=1;
*a58d3d2aSXin Li      if (ac[0] >= 1073741824)
*a58d3d2aSXin Li         shift2++;
*a58d3d2aSXin Li      for (i=0;i<=lag;i++)
*a58d3d2aSXin Li         ac[i] = SHR32(ac[i], shift2);
*a58d3d2aSXin Li      shift += shift2;
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li   RESTORE_STACK;
*a58d3d2aSXin Li   return shift;
*a58d3d2aSXin Li}