libopus/celt/mathops.c

*a58d3d2aSXin Li/* Copyright (c) 2002-2008 Jean-Marc Valin
*a58d3d2aSXin Li   Copyright (c) 2007-2008 CSIRO
*a58d3d2aSXin Li   Copyright (c) 2007-2009 Xiph.Org Foundation
*a58d3d2aSXin Li   Written by Jean-Marc Valin */
*a58d3d2aSXin Li/**
*a58d3d2aSXin Li   @file mathops.h
*a58d3d2aSXin Li   @brief Various math functions
*a58d3d2aSXin Li*/
*a58d3d2aSXin Li/*
*a58d3d2aSXin Li   Redistribution and use in source and binary forms, with or without
*a58d3d2aSXin Li   modification, are permitted provided that the following conditions
*a58d3d2aSXin Li   are met:
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions of source code must retain the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions in binary form must reproduce the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer in the
*a58d3d2aSXin Li   documentation and/or other materials provided with the distribution.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
*a58d3d2aSXin Li   ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
*a58d3d2aSXin Li   LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
*a58d3d2aSXin Li   A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER
*a58d3d2aSXin Li   OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
*a58d3d2aSXin Li   EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
*a58d3d2aSXin Li   PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
*a58d3d2aSXin Li   PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
*a58d3d2aSXin Li   LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
*a58d3d2aSXin Li   NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
*a58d3d2aSXin Li   SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
*a58d3d2aSXin Li*/
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef HAVE_CONFIG_H
*a58d3d2aSXin Li#include "config.h"
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li#include "mathops.h"
*a58d3d2aSXin Li
*a58d3d2aSXin Li/*Compute floor(sqrt(_val)) with exact arithmetic.
*a58d3d2aSXin Li  _val must be greater than 0.
*a58d3d2aSXin Li  This has been tested on all possible 32-bit inputs greater than 0.*/
*a58d3d2aSXin Liunsigned isqrt32(opus_uint32 _val){
*a58d3d2aSXin Li  unsigned b;
*a58d3d2aSXin Li  unsigned g;
*a58d3d2aSXin Li  int      bshift;
*a58d3d2aSXin Li  /*Uses the second method from
*a58d3d2aSXin Li     http://www.azillionmonkeys.com/qed/sqroot.html
*a58d3d2aSXin Li    The main idea is to search for the largest binary digit b such that
*a58d3d2aSXin Li     (g+b)*(g+b) <= _val, and add it to the solution g.*/
*a58d3d2aSXin Li  g=0;
*a58d3d2aSXin Li  bshift=(EC_ILOG(_val)-1)>>1;
*a58d3d2aSXin Li  b=1U<<bshift;
*a58d3d2aSXin Li  do{
*a58d3d2aSXin Li    opus_uint32 t;
*a58d3d2aSXin Li    t=(((opus_uint32)g<<1)+b)<<bshift;
*a58d3d2aSXin Li    if(t<=_val){
*a58d3d2aSXin Li      g+=b;
*a58d3d2aSXin Li      _val-=t;
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    b>>=1;
*a58d3d2aSXin Li    bshift--;
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li  while(bshift>=0);
*a58d3d2aSXin Li  return g;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li
*a58d3d2aSXin Liopus_val32 frac_div32(opus_val32 a, opus_val32 b)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   opus_val16 rcp;
*a58d3d2aSXin Li   opus_val32 result, rem;
*a58d3d2aSXin Li   int shift = celt_ilog2(b)-29;
*a58d3d2aSXin Li   a = VSHR32(a,shift);
*a58d3d2aSXin Li   b = VSHR32(b,shift);
*a58d3d2aSXin Li   /* 16-bit reciprocal */
*a58d3d2aSXin Li   rcp = ROUND16(celt_rcp(ROUND16(b,16)),3);
*a58d3d2aSXin Li   result = MULT16_32_Q15(rcp, a);
*a58d3d2aSXin Li   rem = PSHR32(a,2)-MULT32_32_Q31(result, b);
*a58d3d2aSXin Li   result = ADD32(result, SHL32(MULT16_32_Q15(rcp, rem),2));
*a58d3d2aSXin Li   if (result >= 536870912)       /*  2^29 */
*a58d3d2aSXin Li      return 2147483647;          /*  2^31 - 1 */
*a58d3d2aSXin Li   else if (result <= -536870912) /* -2^29 */
*a58d3d2aSXin Li      return -2147483647;         /* -2^31 */
*a58d3d2aSXin Li   else
*a58d3d2aSXin Li      return SHL32(result, 2);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li/** Reciprocal sqrt approximation in the range [0.25,1) (Q16 in, Q14 out) */
*a58d3d2aSXin Liopus_val16 celt_rsqrt_norm(opus_val32 x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   opus_val16 n;
*a58d3d2aSXin Li   opus_val16 r;
*a58d3d2aSXin Li   opus_val16 r2;
*a58d3d2aSXin Li   opus_val16 y;
*a58d3d2aSXin Li   /* Range of n is [-16384,32767] ([-0.5,1) in Q15). */
*a58d3d2aSXin Li   n = x-32768;
*a58d3d2aSXin Li   /* Get a rough initial guess for the root.
*a58d3d2aSXin Li      The optimal minimax quadratic approximation (using relative error) is
*a58d3d2aSXin Li       r = 1.437799046117536+n*(-0.823394375837328+n*0.4096419668459485).
*a58d3d2aSXin Li      Coefficients here, and the final result r, are Q14.*/
*a58d3d2aSXin Li   r = ADD16(23557, MULT16_16_Q15(n, ADD16(-13490, MULT16_16_Q15(n, 6713))));
*a58d3d2aSXin Li   /* We want y = x*r*r-1 in Q15, but x is 32-bit Q16 and r is Q14.
*a58d3d2aSXin Li      We can compute the result from n and r using Q15 multiplies with some
*a58d3d2aSXin Li       adjustment, carefully done to avoid overflow.
*a58d3d2aSXin Li      Range of y is [-1564,1594]. */
*a58d3d2aSXin Li   r2 = MULT16_16_Q15(r, r);
*a58d3d2aSXin Li   y = SHL16(SUB16(ADD16(MULT16_16_Q15(r2, n), r2), 16384), 1);
*a58d3d2aSXin Li   /* Apply a 2nd-order Householder iteration: r += r*y*(y*0.375-0.5).
*a58d3d2aSXin Li      This yields the Q14 reciprocal square root of the Q16 x, with a maximum
*a58d3d2aSXin Li       relative error of 1.04956E-4, a (relative) RMSE of 2.80979E-5, and a
*a58d3d2aSXin Li       peak absolute error of 2.26591/16384. */
*a58d3d2aSXin Li   return ADD16(r, MULT16_16_Q15(r, MULT16_16_Q15(y,
*a58d3d2aSXin Li              SUB16(MULT16_16_Q15(y, 12288), 16384))));
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li/** Sqrt approximation (QX input, QX/2 output) */
*a58d3d2aSXin Liopus_val32 celt_sqrt(opus_val32 x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int k;
*a58d3d2aSXin Li   opus_val16 n;
*a58d3d2aSXin Li   opus_val32 rt;
*a58d3d2aSXin Li   static const opus_val16 C[5] = {23175, 11561, -3011, 1699, -664};
*a58d3d2aSXin Li   if (x==0)
*a58d3d2aSXin Li      return 0;
*a58d3d2aSXin Li   else if (x>=1073741824)
*a58d3d2aSXin Li      return 32767;
*a58d3d2aSXin Li   k = (celt_ilog2(x)>>1)-7;
*a58d3d2aSXin Li   x = VSHR32(x, 2*k);
*a58d3d2aSXin Li   n = x-32768;
*a58d3d2aSXin Li   rt = ADD16(C[0], MULT16_16_Q15(n, ADD16(C[1], MULT16_16_Q15(n, ADD16(C[2],
*a58d3d2aSXin Li              MULT16_16_Q15(n, ADD16(C[3], MULT16_16_Q15(n, (C[4])))))))));
*a58d3d2aSXin Li   rt = VSHR32(rt,7-k);
*a58d3d2aSXin Li   return rt;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#define L1 32767
*a58d3d2aSXin Li#define L2 -7651
*a58d3d2aSXin Li#define L3 8277
*a58d3d2aSXin Li#define L4 -626
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic OPUS_INLINE opus_val16 _celt_cos_pi_2(opus_val16 x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   opus_val16 x2;
*a58d3d2aSXin Li
*a58d3d2aSXin Li   x2 = MULT16_16_P15(x,x);
*a58d3d2aSXin Li   return ADD16(1,MIN16(32766,ADD32(SUB16(L1,x2), MULT16_16_P15(x2, ADD32(L2, MULT16_16_P15(x2, ADD32(L3, MULT16_16_P15(L4, x2
*a58d3d2aSXin Li                                                                                ))))))));
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#undef L1
*a58d3d2aSXin Li#undef L2
*a58d3d2aSXin Li#undef L3
*a58d3d2aSXin Li#undef L4
*a58d3d2aSXin Li
*a58d3d2aSXin Liopus_val16 celt_cos_norm(opus_val32 x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   x = x&0x0001ffff;
*a58d3d2aSXin Li   if (x>SHL32(EXTEND32(1), 16))
*a58d3d2aSXin Li      x = SUB32(SHL32(EXTEND32(1), 17),x);
*a58d3d2aSXin Li   if (x&0x00007fff)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      if (x<SHL32(EXTEND32(1), 15))
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         return _celt_cos_pi_2(EXTRACT16(x));
*a58d3d2aSXin Li      } else {
*a58d3d2aSXin Li         return NEG16(_celt_cos_pi_2(EXTRACT16(65536-x)));
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   } else {
*a58d3d2aSXin Li      if (x&0x0000ffff)
*a58d3d2aSXin Li         return 0;
*a58d3d2aSXin Li      else if (x&0x0001ffff)
*a58d3d2aSXin Li         return -32767;
*a58d3d2aSXin Li      else
*a58d3d2aSXin Li         return 32767;
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li/** Reciprocal approximation (Q15 input, Q16 output) */
*a58d3d2aSXin Liopus_val32 celt_rcp(opus_val32 x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i;
*a58d3d2aSXin Li   opus_val16 n;
*a58d3d2aSXin Li   opus_val16 r;
*a58d3d2aSXin Li   celt_sig_assert(x>0);
*a58d3d2aSXin Li   i = celt_ilog2(x);
*a58d3d2aSXin Li   /* n is Q15 with range [0,1). */
*a58d3d2aSXin Li   n = VSHR32(x,i-15)-32768;
*a58d3d2aSXin Li   /* Start with a linear approximation:
*a58d3d2aSXin Li      r = 1.8823529411764706-0.9411764705882353*n.
*a58d3d2aSXin Li      The coefficients and the result are Q14 in the range [15420,30840].*/
*a58d3d2aSXin Li   r = ADD16(30840, MULT16_16_Q15(-15420, n));
*a58d3d2aSXin Li   /* Perform two Newton iterations:
*a58d3d2aSXin Li      r -= r*((r*n)-1.Q15)
*a58d3d2aSXin Li         = r*((r*n)+(r-1.Q15)). */
*a58d3d2aSXin Li   r = SUB16(r, MULT16_16_Q15(r,
*a58d3d2aSXin Li             ADD16(MULT16_16_Q15(r, n), ADD16(r, -32768))));
*a58d3d2aSXin Li   /* We subtract an extra 1 in the second iteration to avoid overflow; it also
*a58d3d2aSXin Li       neatly compensates for truncation error in the rest of the process. */
*a58d3d2aSXin Li   r = SUB16(r, ADD16(1, MULT16_16_Q15(r,
*a58d3d2aSXin Li             ADD16(MULT16_16_Q15(r, n), ADD16(r, -32768)))));
*a58d3d2aSXin Li   /* r is now the Q15 solution to 2/(n+1), with a maximum relative error
*a58d3d2aSXin Li       of 7.05346E-5, a (relative) RMSE of 2.14418E-5, and a peak absolute
*a58d3d2aSXin Li       error of 1.24665/32768. */
*a58d3d2aSXin Li   return VSHR32(EXTEND32(r),i-16);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#endif