libopus/celt/pitch.c

*a58d3d2aSXin Li/* Copyright (c) 2007-2008 CSIRO
*a58d3d2aSXin Li   Copyright (c) 2007-2009 Xiph.Org Foundation
*a58d3d2aSXin Li   Written by Jean-Marc Valin */
*a58d3d2aSXin Li/**
*a58d3d2aSXin Li   @file pitch.c
*a58d3d2aSXin Li   @brief Pitch analysis
*a58d3d2aSXin Li */
*a58d3d2aSXin Li
*a58d3d2aSXin Li/*
*a58d3d2aSXin Li   Redistribution and use in source and binary forms, with or without
*a58d3d2aSXin Li   modification, are permitted provided that the following conditions
*a58d3d2aSXin Li   are met:
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions of source code must retain the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions in binary form must reproduce the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer in the
*a58d3d2aSXin Li   documentation and/or other materials provided with the distribution.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
*a58d3d2aSXin Li   ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
*a58d3d2aSXin Li   LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
*a58d3d2aSXin Li   A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER
*a58d3d2aSXin Li   OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
*a58d3d2aSXin Li   EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
*a58d3d2aSXin Li   PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
*a58d3d2aSXin Li   PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
*a58d3d2aSXin Li   LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
*a58d3d2aSXin Li   NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
*a58d3d2aSXin Li   SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
*a58d3d2aSXin Li*/
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef HAVE_CONFIG_H
*a58d3d2aSXin Li#include "config.h"
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li#include "pitch.h"
*a58d3d2aSXin Li#include "os_support.h"
*a58d3d2aSXin Li#include "modes.h"
*a58d3d2aSXin Li#include "stack_alloc.h"
*a58d3d2aSXin Li#include "mathops.h"
*a58d3d2aSXin Li#include "celt_lpc.h"
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic void find_best_pitch(opus_val32 *xcorr, opus_val16 *y, int len,
*a58d3d2aSXin Li                            int max_pitch, int *best_pitch
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li                            , int yshift, opus_val32 maxcorr
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li                            )
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i, j;
*a58d3d2aSXin Li   opus_val32 Syy=1;
*a58d3d2aSXin Li   opus_val16 best_num[2];
*a58d3d2aSXin Li   opus_val32 best_den[2];
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li   int xshift;
*a58d3d2aSXin Li
*a58d3d2aSXin Li   xshift = celt_ilog2(maxcorr)-14;
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li   best_num[0] = -1;
*a58d3d2aSXin Li   best_num[1] = -1;
*a58d3d2aSXin Li   best_den[0] = 0;
*a58d3d2aSXin Li   best_den[1] = 0;
*a58d3d2aSXin Li   best_pitch[0] = 0;
*a58d3d2aSXin Li   best_pitch[1] = 1;
*a58d3d2aSXin Li   for (j=0;j<len;j++)
*a58d3d2aSXin Li      Syy = ADD32(Syy, SHR32(MULT16_16(y[j],y[j]), yshift));
*a58d3d2aSXin Li   for (i=0;i<max_pitch;i++)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      if (xcorr[i]>0)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         opus_val16 num;
*a58d3d2aSXin Li         opus_val32 xcorr16;
*a58d3d2aSXin Li         xcorr16 = EXTRACT16(VSHR32(xcorr[i], xshift));
*a58d3d2aSXin Li#ifndef FIXED_POINT
*a58d3d2aSXin Li         /* Considering the range of xcorr16, this should avoid both underflows
*a58d3d2aSXin Li            and overflows (inf) when squaring xcorr16 */
*a58d3d2aSXin Li         xcorr16 *= 1e-12f;
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li         num = MULT16_16_Q15(xcorr16,xcorr16);
*a58d3d2aSXin Li         if (MULT16_32_Q15(num,best_den[1]) > MULT16_32_Q15(best_num[1],Syy))
*a58d3d2aSXin Li         {
*a58d3d2aSXin Li            if (MULT16_32_Q15(num,best_den[0]) > MULT16_32_Q15(best_num[0],Syy))
*a58d3d2aSXin Li            {
*a58d3d2aSXin Li               best_num[1] = best_num[0];
*a58d3d2aSXin Li               best_den[1] = best_den[0];
*a58d3d2aSXin Li               best_pitch[1] = best_pitch[0];
*a58d3d2aSXin Li               best_num[0] = num;
*a58d3d2aSXin Li               best_den[0] = Syy;
*a58d3d2aSXin Li               best_pitch[0] = i;
*a58d3d2aSXin Li            } else {
*a58d3d2aSXin Li               best_num[1] = num;
*a58d3d2aSXin Li               best_den[1] = Syy;
*a58d3d2aSXin Li               best_pitch[1] = i;
*a58d3d2aSXin Li            }
*a58d3d2aSXin Li         }
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li      Syy += SHR32(MULT16_16(y[i+len],y[i+len]),yshift) - SHR32(MULT16_16(y[i],y[i]),yshift);
*a58d3d2aSXin Li      Syy = MAX32(1, Syy);
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic void celt_fir5(opus_val16 *x,
*a58d3d2aSXin Li         const opus_val16 *num,
*a58d3d2aSXin Li         int N)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i;
*a58d3d2aSXin Li   opus_val16 num0, num1, num2, num3, num4;
*a58d3d2aSXin Li   opus_val32 mem0, mem1, mem2, mem3, mem4;
*a58d3d2aSXin Li   num0=num[0];
*a58d3d2aSXin Li   num1=num[1];
*a58d3d2aSXin Li   num2=num[2];
*a58d3d2aSXin Li   num3=num[3];
*a58d3d2aSXin Li   num4=num[4];
*a58d3d2aSXin Li   mem0=0;
*a58d3d2aSXin Li   mem1=0;
*a58d3d2aSXin Li   mem2=0;
*a58d3d2aSXin Li   mem3=0;
*a58d3d2aSXin Li   mem4=0;
*a58d3d2aSXin Li   for (i=0;i<N;i++)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      opus_val32 sum = SHL32(EXTEND32(x[i]), SIG_SHIFT);
*a58d3d2aSXin Li      sum = MAC16_16(sum,num0,mem0);
*a58d3d2aSXin Li      sum = MAC16_16(sum,num1,mem1);
*a58d3d2aSXin Li      sum = MAC16_16(sum,num2,mem2);
*a58d3d2aSXin Li      sum = MAC16_16(sum,num3,mem3);
*a58d3d2aSXin Li      sum = MAC16_16(sum,num4,mem4);
*a58d3d2aSXin Li      mem4 = mem3;
*a58d3d2aSXin Li      mem3 = mem2;
*a58d3d2aSXin Li      mem2 = mem1;
*a58d3d2aSXin Li      mem1 = mem0;
*a58d3d2aSXin Li      mem0 = x[i];
*a58d3d2aSXin Li      x[i] = ROUND16(sum, SIG_SHIFT);
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid pitch_downsample(celt_sig * OPUS_RESTRICT x[], opus_val16 * OPUS_RESTRICT x_lp,
*a58d3d2aSXin Li      int len, int C, int arch)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i;
*a58d3d2aSXin Li   opus_val32 ac[5];
*a58d3d2aSXin Li   opus_val16 tmp=Q15ONE;
*a58d3d2aSXin Li   opus_val16 lpc[4];
*a58d3d2aSXin Li   opus_val16 lpc2[5];
*a58d3d2aSXin Li   opus_val16 c1 = QCONST16(.8f,15);
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li   int shift;
*a58d3d2aSXin Li   opus_val32 maxabs = celt_maxabs32(x[0], len);
*a58d3d2aSXin Li   if (C==2)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      opus_val32 maxabs_1 = celt_maxabs32(x[1], len);
*a58d3d2aSXin Li      maxabs = MAX32(maxabs, maxabs_1);
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   if (maxabs<1)
*a58d3d2aSXin Li      maxabs=1;
*a58d3d2aSXin Li   shift = celt_ilog2(maxabs)-10;
*a58d3d2aSXin Li   if (shift<0)
*a58d3d2aSXin Li      shift=0;
*a58d3d2aSXin Li   if (C==2)
*a58d3d2aSXin Li      shift++;
*a58d3d2aSXin Li   for (i=1;i<len>>1;i++)
*a58d3d2aSXin Li      x_lp[i] = SHR32(x[0][(2*i-1)], shift+2) + SHR32(x[0][(2*i+1)], shift+2) + SHR32(x[0][2*i], shift+1);
*a58d3d2aSXin Li   x_lp[0] = SHR32(x[0][1], shift+2) + SHR32(x[0][0], shift+1);
*a58d3d2aSXin Li   if (C==2)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      for (i=1;i<len>>1;i++)
*a58d3d2aSXin Li         x_lp[i] += SHR32(x[1][(2*i-1)], shift+2) + SHR32(x[1][(2*i+1)], shift+2) + SHR32(x[1][2*i], shift+1);
*a58d3d2aSXin Li      x_lp[0] += SHR32(x[1][1], shift+2) + SHR32(x[1][0], shift+1);
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li#else
*a58d3d2aSXin Li   for (i=1;i<len>>1;i++)
*a58d3d2aSXin Li      x_lp[i] = .25f*x[0][(2*i-1)] + .25f*x[0][(2*i+1)] + .5f*x[0][2*i];
*a58d3d2aSXin Li   x_lp[0] = .25f*x[0][1] + .5f*x[0][0];
*a58d3d2aSXin Li   if (C==2)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      for (i=1;i<len>>1;i++)
*a58d3d2aSXin Li         x_lp[i] += .25f*x[1][(2*i-1)] + .25f*x[1][(2*i+1)] + .5f*x[1][2*i];
*a58d3d2aSXin Li      x_lp[0] += .25f*x[1][1] + .5f*x[1][0];
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   _celt_autocorr(x_lp, ac, NULL, 0,
*a58d3d2aSXin Li                  4, len>>1, arch);
*a58d3d2aSXin Li
*a58d3d2aSXin Li   /* Noise floor -40 dB */
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li   ac[0] += SHR32(ac[0],13);
*a58d3d2aSXin Li#else
*a58d3d2aSXin Li   ac[0] *= 1.0001f;
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   /* Lag windowing */
*a58d3d2aSXin Li   for (i=1;i<=4;i++)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      /*ac[i] *= exp(-.5*(2*M_PI*.002*i)*(2*M_PI*.002*i));*/
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li      ac[i] -= MULT16_32_Q15(2*i*i, ac[i]);
*a58d3d2aSXin Li#else
*a58d3d2aSXin Li      ac[i] -= ac[i]*(.008f*i)*(.008f*i);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li
*a58d3d2aSXin Li   _celt_lpc(lpc, ac, 4);
*a58d3d2aSXin Li   for (i=0;i<4;i++)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      tmp = MULT16_16_Q15(QCONST16(.9f,15), tmp);
*a58d3d2aSXin Li      lpc[i] = MULT16_16_Q15(lpc[i], tmp);
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   /* Add a zero */
*a58d3d2aSXin Li   lpc2[0] = lpc[0] + QCONST16(.8f,SIG_SHIFT);
*a58d3d2aSXin Li   lpc2[1] = lpc[1] + MULT16_16_Q15(c1,lpc[0]);
*a58d3d2aSXin Li   lpc2[2] = lpc[2] + MULT16_16_Q15(c1,lpc[1]);
*a58d3d2aSXin Li   lpc2[3] = lpc[3] + MULT16_16_Q15(c1,lpc[2]);
*a58d3d2aSXin Li   lpc2[4] = MULT16_16_Q15(c1,lpc[3]);
*a58d3d2aSXin Li   celt_fir5(x_lp, lpc2, len>>1);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li/* Pure C implementation. */
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Liopus_val32
*a58d3d2aSXin Li#else
*a58d3d2aSXin Livoid
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Licelt_pitch_xcorr_c(const opus_val16 *_x, const opus_val16 *_y,
*a58d3d2aSXin Li      opus_val32 *xcorr, int len, int max_pitch, int arch)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li
*a58d3d2aSXin Li#if 0 /* This is a simple version of the pitch correlation that should work
*a58d3d2aSXin Li         well on DSPs like Blackfin and TI C5x/C6x */
*a58d3d2aSXin Li   int i, j;
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li   opus_val32 maxcorr=1;
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li#if !defined(OVERRIDE_PITCH_XCORR)
*a58d3d2aSXin Li   (void)arch;
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   for (i=0;i<max_pitch;i++)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      opus_val32 sum = 0;
*a58d3d2aSXin Li      for (j=0;j<len;j++)
*a58d3d2aSXin Li         sum = MAC16_16(sum, _x[j], _y[i+j]);
*a58d3d2aSXin Li      xcorr[i] = sum;
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li      maxcorr = MAX32(maxcorr, sum);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li   return maxcorr;
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li#else /* Unrolled version of the pitch correlation -- runs faster on x86 and ARM */
*a58d3d2aSXin Li   int i;
*a58d3d2aSXin Li   /*The EDSP version requires that max_pitch is at least 1, and that _x is
*a58d3d2aSXin Li      32-bit aligned.
*a58d3d2aSXin Li     Since it's hard to put asserts in assembly, put them here.*/
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li   opus_val32 maxcorr=1;
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   celt_assert(max_pitch>0);
*a58d3d2aSXin Li   celt_sig_assert(((size_t)_x&3)==0);
*a58d3d2aSXin Li   for (i=0;i<max_pitch-3;i+=4)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      opus_val32 sum[4]={0,0,0,0};
*a58d3d2aSXin Li#if defined(OPUS_CHECK_ASM) && defined(FIXED_POINT)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         opus_val32 sum_c[4]={0,0,0,0};
*a58d3d2aSXin Li         xcorr_kernel_c(_x, _y+i, sum_c, len);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li         xcorr_kernel(_x, _y+i, sum, len, arch);
*a58d3d2aSXin Li#if defined(OPUS_CHECK_ASM) && defined(FIXED_POINT)
*a58d3d2aSXin Li         celt_assert(memcmp(sum, sum_c, sizeof(sum)) == 0);
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li      xcorr[i]=sum[0];
*a58d3d2aSXin Li      xcorr[i+1]=sum[1];
*a58d3d2aSXin Li      xcorr[i+2]=sum[2];
*a58d3d2aSXin Li      xcorr[i+3]=sum[3];
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li      sum[0] = MAX32(sum[0], sum[1]);
*a58d3d2aSXin Li      sum[2] = MAX32(sum[2], sum[3]);
*a58d3d2aSXin Li      sum[0] = MAX32(sum[0], sum[2]);
*a58d3d2aSXin Li      maxcorr = MAX32(maxcorr, sum[0]);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   /* In case max_pitch isn't a multiple of 4, do non-unrolled version. */
*a58d3d2aSXin Li   for (;i<max_pitch;i++)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      opus_val32 sum;
*a58d3d2aSXin Li      sum = celt_inner_prod(_x, _y+i, len, arch);
*a58d3d2aSXin Li      xcorr[i] = sum;
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li      maxcorr = MAX32(maxcorr, sum);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li   return maxcorr;
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid pitch_search(const opus_val16 * OPUS_RESTRICT x_lp, opus_val16 * OPUS_RESTRICT y,
*a58d3d2aSXin Li                  int len, int max_pitch, int *pitch, int arch)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i, j;
*a58d3d2aSXin Li   int lag;
*a58d3d2aSXin Li   int best_pitch[2]={0,0};
*a58d3d2aSXin Li   VARDECL(opus_val16, x_lp4);
*a58d3d2aSXin Li   VARDECL(opus_val16, y_lp4);
*a58d3d2aSXin Li   VARDECL(opus_val32, xcorr);
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li   opus_val32 maxcorr;
*a58d3d2aSXin Li   opus_val32 xmax, ymax;
*a58d3d2aSXin Li   int shift=0;
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   int offset;
*a58d3d2aSXin Li
*a58d3d2aSXin Li   SAVE_STACK;
*a58d3d2aSXin Li
*a58d3d2aSXin Li   celt_assert(len>0);
*a58d3d2aSXin Li   celt_assert(max_pitch>0);
*a58d3d2aSXin Li   lag = len+max_pitch;
*a58d3d2aSXin Li
*a58d3d2aSXin Li   ALLOC(x_lp4, len>>2, opus_val16);
*a58d3d2aSXin Li   ALLOC(y_lp4, lag>>2, opus_val16);
*a58d3d2aSXin Li   ALLOC(xcorr, max_pitch>>1, opus_val32);
*a58d3d2aSXin Li
*a58d3d2aSXin Li   /* Downsample by 2 again */
*a58d3d2aSXin Li   for (j=0;j<len>>2;j++)
*a58d3d2aSXin Li      x_lp4[j] = x_lp[2*j];
*a58d3d2aSXin Li   for (j=0;j<lag>>2;j++)
*a58d3d2aSXin Li      y_lp4[j] = y[2*j];
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li   xmax = celt_maxabs16(x_lp4, len>>2);
*a58d3d2aSXin Li   ymax = celt_maxabs16(y_lp4, lag>>2);
*a58d3d2aSXin Li   shift = celt_ilog2(MAX32(1, MAX32(xmax, ymax)))-11;
*a58d3d2aSXin Li   if (shift>0)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      for (j=0;j<len>>2;j++)
*a58d3d2aSXin Li         x_lp4[j] = SHR16(x_lp4[j], shift);
*a58d3d2aSXin Li      for (j=0;j<lag>>2;j++)
*a58d3d2aSXin Li         y_lp4[j] = SHR16(y_lp4[j], shift);
*a58d3d2aSXin Li      /* Use double the shift for a MAC */
*a58d3d2aSXin Li      shift *= 2;
*a58d3d2aSXin Li   } else {
*a58d3d2aSXin Li      shift = 0;
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li   /* Coarse search with 4x decimation */
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li   maxcorr =
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   celt_pitch_xcorr(x_lp4, y_lp4, xcorr, len>>2, max_pitch>>2, arch);
*a58d3d2aSXin Li
*a58d3d2aSXin Li   find_best_pitch(xcorr, y_lp4, len>>2, max_pitch>>2, best_pitch
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li                   , 0, maxcorr
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li                   );
*a58d3d2aSXin Li
*a58d3d2aSXin Li   /* Finer search with 2x decimation */
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li   maxcorr=1;
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   for (i=0;i<max_pitch>>1;i++)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      opus_val32 sum;
*a58d3d2aSXin Li      xcorr[i] = 0;
*a58d3d2aSXin Li      if (abs(i-2*best_pitch[0])>2 && abs(i-2*best_pitch[1])>2)
*a58d3d2aSXin Li         continue;
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li      sum = 0;
*a58d3d2aSXin Li      for (j=0;j<len>>1;j++)
*a58d3d2aSXin Li         sum += SHR32(MULT16_16(x_lp[j],y[i+j]), shift);
*a58d3d2aSXin Li#else
*a58d3d2aSXin Li      sum = celt_inner_prod(x_lp, y+i, len>>1, arch);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li      xcorr[i] = MAX32(-1, sum);
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li      maxcorr = MAX32(maxcorr, sum);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   find_best_pitch(xcorr, y, len>>1, max_pitch>>1, best_pitch
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Li                   , shift+1, maxcorr
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li                   );
*a58d3d2aSXin Li
*a58d3d2aSXin Li   /* Refine by pseudo-interpolation */
*a58d3d2aSXin Li   if (best_pitch[0]>0 && best_pitch[0]<(max_pitch>>1)-1)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      opus_val32 a, b, c;
*a58d3d2aSXin Li      a = xcorr[best_pitch[0]-1];
*a58d3d2aSXin Li      b = xcorr[best_pitch[0]];
*a58d3d2aSXin Li      c = xcorr[best_pitch[0]+1];
*a58d3d2aSXin Li      if ((c-a) > MULT16_32_Q15(QCONST16(.7f,15),b-a))
*a58d3d2aSXin Li         offset = 1;
*a58d3d2aSXin Li      else if ((a-c) > MULT16_32_Q15(QCONST16(.7f,15),b-c))
*a58d3d2aSXin Li         offset = -1;
*a58d3d2aSXin Li      else
*a58d3d2aSXin Li         offset = 0;
*a58d3d2aSXin Li   } else {
*a58d3d2aSXin Li      offset = 0;
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   *pitch = 2*best_pitch[0]-offset;
*a58d3d2aSXin Li
*a58d3d2aSXin Li   RESTORE_STACK;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef FIXED_POINT
*a58d3d2aSXin Listatic opus_val16 compute_pitch_gain(opus_val32 xy, opus_val32 xx, opus_val32 yy)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   opus_val32 x2y2;
*a58d3d2aSXin Li   int sx, sy, shift;
*a58d3d2aSXin Li   opus_val32 g;
*a58d3d2aSXin Li   opus_val16 den;
*a58d3d2aSXin Li   if (xy == 0 || xx == 0 || yy == 0)
*a58d3d2aSXin Li      return 0;
*a58d3d2aSXin Li   sx = celt_ilog2(xx)-14;
*a58d3d2aSXin Li   sy = celt_ilog2(yy)-14;
*a58d3d2aSXin Li   shift = sx + sy;
*a58d3d2aSXin Li   x2y2 = SHR32(MULT16_16(VSHR32(xx, sx), VSHR32(yy, sy)), 14);
*a58d3d2aSXin Li   if (shift & 1) {
*a58d3d2aSXin Li      if (x2y2 < 32768)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         x2y2 <<= 1;
*a58d3d2aSXin Li         shift--;
*a58d3d2aSXin Li      } else {
*a58d3d2aSXin Li         x2y2 >>= 1;
*a58d3d2aSXin Li         shift++;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   den = celt_rsqrt_norm(x2y2);
*a58d3d2aSXin Li   g = MULT16_32_Q15(den, xy);
*a58d3d2aSXin Li   g = VSHR32(g, (shift>>1)-1);
*a58d3d2aSXin Li   return EXTRACT16(MIN32(g, Q15ONE));
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#else
*a58d3d2aSXin Listatic opus_val16 compute_pitch_gain(opus_val32 xy, opus_val32 xx, opus_val32 yy)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   return xy/celt_sqrt(1+xx*yy);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic const int second_check[16] = {0, 0, 3, 2, 3, 2, 5, 2, 3, 2, 3, 2, 5, 2, 3, 2};
*a58d3d2aSXin Liopus_val16 remove_doubling(opus_val16 *x, int maxperiod, int minperiod,
*a58d3d2aSXin Li      int N, int *T0_, int prev_period, opus_val16 prev_gain, int arch)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int k, i, T, T0;
*a58d3d2aSXin Li   opus_val16 g, g0;
*a58d3d2aSXin Li   opus_val16 pg;
*a58d3d2aSXin Li   opus_val32 xy,xx,yy,xy2;
*a58d3d2aSXin Li   opus_val32 xcorr[3];
*a58d3d2aSXin Li   opus_val32 best_xy, best_yy;
*a58d3d2aSXin Li   int offset;
*a58d3d2aSXin Li   int minperiod0;
*a58d3d2aSXin Li   VARDECL(opus_val32, yy_lookup);
*a58d3d2aSXin Li   SAVE_STACK;
*a58d3d2aSXin Li
*a58d3d2aSXin Li   minperiod0 = minperiod;
*a58d3d2aSXin Li   maxperiod /= 2;
*a58d3d2aSXin Li   minperiod /= 2;
*a58d3d2aSXin Li   *T0_ /= 2;
*a58d3d2aSXin Li   prev_period /= 2;
*a58d3d2aSXin Li   N /= 2;
*a58d3d2aSXin Li   x += maxperiod;
*a58d3d2aSXin Li   if (*T0_>=maxperiod)
*a58d3d2aSXin Li      *T0_=maxperiod-1;
*a58d3d2aSXin Li
*a58d3d2aSXin Li   T = T0 = *T0_;
*a58d3d2aSXin Li   ALLOC(yy_lookup, maxperiod+1, opus_val32);
*a58d3d2aSXin Li   dual_inner_prod(x, x, x-T0, N, &xx, &xy, arch);
*a58d3d2aSXin Li   yy_lookup[0] = xx;
*a58d3d2aSXin Li   yy=xx;
*a58d3d2aSXin Li   for (i=1;i<=maxperiod;i++)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      yy = yy+MULT16_16(x[-i],x[-i])-MULT16_16(x[N-i],x[N-i]);
*a58d3d2aSXin Li      yy_lookup[i] = MAX32(0, yy);
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   yy = yy_lookup[T0];
*a58d3d2aSXin Li   best_xy = xy;
*a58d3d2aSXin Li   best_yy = yy;
*a58d3d2aSXin Li   g = g0 = compute_pitch_gain(xy, xx, yy);
*a58d3d2aSXin Li   /* Look for any pitch at T/k */
*a58d3d2aSXin Li   for (k=2;k<=15;k++)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      int T1, T1b;
*a58d3d2aSXin Li      opus_val16 g1;
*a58d3d2aSXin Li      opus_val16 cont=0;
*a58d3d2aSXin Li      opus_val16 thresh;
*a58d3d2aSXin Li      T1 = celt_udiv(2*T0+k, 2*k);
*a58d3d2aSXin Li      if (T1 < minperiod)
*a58d3d2aSXin Li         break;
*a58d3d2aSXin Li      /* Look for another strong correlation at T1b */
*a58d3d2aSXin Li      if (k==2)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         if (T1+T0>maxperiod)
*a58d3d2aSXin Li            T1b = T0;
*a58d3d2aSXin Li         else
*a58d3d2aSXin Li            T1b = T0+T1;
*a58d3d2aSXin Li      } else
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         T1b = celt_udiv(2*second_check[k]*T0+k, 2*k);
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li      dual_inner_prod(x, &x[-T1], &x[-T1b], N, &xy, &xy2, arch);
*a58d3d2aSXin Li      xy = HALF32(xy + xy2);
*a58d3d2aSXin Li      yy = HALF32(yy_lookup[T1] + yy_lookup[T1b]);
*a58d3d2aSXin Li      g1 = compute_pitch_gain(xy, xx, yy);
*a58d3d2aSXin Li      if (abs(T1-prev_period)<=1)
*a58d3d2aSXin Li         cont = prev_gain;
*a58d3d2aSXin Li      else if (abs(T1-prev_period)<=2 && 5*k*k < T0)
*a58d3d2aSXin Li         cont = HALF16(prev_gain);
*a58d3d2aSXin Li      else
*a58d3d2aSXin Li         cont = 0;
*a58d3d2aSXin Li      thresh = MAX16(QCONST16(.3f,15), MULT16_16_Q15(QCONST16(.7f,15),g0)-cont);
*a58d3d2aSXin Li      /* Bias against very high pitch (very short period) to avoid false-positives
*a58d3d2aSXin Li         due to short-term correlation */
*a58d3d2aSXin Li      if (T1<3*minperiod)
*a58d3d2aSXin Li         thresh = MAX16(QCONST16(.4f,15), MULT16_16_Q15(QCONST16(.85f,15),g0)-cont);
*a58d3d2aSXin Li      else if (T1<2*minperiod)
*a58d3d2aSXin Li         thresh = MAX16(QCONST16(.5f,15), MULT16_16_Q15(QCONST16(.9f,15),g0)-cont);
*a58d3d2aSXin Li      if (g1 > thresh)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         best_xy = xy;
*a58d3d2aSXin Li         best_yy = yy;
*a58d3d2aSXin Li         T = T1;
*a58d3d2aSXin Li         g = g1;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   best_xy = MAX32(0, best_xy);
*a58d3d2aSXin Li   if (best_yy <= best_xy)
*a58d3d2aSXin Li      pg = Q15ONE;
*a58d3d2aSXin Li   else
*a58d3d2aSXin Li      pg = SHR32(frac_div32(best_xy,best_yy+1),16);
*a58d3d2aSXin Li
*a58d3d2aSXin Li   for (k=0;k<3;k++)
*a58d3d2aSXin Li      xcorr[k] = celt_inner_prod(x, x-(T+k-1), N, arch);
*a58d3d2aSXin Li   if ((xcorr[2]-xcorr[0]) > MULT16_32_Q15(QCONST16(.7f,15),xcorr[1]-xcorr[0]))
*a58d3d2aSXin Li      offset = 1;
*a58d3d2aSXin Li   else if ((xcorr[0]-xcorr[2]) > MULT16_32_Q15(QCONST16(.7f,15),xcorr[1]-xcorr[2]))
*a58d3d2aSXin Li      offset = -1;
*a58d3d2aSXin Li   else
*a58d3d2aSXin Li      offset = 0;
*a58d3d2aSXin Li   if (pg > g)
*a58d3d2aSXin Li      pg = g;
*a58d3d2aSXin Li   *T0_ = 2*T+offset;
*a58d3d2aSXin Li
*a58d3d2aSXin Li   if (*T0_<minperiod0)
*a58d3d2aSXin Li      *T0_=minperiod0;
*a58d3d2aSXin Li   RESTORE_STACK;
*a58d3d2aSXin Li   return pg;
*a58d3d2aSXin Li}