libopus/dnn/freq.c

*a58d3d2aSXin Li/* Copyright (c) 2017-2018 Mozilla */
*a58d3d2aSXin Li/*
*a58d3d2aSXin Li   Redistribution and use in source and binary forms, with or without
*a58d3d2aSXin Li   modification, are permitted provided that the following conditions
*a58d3d2aSXin Li   are met:
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions of source code must retain the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions in binary form must reproduce the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer in the
*a58d3d2aSXin Li   documentation and/or other materials provided with the distribution.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
*a58d3d2aSXin Li   ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
*a58d3d2aSXin Li   LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
*a58d3d2aSXin Li   A PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE FOUNDATION OR
*a58d3d2aSXin Li   CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
*a58d3d2aSXin Li   EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
*a58d3d2aSXin Li   PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
*a58d3d2aSXin Li   PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
*a58d3d2aSXin Li   LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
*a58d3d2aSXin Li   NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
*a58d3d2aSXin Li   SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
*a58d3d2aSXin Li*/
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef HAVE_CONFIG_H
*a58d3d2aSXin Li#include "config.h"
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li#include <stdlib.h>
*a58d3d2aSXin Li#include <string.h>
*a58d3d2aSXin Li#include <stdio.h>
*a58d3d2aSXin Li#include "kiss_fft.h"
*a58d3d2aSXin Li#include <math.h>
*a58d3d2aSXin Li#include "freq.h"
*a58d3d2aSXin Li#include "pitch.h"
*a58d3d2aSXin Li#include "arch.h"
*a58d3d2aSXin Li#include "burg.h"
*a58d3d2aSXin Li#include <assert.h>
*a58d3d2aSXin Li#include "os_support.h"
*a58d3d2aSXin Li
*a58d3d2aSXin Li#define SQUARE(x) ((x)*(x))
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic const opus_int16 eband5ms[] = {
*a58d3d2aSXin Li/*0  200 400 600 800  1k 1.2 1.4 1.6  2k 2.4 2.8 3.2  4k 4.8 5.6 6.8  8k*/
*a58d3d2aSXin Li  0,  1,  2,  3,  4,  5,  6,  7,  8, 10, 12, 14, 16, 20, 24, 28, 34, 40
*a58d3d2aSXin Li};
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic const float compensation[] = {
*a58d3d2aSXin Li    0.8f, 1.f, 1.f, 1.f, 1.f, 1.f, 1.f, 1.f, 0.666667f, 0.5f, 0.5f, 0.5f, 0.333333f, 0.25f, 0.25f, 0.2f, 0.166667f, 0.173913f
*a58d3d2aSXin Li};
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Liextern const kiss_fft_state kfft;
*a58d3d2aSXin Liextern const float half_window[OVERLAP_SIZE];
*a58d3d2aSXin Liextern const float dct_table[NB_BANDS*NB_BANDS];
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic void compute_band_energy_inverse(float *bandE, const kiss_fft_cpx *X) {
*a58d3d2aSXin Li  int i;
*a58d3d2aSXin Li  float sum[NB_BANDS] = {0};
*a58d3d2aSXin Li  for (i=0;i<NB_BANDS-1;i++)
*a58d3d2aSXin Li  {
*a58d3d2aSXin Li    int j;
*a58d3d2aSXin Li    int band_size;
*a58d3d2aSXin Li    band_size = (eband5ms[i+1]-eband5ms[i])*WINDOW_SIZE_5MS;
*a58d3d2aSXin Li    for (j=0;j<band_size;j++) {
*a58d3d2aSXin Li      float tmp;
*a58d3d2aSXin Li      float frac = (float)j/band_size;
*a58d3d2aSXin Li      tmp = SQUARE(X[(eband5ms[i]*WINDOW_SIZE_5MS) + j].r);
*a58d3d2aSXin Li      tmp += SQUARE(X[(eband5ms[i]*WINDOW_SIZE_5MS) + j].i);
*a58d3d2aSXin Li      tmp = 1.f/(tmp + 1e-9);
*a58d3d2aSXin Li      sum[i] += (1-frac)*tmp;
*a58d3d2aSXin Li      sum[i+1] += frac*tmp;
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li  sum[0] *= 2;
*a58d3d2aSXin Li  sum[NB_BANDS-1] *= 2;
*a58d3d2aSXin Li  for (i=0;i<NB_BANDS;i++)
*a58d3d2aSXin Li  {
*a58d3d2aSXin Li    bandE[i] = sum[i];
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic float lpcn_lpc(
*a58d3d2aSXin Li      opus_val16 *lpc, /* out: [0...p-1] LPC coefficients      */
*a58d3d2aSXin Li      opus_val16 *rc,
*a58d3d2aSXin Liconst opus_val32 *ac,  /* in:  [0...p] autocorrelation values  */
*a58d3d2aSXin Liint          p
*a58d3d2aSXin Li)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i, j;
*a58d3d2aSXin Li   opus_val32 r;
*a58d3d2aSXin Li   opus_val32 error = ac[0];
*a58d3d2aSXin Li
*a58d3d2aSXin Li   OPUS_CLEAR(lpc, p);
*a58d3d2aSXin Li   OPUS_CLEAR(rc, p);
*a58d3d2aSXin Li   if (ac[0] != 0)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      for (i = 0; i < p; i++) {
*a58d3d2aSXin Li         /* Sum up this iteration's reflection coefficient */
*a58d3d2aSXin Li         opus_val32 rr = 0;
*a58d3d2aSXin Li         for (j = 0; j < i; j++)
*a58d3d2aSXin Li            rr += MULT32_32_Q31(lpc[j],ac[i - j]);
*a58d3d2aSXin Li         rr += SHR32(ac[i + 1],3);
*a58d3d2aSXin Li         r = -SHL32(rr,3)/error;
*a58d3d2aSXin Li         rc[i] = r;
*a58d3d2aSXin Li         /*  Update LPC coefficients and total error */
*a58d3d2aSXin Li         lpc[i] = SHR32(r,3);
*a58d3d2aSXin Li         for (j = 0; j < (i+1)>>1; j++)
*a58d3d2aSXin Li         {
*a58d3d2aSXin Li            opus_val32 tmp1, tmp2;
*a58d3d2aSXin Li            tmp1 = lpc[j];
*a58d3d2aSXin Li            tmp2 = lpc[i-1-j];
*a58d3d2aSXin Li            lpc[j]     = tmp1 + MULT32_32_Q31(r,tmp2);
*a58d3d2aSXin Li            lpc[i-1-j] = tmp2 + MULT32_32_Q31(r,tmp1);
*a58d3d2aSXin Li         }
*a58d3d2aSXin Li
*a58d3d2aSXin Li         error = error - MULT32_32_Q31(MULT32_32_Q31(r,r),error);
*a58d3d2aSXin Li         /* Bail out once we get 30 dB gain */
*a58d3d2aSXin Li         if (error<.001f*ac[0])
*a58d3d2aSXin Li            break;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   return error;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid lpcn_compute_band_energy(float *bandE, const kiss_fft_cpx *X) {
*a58d3d2aSXin Li  int i;
*a58d3d2aSXin Li  float sum[NB_BANDS] = {0};
*a58d3d2aSXin Li  for (i=0;i<NB_BANDS-1;i++)
*a58d3d2aSXin Li  {
*a58d3d2aSXin Li    int j;
*a58d3d2aSXin Li    int band_size;
*a58d3d2aSXin Li    band_size = (eband5ms[i+1]-eband5ms[i])*WINDOW_SIZE_5MS;
*a58d3d2aSXin Li    for (j=0;j<band_size;j++) {
*a58d3d2aSXin Li      float tmp;
*a58d3d2aSXin Li      float frac = (float)j/band_size;
*a58d3d2aSXin Li      tmp = SQUARE(X[(eband5ms[i]*WINDOW_SIZE_5MS) + j].r);
*a58d3d2aSXin Li      tmp += SQUARE(X[(eband5ms[i]*WINDOW_SIZE_5MS) + j].i);
*a58d3d2aSXin Li      sum[i] += (1-frac)*tmp;
*a58d3d2aSXin Li      sum[i+1] += frac*tmp;
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li  sum[0] *= 2;
*a58d3d2aSXin Li  sum[NB_BANDS-1] *= 2;
*a58d3d2aSXin Li  for (i=0;i<NB_BANDS;i++)
*a58d3d2aSXin Li  {
*a58d3d2aSXin Li    bandE[i] = sum[i];
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic void compute_burg_cepstrum(const float *pcm, float *burg_cepstrum, int len, int order) {
*a58d3d2aSXin Li  int i;
*a58d3d2aSXin Li  float burg_in[FRAME_SIZE];
*a58d3d2aSXin Li  float burg_lpc[LPC_ORDER];
*a58d3d2aSXin Li  float x[WINDOW_SIZE];
*a58d3d2aSXin Li  float Eburg[NB_BANDS];
*a58d3d2aSXin Li  float g;
*a58d3d2aSXin Li  kiss_fft_cpx LPC[FREQ_SIZE];
*a58d3d2aSXin Li  float Ly[NB_BANDS];
*a58d3d2aSXin Li  float logMax = -2;
*a58d3d2aSXin Li  float follow = -2;
*a58d3d2aSXin Li  assert(order <= LPC_ORDER);
*a58d3d2aSXin Li  assert(len <= FRAME_SIZE);
*a58d3d2aSXin Li  for (i=0;i<len-1;i++) burg_in[i] = pcm[i+1] - PREEMPHASIS*pcm[i];
*a58d3d2aSXin Li  g = silk_burg_analysis(burg_lpc, burg_in, 1e-3, len-1, 1, order);
*a58d3d2aSXin Li  g /= len - 2*(order-1);
*a58d3d2aSXin Li  OPUS_CLEAR(x, WINDOW_SIZE);
*a58d3d2aSXin Li  x[0] = 1;
*a58d3d2aSXin Li  for (i=0;i<order;i++) x[i+1] = -burg_lpc[i]*pow(.995, i+1);
*a58d3d2aSXin Li  forward_transform(LPC, x);
*a58d3d2aSXin Li  compute_band_energy_inverse(Eburg, LPC);
*a58d3d2aSXin Li  for (i=0;i<NB_BANDS;i++) Eburg[i] *= .45*g*(1.f/((float)WINDOW_SIZE*WINDOW_SIZE*WINDOW_SIZE));
*a58d3d2aSXin Li  for (i=0;i<NB_BANDS;i++) {
*a58d3d2aSXin Li    Ly[i] = log10(1e-2+Eburg[i]);
*a58d3d2aSXin Li    Ly[i] = MAX16(logMax-8, MAX16(follow-2.5, Ly[i]));
*a58d3d2aSXin Li    logMax = MAX16(logMax, Ly[i]);
*a58d3d2aSXin Li    follow = MAX16(follow-2.5, Ly[i]);
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li  dct(burg_cepstrum, Ly);
*a58d3d2aSXin Li  burg_cepstrum[0] += - 4;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid burg_cepstral_analysis(float *ceps, const float *x) {
*a58d3d2aSXin Li  int i;
*a58d3d2aSXin Li  compute_burg_cepstrum(x,                &ceps[0       ], FRAME_SIZE/2, LPC_ORDER);
*a58d3d2aSXin Li  compute_burg_cepstrum(&x[FRAME_SIZE/2], &ceps[NB_BANDS], FRAME_SIZE/2, LPC_ORDER);
*a58d3d2aSXin Li  for (i=0;i<NB_BANDS;i++) {
*a58d3d2aSXin Li    float c0, c1;
*a58d3d2aSXin Li    c0 = ceps[i];
*a58d3d2aSXin Li    c1 = ceps[NB_BANDS+i];
*a58d3d2aSXin Li    ceps[i         ] = .5*(c0+c1);
*a58d3d2aSXin Li    ceps[NB_BANDS+i] = (c0-c1);
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic void interp_band_gain(float *g, const float *bandE) {
*a58d3d2aSXin Li  int i;
*a58d3d2aSXin Li  memset(g, 0, FREQ_SIZE);
*a58d3d2aSXin Li  for (i=0;i<NB_BANDS-1;i++)
*a58d3d2aSXin Li  {
*a58d3d2aSXin Li    int j;
*a58d3d2aSXin Li    int band_size;
*a58d3d2aSXin Li    band_size = (eband5ms[i+1]-eband5ms[i])*WINDOW_SIZE_5MS;
*a58d3d2aSXin Li    for (j=0;j<band_size;j++) {
*a58d3d2aSXin Li      float frac = (float)j/band_size;
*a58d3d2aSXin Li      g[(eband5ms[i]*WINDOW_SIZE_5MS) + j] = (1-frac)*bandE[i] + frac*bandE[i+1];
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid dct(float *out, const float *in) {
*a58d3d2aSXin Li  int i;
*a58d3d2aSXin Li  for (i=0;i<NB_BANDS;i++) {
*a58d3d2aSXin Li    int j;
*a58d3d2aSXin Li    float sum = 0;
*a58d3d2aSXin Li    for (j=0;j<NB_BANDS;j++) {
*a58d3d2aSXin Li      sum += in[j] * dct_table[j*NB_BANDS + i];
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    out[i] = sum*sqrt(2./NB_BANDS);
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic void idct(float *out, const float *in) {
*a58d3d2aSXin Li  int i;
*a58d3d2aSXin Li  for (i=0;i<NB_BANDS;i++) {
*a58d3d2aSXin Li    int j;
*a58d3d2aSXin Li    float sum = 0;
*a58d3d2aSXin Li    for (j=0;j<NB_BANDS;j++) {
*a58d3d2aSXin Li      sum += in[j] * dct_table[i*NB_BANDS + j];
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    out[i] = sum*sqrt(2./NB_BANDS);
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid forward_transform(kiss_fft_cpx *out, const float *in) {
*a58d3d2aSXin Li  int i;
*a58d3d2aSXin Li  kiss_fft_cpx x[WINDOW_SIZE];
*a58d3d2aSXin Li  kiss_fft_cpx y[WINDOW_SIZE];
*a58d3d2aSXin Li  for (i=0;i<WINDOW_SIZE;i++) {
*a58d3d2aSXin Li    x[i].r = in[i];
*a58d3d2aSXin Li    x[i].i = 0;
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li  opus_fft(&kfft, x, y, 0);
*a58d3d2aSXin Li  for (i=0;i<FREQ_SIZE;i++) {
*a58d3d2aSXin Li    out[i] = y[i];
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic void inverse_transform(float *out, const kiss_fft_cpx *in) {
*a58d3d2aSXin Li  int i;
*a58d3d2aSXin Li  kiss_fft_cpx x[WINDOW_SIZE];
*a58d3d2aSXin Li  kiss_fft_cpx y[WINDOW_SIZE];
*a58d3d2aSXin Li  for (i=0;i<FREQ_SIZE;i++) {
*a58d3d2aSXin Li    x[i] = in[i];
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li  for (;i<WINDOW_SIZE;i++) {
*a58d3d2aSXin Li    x[i].r = x[WINDOW_SIZE - i].r;
*a58d3d2aSXin Li    x[i].i = -x[WINDOW_SIZE - i].i;
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li  opus_fft(&kfft, x, y, 0);
*a58d3d2aSXin Li  /* output in reverse order for IFFT. */
*a58d3d2aSXin Li  out[0] = WINDOW_SIZE*y[0].r;
*a58d3d2aSXin Li  for (i=1;i<WINDOW_SIZE;i++) {
*a58d3d2aSXin Li    out[i] = WINDOW_SIZE*y[WINDOW_SIZE - i].r;
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic float lpc_from_bands(float *lpc, const float *Ex)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i;
*a58d3d2aSXin Li   float e;
*a58d3d2aSXin Li   float ac[LPC_ORDER+1];
*a58d3d2aSXin Li   float rc[LPC_ORDER];
*a58d3d2aSXin Li   float Xr[FREQ_SIZE];
*a58d3d2aSXin Li   kiss_fft_cpx X_auto[FREQ_SIZE];
*a58d3d2aSXin Li   float x_auto[WINDOW_SIZE];
*a58d3d2aSXin Li   interp_band_gain(Xr, Ex);
*a58d3d2aSXin Li   Xr[FREQ_SIZE-1] = 0;
*a58d3d2aSXin Li   OPUS_CLEAR(X_auto, FREQ_SIZE);
*a58d3d2aSXin Li   for (i=0;i<FREQ_SIZE;i++) X_auto[i].r = Xr[i];
*a58d3d2aSXin Li   inverse_transform(x_auto, X_auto);
*a58d3d2aSXin Li   for (i=0;i<LPC_ORDER+1;i++) ac[i] = x_auto[i];
*a58d3d2aSXin Li
*a58d3d2aSXin Li   /* -40 dB noise floor. */
*a58d3d2aSXin Li   ac[0] += ac[0]*1e-4 + 320/12/38.;
*a58d3d2aSXin Li   /* Lag windowing. */
*a58d3d2aSXin Li   for (i=1;i<LPC_ORDER+1;i++) ac[i] *= (1 - 6e-5*i*i);
*a58d3d2aSXin Li   e = lpcn_lpc(lpc, rc, ac, LPC_ORDER);
*a58d3d2aSXin Li   return e;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid lpc_weighting(float *lpc, float gamma)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li  int i;
*a58d3d2aSXin Li  float gamma_i = gamma;
*a58d3d2aSXin Li  for (i = 0; i < LPC_ORDER; i++)
*a58d3d2aSXin Li  {
*a58d3d2aSXin Li    lpc[i] *= gamma_i;
*a58d3d2aSXin Li    gamma_i *= gamma;
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Lifloat lpc_from_cepstrum(float *lpc, const float *cepstrum)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i;
*a58d3d2aSXin Li   float Ex[NB_BANDS];
*a58d3d2aSXin Li   float tmp[NB_BANDS];
*a58d3d2aSXin Li   OPUS_COPY(tmp, cepstrum, NB_BANDS);
*a58d3d2aSXin Li   tmp[0] += 4;
*a58d3d2aSXin Li   idct(Ex, tmp);
*a58d3d2aSXin Li   for (i=0;i<NB_BANDS;i++) Ex[i] = pow(10.f, Ex[i])*compensation[i];
*a58d3d2aSXin Li   return lpc_from_bands(lpc, Ex);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid apply_window(float *x) {
*a58d3d2aSXin Li  int i;
*a58d3d2aSXin Li  for (i=0;i<OVERLAP_SIZE;i++) {
*a58d3d2aSXin Li    x[i] *= half_window[i];
*a58d3d2aSXin Li    x[WINDOW_SIZE - 1 - i] *= half_window[i];
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li}