libopus/dnn/nndsp.c

*a58d3d2aSXin Li/* Copyright (c) 2023 Amazon
*a58d3d2aSXin Li   Written by Jan Buethe */
*a58d3d2aSXin Li/*
*a58d3d2aSXin Li   Redistribution and use in source and binary forms, with or without
*a58d3d2aSXin Li   modification, are permitted provided that the following conditions
*a58d3d2aSXin Li   are met:
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions of source code must retain the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions in binary form must reproduce the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer in the
*a58d3d2aSXin Li   documentation and/or other materials provided with the distribution.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
*a58d3d2aSXin Li   ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
*a58d3d2aSXin Li   LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
*a58d3d2aSXin Li   A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER
*a58d3d2aSXin Li   OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
*a58d3d2aSXin Li   EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
*a58d3d2aSXin Li   PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
*a58d3d2aSXin Li   PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
*a58d3d2aSXin Li   LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
*a58d3d2aSXin Li   NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
*a58d3d2aSXin Li   SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
*a58d3d2aSXin Li*/
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef HAVE_CONFIG_H
*a58d3d2aSXin Li#include "config.h"
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li#include "nndsp.h"
*a58d3d2aSXin Li#include "arch.h"
*a58d3d2aSXin Li#include "nnet.h"
*a58d3d2aSXin Li#include "os_support.h"
*a58d3d2aSXin Li#include "pitch.h"
*a58d3d2aSXin Li
*a58d3d2aSXin Li#include <math.h>
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifndef M_PI
*a58d3d2aSXin Li#define M_PI 3.141592653589793f
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li#define KERNEL_INDEX(i_out_channels, i_in_channels, i_kernel) ((((i_out_channels) * in_channels) + (i_in_channels)) * kernel_size + (i_kernel))
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid init_adaconv_state(AdaConvState *hAdaConv)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    OPUS_CLEAR(hAdaConv, 1);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid init_adacomb_state(AdaCombState *hAdaComb)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    OPUS_CLEAR(hAdaComb, 1);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid init_adashape_state(AdaShapeState *hAdaShape)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    OPUS_CLEAR(hAdaShape, 1);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid compute_overlap_window(float *window, int overlap_size)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    int i_sample;
*a58d3d2aSXin Li    for (i_sample=0; i_sample < overlap_size; i_sample++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        window[i_sample] = 0.5f + 0.5f * cos(M_PI * (i_sample + 0.5f) / overlap_size);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef DEBUG_NNDSP
*a58d3d2aSXin Livoid print_float_vector(const char* name, const float *vec, int length)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    for (int i = 0; i < length; i ++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        printf("%s[%d]: %f\n", name, i, vec[i]);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic void scale_kernel(
*a58d3d2aSXin Li    float *kernel,
*a58d3d2aSXin Li    int in_channels,
*a58d3d2aSXin Li    int out_channels,
*a58d3d2aSXin Li    int kernel_size,
*a58d3d2aSXin Li    float *gain
*a58d3d2aSXin Li)
*a58d3d2aSXin Li/* normalizes (p-norm) kernel over input channel and kernel dimension */
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    float norm;
*a58d3d2aSXin Li    int i_in_channels, i_out_channels, i_kernel;
*a58d3d2aSXin Li
*a58d3d2aSXin Li    for (i_out_channels = 0; i_out_channels < out_channels; i_out_channels++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        norm = 0;
*a58d3d2aSXin Li        for (i_in_channels = 0; i_in_channels < in_channels; i_in_channels ++)
*a58d3d2aSXin Li        {
*a58d3d2aSXin Li            for (i_kernel = 0; i_kernel < kernel_size; i_kernel++)
*a58d3d2aSXin Li            {
*a58d3d2aSXin Li                norm += kernel[KERNEL_INDEX(i_out_channels, i_in_channels, i_kernel)] * kernel[KERNEL_INDEX(i_out_channels, i_in_channels, i_kernel)];
*a58d3d2aSXin Li            }
*a58d3d2aSXin Li        }
*a58d3d2aSXin Li#ifdef DEBUG_NNDSP
*a58d3d2aSXin Li        printf("kernel norm: %f, %f\n", norm, sqrt(norm));
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li        norm = 1.f / (1e-6f + sqrt(norm));
*a58d3d2aSXin Li        for (i_in_channels = 0; i_in_channels < in_channels; i_in_channels++)
*a58d3d2aSXin Li        {
*a58d3d2aSXin Li            for (i_kernel = 0; i_kernel < kernel_size; i_kernel++)
*a58d3d2aSXin Li            {
*a58d3d2aSXin Li
*a58d3d2aSXin Li                kernel[KERNEL_INDEX(i_out_channels, i_in_channels, i_kernel)] *= norm * gain[i_out_channels];
*a58d3d2aSXin Li            }
*a58d3d2aSXin Li        }
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic void transform_gains(
*a58d3d2aSXin Li    float *gains,
*a58d3d2aSXin Li    int num_gains,
*a58d3d2aSXin Li    float filter_gain_a,
*a58d3d2aSXin Li    float filter_gain_b
*a58d3d2aSXin Li)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    int i;
*a58d3d2aSXin Li    for (i = 0; i < num_gains; i++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        gains[i] = exp(filter_gain_a * gains[i] + filter_gain_b);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid adaconv_process_frame(
*a58d3d2aSXin Li    AdaConvState* hAdaConv,
*a58d3d2aSXin Li    float *x_out,
*a58d3d2aSXin Li    const float *x_in,
*a58d3d2aSXin Li    const float *features,
*a58d3d2aSXin Li    const LinearLayer *kernel_layer,
*a58d3d2aSXin Li    const LinearLayer *gain_layer,
*a58d3d2aSXin Li    int feature_dim,
*a58d3d2aSXin Li    int frame_size,
*a58d3d2aSXin Li    int overlap_size,
*a58d3d2aSXin Li    int in_channels,
*a58d3d2aSXin Li    int out_channels,
*a58d3d2aSXin Li    int kernel_size,
*a58d3d2aSXin Li    int left_padding,
*a58d3d2aSXin Li    float filter_gain_a,
*a58d3d2aSXin Li    float filter_gain_b,
*a58d3d2aSXin Li    float shape_gain,
*a58d3d2aSXin Li    float *window,
*a58d3d2aSXin Li    int arch
*a58d3d2aSXin Li)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    float output_buffer[ADACONV_MAX_FRAME_SIZE * ADACONV_MAX_OUTPUT_CHANNELS];
*a58d3d2aSXin Li    float kernel_buffer[ADACONV_MAX_KERNEL_SIZE * ADACONV_MAX_INPUT_CHANNELS * ADACONV_MAX_OUTPUT_CHANNELS];
*a58d3d2aSXin Li    float input_buffer[ADACONV_MAX_INPUT_CHANNELS * (ADACONV_MAX_FRAME_SIZE + ADACONV_MAX_KERNEL_SIZE)];
*a58d3d2aSXin Li    float kernel0[ADACONV_MAX_KERNEL_SIZE];
*a58d3d2aSXin Li    float kernel1[ADACONV_MAX_KERNEL_SIZE];
*a58d3d2aSXin Li    float channel_buffer0[ADACONV_MAX_OVERLAP_SIZE];
*a58d3d2aSXin Li    float channel_buffer1[ADACONV_MAX_FRAME_SIZE];
*a58d3d2aSXin Li    float gain_buffer[ADACONV_MAX_OUTPUT_CHANNELS];
*a58d3d2aSXin Li    float *p_input;
*a58d3d2aSXin Li    int i_in_channels, i_out_channels, i_sample;
*a58d3d2aSXin Li
*a58d3d2aSXin Li    (void) feature_dim; /* ToDo: figure out whether we might need this information */
*a58d3d2aSXin Li
*a58d3d2aSXin Li    celt_assert(shape_gain == 1);
*a58d3d2aSXin Li    celt_assert(left_padding == kernel_size - 1); /* currently only supports causal version. Non-causal version not difficult to implement but will require third loop */
*a58d3d2aSXin Li    celt_assert(kernel_size < frame_size);
*a58d3d2aSXin Li
*a58d3d2aSXin Li    OPUS_CLEAR(output_buffer, ADACONV_MAX_FRAME_SIZE * ADACONV_MAX_OUTPUT_CHANNELS);
*a58d3d2aSXin Li    OPUS_CLEAR(kernel_buffer, ADACONV_MAX_KERNEL_SIZE * ADACONV_MAX_INPUT_CHANNELS * ADACONV_MAX_OUTPUT_CHANNELS);
*a58d3d2aSXin Li    OPUS_CLEAR(input_buffer, ADACONV_MAX_INPUT_CHANNELS * (ADACONV_MAX_FRAME_SIZE + ADACONV_MAX_KERNEL_SIZE));
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef DEBUG_NNDSP
*a58d3d2aSXin Li    print_float_vector("x_in", x_in, in_channels * frame_size);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li    /* prepare input */
*a58d3d2aSXin Li    for (i_in_channels=0; i_in_channels < in_channels; i_in_channels ++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        OPUS_COPY(input_buffer + i_in_channels * (kernel_size + frame_size), hAdaConv->history + i_in_channels * kernel_size, kernel_size);
*a58d3d2aSXin Li        OPUS_COPY(input_buffer + kernel_size + i_in_channels * (kernel_size + frame_size), x_in + frame_size * i_in_channels, frame_size);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    p_input = input_buffer + kernel_size;
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li    /* calculate new kernel and new gain */
*a58d3d2aSXin Li    compute_generic_dense(kernel_layer, kernel_buffer, features, ACTIVATION_LINEAR, arch);
*a58d3d2aSXin Li    compute_generic_dense(gain_layer, gain_buffer, features, ACTIVATION_TANH, arch);
*a58d3d2aSXin Li#ifdef DEBUG_NNDSP
*a58d3d2aSXin Li    print_float_vector("features", features, feature_dim);
*a58d3d2aSXin Li    print_float_vector("adaconv_kernel_raw", kernel_buffer, in_channels * out_channels * kernel_size);
*a58d3d2aSXin Li    print_float_vector("adaconv_gain_raw", gain_buffer, out_channels);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li    transform_gains(gain_buffer, out_channels, filter_gain_a, filter_gain_b);
*a58d3d2aSXin Li    scale_kernel(kernel_buffer, in_channels, out_channels, kernel_size, gain_buffer);
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef DEBUG_NNDSP
*a58d3d2aSXin Li    print_float_vector("adaconv_kernel", kernel_buffer, in_channels * out_channels * kernel_size);
*a58d3d2aSXin Li    print_float_vector("adaconv_gain", gain_buffer, out_channels);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li    /* calculate overlapping part using kernel from last frame */
*a58d3d2aSXin Li
*a58d3d2aSXin Li    for (i_out_channels = 0; i_out_channels < out_channels; i_out_channels++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        for (i_in_channels = 0; i_in_channels < in_channels; i_in_channels++)
*a58d3d2aSXin Li        {
*a58d3d2aSXin Li            OPUS_CLEAR(kernel0, ADACONV_MAX_KERNEL_SIZE);
*a58d3d2aSXin Li            OPUS_CLEAR(kernel1, ADACONV_MAX_KERNEL_SIZE);
*a58d3d2aSXin Li
*a58d3d2aSXin Li            OPUS_COPY(kernel0, hAdaConv->last_kernel + KERNEL_INDEX(i_out_channels, i_in_channels, 0), kernel_size);
*a58d3d2aSXin Li            OPUS_COPY(kernel1, kernel_buffer + KERNEL_INDEX(i_out_channels, i_in_channels, 0), kernel_size);
*a58d3d2aSXin Li            celt_pitch_xcorr(kernel0, p_input + i_in_channels * (frame_size + kernel_size) - left_padding, channel_buffer0, ADACONV_MAX_KERNEL_SIZE, overlap_size, arch);
*a58d3d2aSXin Li            celt_pitch_xcorr(kernel1, p_input + i_in_channels * (frame_size + kernel_size) - left_padding, channel_buffer1, ADACONV_MAX_KERNEL_SIZE, frame_size, arch);
*a58d3d2aSXin Li            for (i_sample = 0; i_sample < overlap_size; i_sample++)
*a58d3d2aSXin Li            {
*a58d3d2aSXin Li                output_buffer[i_sample + i_out_channels * frame_size] +=  window[i_sample] * channel_buffer0[i_sample];
*a58d3d2aSXin Li                output_buffer[i_sample + i_out_channels * frame_size] += (1.f - window[i_sample]) * channel_buffer1[i_sample];
*a58d3d2aSXin Li            }
*a58d3d2aSXin Li            for (i_sample = overlap_size; i_sample < frame_size; i_sample++)
*a58d3d2aSXin Li            {
*a58d3d2aSXin Li                output_buffer[i_sample + i_out_channels * frame_size] += channel_buffer1[i_sample];
*a58d3d2aSXin Li            }
*a58d3d2aSXin Li        }
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li
*a58d3d2aSXin Li    OPUS_COPY(x_out, output_buffer, out_channels * frame_size);
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef DEBUG_NNDSP
*a58d3d2aSXin Li    print_float_vector("x_out", x_out, out_channels * frame_size);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li    /* buffer update */
*a58d3d2aSXin Li    for (i_in_channels=0; i_in_channels < in_channels; i_in_channels ++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        OPUS_COPY(hAdaConv->history + i_in_channels * kernel_size, p_input + i_in_channels * (frame_size + kernel_size) + frame_size - kernel_size, kernel_size);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    OPUS_COPY(hAdaConv->last_kernel, kernel_buffer, kernel_size * in_channels * out_channels);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid adacomb_process_frame(
*a58d3d2aSXin Li    AdaCombState* hAdaComb,
*a58d3d2aSXin Li    float *x_out,
*a58d3d2aSXin Li    const float *x_in,
*a58d3d2aSXin Li    const float *features,
*a58d3d2aSXin Li    const LinearLayer *kernel_layer,
*a58d3d2aSXin Li    const LinearLayer *gain_layer,
*a58d3d2aSXin Li    const LinearLayer *global_gain_layer,
*a58d3d2aSXin Li    int pitch_lag,
*a58d3d2aSXin Li    int feature_dim,
*a58d3d2aSXin Li    int frame_size,
*a58d3d2aSXin Li    int overlap_size,
*a58d3d2aSXin Li    int kernel_size,
*a58d3d2aSXin Li    int left_padding,
*a58d3d2aSXin Li    float filter_gain_a,
*a58d3d2aSXin Li    float filter_gain_b,
*a58d3d2aSXin Li    float log_gain_limit,
*a58d3d2aSXin Li    float *window,
*a58d3d2aSXin Li    int arch
*a58d3d2aSXin Li)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    float output_buffer[ADACOMB_MAX_FRAME_SIZE];
*a58d3d2aSXin Li    float output_buffer_last[ADACOMB_MAX_FRAME_SIZE];
*a58d3d2aSXin Li    float kernel_buffer[ADACOMB_MAX_KERNEL_SIZE];
*a58d3d2aSXin Li    float input_buffer[ADACOMB_MAX_FRAME_SIZE + ADACOMB_MAX_LAG + ADACOMB_MAX_KERNEL_SIZE];
*a58d3d2aSXin Li    float gain, global_gain;
*a58d3d2aSXin Li    float *p_input;
*a58d3d2aSXin Li    int i_sample;
*a58d3d2aSXin Li    float kernel[16];
*a58d3d2aSXin Li    float last_kernel[16];
*a58d3d2aSXin Li
*a58d3d2aSXin Li    (void) feature_dim; /* ToDo: figure out whether we might need this information */
*a58d3d2aSXin Li
*a58d3d2aSXin Li    OPUS_CLEAR(output_buffer, ADACOMB_MAX_FRAME_SIZE);
*a58d3d2aSXin Li    OPUS_CLEAR(kernel_buffer, ADACOMB_MAX_KERNEL_SIZE);
*a58d3d2aSXin Li    OPUS_CLEAR(input_buffer, ADACOMB_MAX_FRAME_SIZE + ADACOMB_MAX_LAG + ADACOMB_MAX_KERNEL_SIZE);
*a58d3d2aSXin Li
*a58d3d2aSXin Li    OPUS_COPY(input_buffer, hAdaComb->history, kernel_size + ADACOMB_MAX_LAG);
*a58d3d2aSXin Li    OPUS_COPY(input_buffer + kernel_size + ADACOMB_MAX_LAG, x_in, frame_size);
*a58d3d2aSXin Li    p_input = input_buffer + kernel_size + ADACOMB_MAX_LAG;
*a58d3d2aSXin Li
*a58d3d2aSXin Li    /* calculate new kernel and new gain */
*a58d3d2aSXin Li    compute_generic_dense(kernel_layer, kernel_buffer, features, ACTIVATION_LINEAR, arch);
*a58d3d2aSXin Li    compute_generic_dense(gain_layer, &gain, features, ACTIVATION_RELU, arch);
*a58d3d2aSXin Li    compute_generic_dense(global_gain_layer, &global_gain, features, ACTIVATION_TANH, arch);
*a58d3d2aSXin Li#ifdef DEBUG_NNDSP
*a58d3d2aSXin Li    print_float_vector("features", features, feature_dim);
*a58d3d2aSXin Li    print_float_vector("adacomb_kernel_raw", kernel_buffer, kernel_size);
*a58d3d2aSXin Li    print_float_vector("adacomb_gain_raw", &gain, 1);
*a58d3d2aSXin Li    print_float_vector("adacomb_global_gain_raw", &global_gain, 1);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li    gain = exp(log_gain_limit - gain);
*a58d3d2aSXin Li    global_gain = exp(filter_gain_a * global_gain + filter_gain_b);
*a58d3d2aSXin Li    scale_kernel(kernel_buffer, 1, 1, kernel_size, &gain);
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef DEBUG_NNDSP
*a58d3d2aSXin Li    print_float_vector("adacomb_kernel", kernel_buffer, kernel_size);
*a58d3d2aSXin Li    print_float_vector("adacomb_gain", &gain, 1);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li    OPUS_CLEAR(kernel, ADACOMB_MAX_KERNEL_SIZE);
*a58d3d2aSXin Li    OPUS_CLEAR(last_kernel, ADACOMB_MAX_KERNEL_SIZE);
*a58d3d2aSXin Li    OPUS_COPY(kernel, kernel_buffer, kernel_size);
*a58d3d2aSXin Li    OPUS_COPY(last_kernel, hAdaComb->last_kernel, kernel_size);
*a58d3d2aSXin Li
*a58d3d2aSXin Li    celt_pitch_xcorr(last_kernel, &p_input[- left_padding - hAdaComb->last_pitch_lag], output_buffer_last, ADACOMB_MAX_KERNEL_SIZE, overlap_size, arch);
*a58d3d2aSXin Li
*a58d3d2aSXin Li    celt_pitch_xcorr(kernel, &p_input[- left_padding - pitch_lag], output_buffer, ADACOMB_MAX_KERNEL_SIZE, frame_size, arch);
*a58d3d2aSXin Li    for (i_sample = 0; i_sample < overlap_size; i_sample++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li      output_buffer[i_sample] = hAdaComb->last_global_gain * window[i_sample] * output_buffer_last[i_sample] + global_gain * (1.f - window[i_sample]) * output_buffer[i_sample];
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li
*a58d3d2aSXin Li    for (i_sample = 0; i_sample < overlap_size; i_sample++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li      output_buffer[i_sample] += (window[i_sample] * hAdaComb->last_global_gain + (1.f - window[i_sample]) * global_gain) * p_input[i_sample];
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li
*a58d3d2aSXin Li    for (i_sample = overlap_size; i_sample < frame_size; i_sample++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li      output_buffer[i_sample] = global_gain * (output_buffer[i_sample] + p_input[i_sample]);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    OPUS_COPY(x_out, output_buffer, frame_size);
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef DEBUG_NNDSP
*a58d3d2aSXin Li    print_float_vector("x_out", x_out, frame_size);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li    /* buffer update */
*a58d3d2aSXin Li    OPUS_COPY(hAdaComb->last_kernel, kernel_buffer, kernel_size);
*a58d3d2aSXin Li    OPUS_COPY(hAdaComb->history, p_input + frame_size - kernel_size - ADACOMB_MAX_LAG, kernel_size + ADACOMB_MAX_LAG);
*a58d3d2aSXin Li    hAdaComb->last_pitch_lag = pitch_lag;
*a58d3d2aSXin Li    hAdaComb->last_global_gain = global_gain;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid adashape_process_frame(
*a58d3d2aSXin Li    AdaShapeState *hAdaShape,
*a58d3d2aSXin Li    float *x_out,
*a58d3d2aSXin Li    const float *x_in,
*a58d3d2aSXin Li    const float *features,
*a58d3d2aSXin Li    const LinearLayer *alpha1f,
*a58d3d2aSXin Li    const LinearLayer *alpha1t,
*a58d3d2aSXin Li    const LinearLayer *alpha2,
*a58d3d2aSXin Li    int feature_dim,
*a58d3d2aSXin Li    int frame_size,
*a58d3d2aSXin Li    int avg_pool_k,
*a58d3d2aSXin Li    int arch
*a58d3d2aSXin Li)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    float in_buffer[ADASHAPE_MAX_INPUT_DIM + ADASHAPE_MAX_FRAME_SIZE];
*a58d3d2aSXin Li    float out_buffer[ADASHAPE_MAX_FRAME_SIZE];
*a58d3d2aSXin Li    float tmp_buffer[ADASHAPE_MAX_FRAME_SIZE];
*a58d3d2aSXin Li    int i, k;
*a58d3d2aSXin Li    int tenv_size;
*a58d3d2aSXin Li    float mean;
*a58d3d2aSXin Li    float *tenv;
*a58d3d2aSXin Li
*a58d3d2aSXin Li    celt_assert(frame_size % avg_pool_k == 0);
*a58d3d2aSXin Li    celt_assert(feature_dim + frame_size / avg_pool_k + 1 < ADASHAPE_MAX_INPUT_DIM);
*a58d3d2aSXin Li
*a58d3d2aSXin Li    tenv_size = frame_size / avg_pool_k;
*a58d3d2aSXin Li    tenv = in_buffer + feature_dim;
*a58d3d2aSXin Li    OPUS_CLEAR(tenv, tenv_size + 1);
*a58d3d2aSXin Li
*a58d3d2aSXin Li    OPUS_COPY(in_buffer, features, feature_dim);
*a58d3d2aSXin Li
*a58d3d2aSXin Li    /* calculate temporal envelope */
*a58d3d2aSXin Li    mean = 0;
*a58d3d2aSXin Li    for (i = 0; i < tenv_size; i++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        for (k = 0; k < avg_pool_k; k++)
*a58d3d2aSXin Li        {
*a58d3d2aSXin Li            tenv[i] += fabs(x_in[i * avg_pool_k + k]);
*a58d3d2aSXin Li        }
*a58d3d2aSXin Li        tenv[i] = log(tenv[i] / avg_pool_k + 1.52587890625e-05f);
*a58d3d2aSXin Li        mean += tenv[i];
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    mean /= tenv_size;
*a58d3d2aSXin Li    for (i = 0; i < tenv_size; i++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        tenv[i] -= mean;
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    tenv[tenv_size] = mean;
*a58d3d2aSXin Li#ifdef DEBUG_NNDSP
*a58d3d2aSXin Li    print_float_vector("tenv", tenv, tenv_size + 1);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li    /* calculate temporal weights */
*a58d3d2aSXin Li#ifdef DEBUG_NNDSP
*a58d3d2aSXin Li    print_float_vector("alpha1_in", in_buffer, feature_dim + tenv_size + 1);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li    compute_generic_conv1d(alpha1f, out_buffer, hAdaShape->conv_alpha1f_state, in_buffer, feature_dim, ACTIVATION_LINEAR, arch);
*a58d3d2aSXin Li    compute_generic_conv1d(alpha1t, tmp_buffer, hAdaShape->conv_alpha1t_state, tenv, tenv_size + 1, ACTIVATION_LINEAR, arch);
*a58d3d2aSXin Li#ifdef DEBUG_NNDSP
*a58d3d2aSXin Li    print_float_vector("alpha1_out", out_buffer, frame_size);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li    /* compute leaky ReLU by hand. ToDo: try tanh activation */
*a58d3d2aSXin Li    for (i = 0; i < frame_size; i ++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        float tmp = out_buffer[i] + tmp_buffer[i];
*a58d3d2aSXin Li        in_buffer[i] = tmp >= 0 ? tmp : 0.2 * tmp;
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li#ifdef DEBUG_NNDSP
*a58d3d2aSXin Li    print_float_vector("post_alpha1", in_buffer, frame_size);
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li    compute_generic_conv1d(alpha2, out_buffer, hAdaShape->conv_alpha2_state, in_buffer, frame_size, ACTIVATION_LINEAR, arch);
*a58d3d2aSXin Li
*a58d3d2aSXin Li    /* shape signal */
*a58d3d2aSXin Li    for (i = 0; i < frame_size; i ++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        x_out[i] = exp(out_buffer[i]) * x_in[i];
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li
*a58d3d2aSXin Li}