dnn/training_tf2/encode_rdovae.py

*a58d3d2aSXin Li#!/usr/bin/python3
*a58d3d2aSXin Li'''Copyright (c) 2021-2022 Amazon
*a58d3d2aSXin Li   Copyright (c) 2018-2019 Mozilla
*a58d3d2aSXin Li
*a58d3d2aSXin Li   Redistribution and use in source and binary forms, with or without
*a58d3d2aSXin Li   modification, are permitted provided that the following conditions
*a58d3d2aSXin Li   are met:
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions of source code must retain the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions in binary form must reproduce the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer in the
*a58d3d2aSXin Li   documentation and/or other materials provided with the distribution.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
*a58d3d2aSXin Li   ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
*a58d3d2aSXin Li   LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
*a58d3d2aSXin Li   A PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE FOUNDATION OR
*a58d3d2aSXin Li   CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
*a58d3d2aSXin Li   EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
*a58d3d2aSXin Li   PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
*a58d3d2aSXin Li   PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
*a58d3d2aSXin Li   LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
*a58d3d2aSXin Li   NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
*a58d3d2aSXin Li   SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
*a58d3d2aSXin Li'''
*a58d3d2aSXin Li
*a58d3d2aSXin Li# Train an LPCNet model
*a58d3d2aSXin Li
*a58d3d2aSXin Liimport argparse
*a58d3d2aSXin Li#from plc_loader import PLCLoader
*a58d3d2aSXin Li
*a58d3d2aSXin Liparser = argparse.ArgumentParser(description='Train a PLC model')
*a58d3d2aSXin Li
*a58d3d2aSXin Liparser.add_argument('features', metavar='<features file>', help='binary features file (float32)')
*a58d3d2aSXin Liparser.add_argument('output', metavar='<output>', help='trained model file (.h5)')
*a58d3d2aSXin Liparser.add_argument('--model', metavar='<model>', default='rdovae', help='PLC model python definition (without .py)')
*a58d3d2aSXin Ligroup1 = parser.add_mutually_exclusive_group()
*a58d3d2aSXin Ligroup1.add_argument('--weights', metavar='<input weights>', help='model weights')
*a58d3d2aSXin Liparser.add_argument('--cond-size', metavar='<units>', default=1024, type=int, help='number of units in conditioning network (default 1024)')
*a58d3d2aSXin Liparser.add_argument('--batch-size', metavar='<batch size>', default=1, type=int, help='batch size to use (default 128)')
*a58d3d2aSXin Liparser.add_argument('--seq-length', metavar='<sequence length>', default=1000, type=int, help='sequence length to use (default 1000)')
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Liargs = parser.parse_args()
*a58d3d2aSXin Li
*a58d3d2aSXin Liimport importlib
*a58d3d2aSXin Lirdovae = importlib.import_module(args.model)
*a58d3d2aSXin Li
*a58d3d2aSXin Lifrom rdovae import apply_dead_zone
*a58d3d2aSXin Li
*a58d3d2aSXin Liimport sys
*a58d3d2aSXin Liimport numpy as np
*a58d3d2aSXin Lifrom tensorflow.keras.optimizers import Adam
*a58d3d2aSXin Lifrom tensorflow.keras.callbacks import ModelCheckpoint, CSVLogger
*a58d3d2aSXin Liimport tensorflow.keras.backend as K
*a58d3d2aSXin Liimport h5py
*a58d3d2aSXin Li
*a58d3d2aSXin Liimport tensorflow as tf
*a58d3d2aSXin Lifrom rdovae import pvq_quantize
*a58d3d2aSXin Li
*a58d3d2aSXin Li# Try reducing batch_size if you run out of memory on your GPU
*a58d3d2aSXin Libatch_size = args.batch_size
*a58d3d2aSXin Li
*a58d3d2aSXin Limodel, encoder, decoder, qembedding = rdovae.new_rdovae_model(nb_used_features=20, nb_bits=80, batch_size=batch_size, cond_size=args.cond_size)
*a58d3d2aSXin Limodel.load_weights(args.weights)
*a58d3d2aSXin Li
*a58d3d2aSXin Lilpc_order = 16
*a58d3d2aSXin Li
*a58d3d2aSXin Lifeature_file = args.features
*a58d3d2aSXin Linb_features = model.nb_used_features + lpc_order
*a58d3d2aSXin Linb_used_features = model.nb_used_features
*a58d3d2aSXin Lisequence_size = args.seq_length
*a58d3d2aSXin Li
*a58d3d2aSXin Li# u for unquantised, load 16 bit PCM samples and convert to mu-law
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Lifeatures = np.memmap(feature_file, dtype='float32', mode='r')
*a58d3d2aSXin Linb_sequences = len(features)//(nb_features*sequence_size)//batch_size*batch_size
*a58d3d2aSXin Lifeatures = features[:nb_sequences*sequence_size*nb_features]
*a58d3d2aSXin Li
*a58d3d2aSXin Lifeatures = np.reshape(features, (nb_sequences, sequence_size, nb_features))
*a58d3d2aSXin Liprint(features.shape)
*a58d3d2aSXin Lifeatures = features[:, :, :nb_used_features]
*a58d3d2aSXin Li#features = np.random.randn(73600, 1000, 17)
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Libits, gru_state_dec = encoder.predict([features], batch_size=batch_size)
*a58d3d2aSXin Li(gru_state_dec).astype('float32').tofile(args.output + "-state.f32")
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li#dist = rdovae.feat_dist_loss(features, quant_out)
*a58d3d2aSXin Li#rate = rdovae.sq1_rate_loss(features, model_bits)
*a58d3d2aSXin Li#rate2 = rdovae.sq_rate_metric(features, model_bits)
*a58d3d2aSXin Li#print(dist, rate, rate2)
*a58d3d2aSXin Li
*a58d3d2aSXin Liprint("shapes are:")
*a58d3d2aSXin Liprint(bits.shape)
*a58d3d2aSXin Liprint(gru_state_dec.shape)
*a58d3d2aSXin Li
*a58d3d2aSXin Lifeatures.astype('float32').tofile(args.output + "-input.f32")
*a58d3d2aSXin Li#quant_out.astype('float32').tofile(args.output + "-enc_dec.f32")
*a58d3d2aSXin Linbits=80
*a58d3d2aSXin Libits.astype('float32').tofile(args.output + "-syms.f32")
*a58d3d2aSXin Li
*a58d3d2aSXin Lilambda_val = 0.0002 * np.ones((nb_sequences, sequence_size//2, 1))
*a58d3d2aSXin Liquant_id = np.round(3.8*np.log(lambda_val/.0002)).astype('int16')
*a58d3d2aSXin Liquant_id = quant_id[:,:,0]
*a58d3d2aSXin Liquant_embed = qembedding(quant_id)
*a58d3d2aSXin Liquant_scale = tf.math.softplus(quant_embed[:,:,:nbits])
*a58d3d2aSXin Lidead_zone = tf.math.softplus(quant_embed[:, :, nbits : 2 * nbits])
*a58d3d2aSXin Li
*a58d3d2aSXin Libits = bits*quant_scale
*a58d3d2aSXin Libits = np.round(apply_dead_zone([bits, dead_zone]).numpy())
*a58d3d2aSXin Libits = bits/quant_scale
*a58d3d2aSXin Li
*a58d3d2aSXin Ligru_state_dec = pvq_quantize(gru_state_dec, 82)
*a58d3d2aSXin Li#gru_state_dec = gru_state_dec/(1e-15+tf.norm(gru_state_dec, axis=-1,keepdims=True))
*a58d3d2aSXin Ligru_state_dec = gru_state_dec[:,-1,:]
*a58d3d2aSXin Lidec_out = decoder([bits[:,1::2,:], gru_state_dec])
*a58d3d2aSXin Li
*a58d3d2aSXin Liprint(dec_out.shape)
*a58d3d2aSXin Li
*a58d3d2aSXin Lidec_out.numpy().astype('float32').tofile(args.output + "-quant_out.f32")