dnn/training_tf2/pade.py

*a58d3d2aSXin Li# Optimizing a rational function to optimize a tanh() approximation
*a58d3d2aSXin Li
*a58d3d2aSXin Liimport numpy as np
*a58d3d2aSXin Liimport tensorflow as tf
*a58d3d2aSXin Lifrom tensorflow.keras.models import Model
*a58d3d2aSXin Lifrom tensorflow.keras.layers import Input, GRU, Dense, Embedding, Reshape, Concatenate, Lambda, Conv1D, Multiply, Add, Bidirectional, MaxPooling1D, Activation
*a58d3d2aSXin Liimport tensorflow.keras.backend as K
*a58d3d2aSXin Lifrom tensorflow.keras.optimizers import Adam, SGD
*a58d3d2aSXin Li
*a58d3d2aSXin Lidef my_loss1(y_true, y_pred):
*a58d3d2aSXin Li    return 1*K.mean(K.square(y_true-y_pred)) + 1*K.max(K.square(y_true-y_pred), axis=1)
*a58d3d2aSXin Li
*a58d3d2aSXin Lidef my_loss2(y_true, y_pred):
*a58d3d2aSXin Li    return .1*K.mean(K.square(y_true-y_pred)) + 1*K.max(K.square(y_true-y_pred), axis=1)
*a58d3d2aSXin Li
*a58d3d2aSXin Lidef my_loss3(y_true, y_pred):
*a58d3d2aSXin Li    return .01*K.mean(K.square(y_true-y_pred)) + 1*K.max(K.square(y_true-y_pred), axis=1)
*a58d3d2aSXin Li
*a58d3d2aSXin Li# Using these initializers to seed the approximation
*a58d3d2aSXin Li# with a reasonable starting point
*a58d3d2aSXin Lidef num_init(shape, dtype=None):
*a58d3d2aSXin Li    rr = tf.constant([[945], [105], [1]], dtype=dtype)
*a58d3d2aSXin Li    #rr = tf.constant([[946.56757], [98.01368], [0.66841]], dtype=dtype)
*a58d3d2aSXin Li    print(rr)
*a58d3d2aSXin Li    return rr
*a58d3d2aSXin Li
*a58d3d2aSXin Lidef den_init(shape, dtype=None):
*a58d3d2aSXin Li    rr = tf.constant([[945], [420], [15]], dtype=dtype)
*a58d3d2aSXin Li    #rr = tf.constant([[946.604], [413.342], [12.465]], dtype=dtype)
*a58d3d2aSXin Li    print(rr)
*a58d3d2aSXin Li    return rr
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Lix = np.arange(-10, 10, .01)
*a58d3d2aSXin LiN = len(x)
*a58d3d2aSXin Lix = np.reshape(x, (1, -1, 1))
*a58d3d2aSXin Lix2 = x*x
*a58d3d2aSXin Li
*a58d3d2aSXin Lix2in = np.concatenate([x2*0 + 1, x2, x2*x2], axis=2)
*a58d3d2aSXin Liyout = np.tanh(x)
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Limodel_x = Input(shape=(None, 1,))
*a58d3d2aSXin Limodel_x2 = Input(shape=(None, 3,))
*a58d3d2aSXin Li
*a58d3d2aSXin Linum = Dense(1, name='num', use_bias=False, kernel_initializer=num_init)
*a58d3d2aSXin Liden = Dense(1, name='den', use_bias=False, kernel_initializer=den_init)
*a58d3d2aSXin Li
*a58d3d2aSXin Lidef ratio(x):
*a58d3d2aSXin Li    return tf.minimum(1., tf.maximum(-1., x[0]*x[1]/x[2]))
*a58d3d2aSXin Li
*a58d3d2aSXin Liout_layer = Lambda(ratio)
*a58d3d2aSXin Lioutput = out_layer([model_x, num(model_x2), den(model_x2)])
*a58d3d2aSXin Li
*a58d3d2aSXin Limodel = Model([model_x, model_x2], output)
*a58d3d2aSXin Limodel.summary()
*a58d3d2aSXin Li
*a58d3d2aSXin Limodel.compile(Adam(0.05, beta_1=0.9, beta_2=0.9, decay=2e-5), loss='mean_squared_error')
*a58d3d2aSXin Limodel.fit([x, x2in], yout, batch_size=1, epochs=500000, validation_split=0.0)
*a58d3d2aSXin Li
*a58d3d2aSXin Limodel.compile(Adam(0.001, beta_2=0.9, decay=1e-4), loss=my_loss1)
*a58d3d2aSXin Limodel.fit([x, x2in], yout, batch_size=1, epochs=50000, validation_split=0.0)
*a58d3d2aSXin Li
*a58d3d2aSXin Limodel.compile(Adam(0.0001, beta_2=0.9, decay=1e-4), loss=my_loss2)
*a58d3d2aSXin Limodel.fit([x, x2in], yout, batch_size=1, epochs=50000, validation_split=0.0)
*a58d3d2aSXin Li
*a58d3d2aSXin Limodel.compile(Adam(0.00001, beta_2=0.9, decay=1e-4), loss=my_loss3)
*a58d3d2aSXin Limodel.fit([x, x2in], yout, batch_size=1, epochs=50000, validation_split=0.0)
*a58d3d2aSXin Li
*a58d3d2aSXin Limodel.save_weights('tanh.h5')