在循环中使用Keras时，如何防止内存使用爆炸

def reset_keras(model): # Clear model, if possible try: del model except: pass # Garbage collection gc.collect() # Clear and close tensorflow session session = K.get_session() # Get session K.clear_session() # Clear session session.close() # Close session # Reset all tensorflow graphs tf.compat.v1.reset_default_graph()

import numpy as np import psutil import tensorflow as tf import tensorflow.keras as keras import tensorflow.keras.layers as layers import tensorflow.keras.initializers as initializers import tensorflow.python.keras.backend as kb import matplotlib.pyplot as plt BATCH = 10 MC_DRAWS = 2000 M = 10 # Training options LR = 0.01 def display_memory(): print( f'{round(psutil.virtual_memory().used/2**30, 2)} GB' ) class Actor: def __init__(self): self.nn = self.make_actor() self.batch = BATCH self.opt = keras.optimizers.Adam( learning_rate = LR ) def make_actor(self): inputs = layers.Input( shape=(1) ) hidden = layers.Dense(5, activation='relu', kernel_initializer=initializers.GlorotNormal() )(inputs) mu = layers.Dense(1, activation='linear', kernel_initializer=initializers.GlorotNormal() )(hidden) sigma = layers.Dense(1, activation='softplus', kernel_initializer=initializers.GlorotNormal() )(hidden) nn = keras.Model(inputs=inputs, outputs=[mu, sigma]) return nn def update_weights(self, state, action, reward): # Get proper format state = tf.constant(state, dtype='float32', shape=(self.batch,1)) action = tf.constant(action, dtype='float32', shape=(self.batch,1)) reward = tf.constant(reward, dtype='float32', shape=(self.batch,1)) # Update Policy Network Parameters with tf.GradientTape() as tape: # Compute Gaussian loss loss_value = self.custom_loss(state, action, reward) loss_value = tf.math.reduce_mean( loss_value, keepdims=True ) # Compute gradients grads = tape.gradient(loss_value, self.nn.trainable_variables) # Apply gradients to update network weights self.opt.apply_gradients(zip(grads, self.nn.trainable_variables)) def custom_loss(self, state, action, reward): # Obtain mean and standard deviation nn_mu, nn_sigma = self.nn(state) # Gaussian pdf pdf_value = tf.exp(-0.5 *((action - nn_mu) / (nn_sigma))**2) *\ 1/(nn_sigma*tf.sqrt(2 *np.pi)) # Log probabilities log_prob = tf.math.log( pdf_value + 1e-5 ) # Compute loss loss_actor = -reward * log_prob return loss_actor class moving_target_game: def __init__(self): self.action_range = [-np.inf, np.inf] self.state_range = [1, 2] self.reward_range = [-np.inf, 0] def draw(self): return np.random.ranint(low = self.state_range[0], high = self.state_range[1]) def get_reward(self, action, state): return -(5*state - action)**2 class Critic: def __init__(self): self.order = 3 self.projection = None def predict(self, state, reward): # Enforce proper format x = np.array( state ).reshape(-1,1) y = np.array( reward ).reshape(-1,1) # Make regression matrix X = np.ones( shape = x.shape ) for i in range( self.order ): X = np.hstack( (X, x**(i+1)) ) # Prediction xt = x.transpose() P = x @ np.linalg.inv( xt @ x ) @ xt Py = P @ y self.projection = P return Py #%% Moving Target Game with Actor and Actor-Critic do_actor_critic = True display_memory() history = np.zeros( shape=(MC_DRAWS, M) ) env = moving_target_game() for m in range(M): # New Actor Network actor = Actor() if do_actor_critic: critic = Critic() for i in range(MC_DRAWS): state_tape = [] action_tape = [] reward_tape = [] for j in range(BATCH): # Draw state state = env.draw() s = tf.constant([state], dtype='float32') # Take action mu, sigma = actor.nn( s ) a = tf.random.normal([1], mean=mu, stddev=sigma) # Reward r = env.get_reward( state, a ) # Collect results action_tape.append( float(a) ) reward_tape.append( float(r) ) state_tape.append( float(state) ) del (s, a, mu, sigma) # Update network weights history[i,m] = np.mean( reward_tape ) if do_actor_critic: # Update critic value = critic.predict(state_tape, reward_tape) # Benchmark reward mod = np.array(reward_tape).reshape(-1,1) - value # Update actor actor.update_weights(state_tape, action_tape, mod) else: actor.update_weights(state_tape, action_tape, reward_tape) del actor kb.clear_session() if do_actor_critic: del critic print( f'Average Reward on last: {np.mean(reward_tape)} ' ) display_memory() plt.plot( history )

1条回答

网友

1楼 · 发布于 2024-05-14 15:20:15

您可以通过调用来尝试重新启动后端

reset_tensorflow_keras_backend()

在每个模型估计之后，函数定义如下：

def reset_tensorflow_keras_backend():
    # to be further investigated, but this seems to be enough
    import tensorflow as tf
    import tensorflow.keras as keras
    tf.keras.backend.clear_session()
    tf.reset_default_graph()
    _ = gc.collect()

相关问题更多 >

编程相关推荐

热门问题

热门文章