自定义激活函数可能存在梯度问题

import tensorflow as tf sess = tf.Session() def s_lamda_activation(f, lam): positive = tf.nn.relu(f - lam) positive = positive * (f/positive) positive = tf.where(tf.is_nan(positive), tf.zeros_like(positive), positive) negative = tf.nn.relu((-f) - lam) negative = negative * (f/negative) negative = tf.where(tf.is_nan(negative), tf.zeros_like(negative), negative) return positive + negative a = tf.constant([[1,2,3,4,5,10,-10,14,-20],[-100,-2,-3,-4,-5,-10,10,-14,-20]], dtype=tf.float32) a = s_lamda_activation(a, 5) print(sess.run(a))

import tensorflow as tf sess = tf.Session() def s_lamda_activation(f, lam): positive = tf.nn.relu(f - lam) negative = tf.nn.relu((-f) - lam) return positive - negative a = tf.constant([[1,2,3,4,5,10,-10,14,-20],[-100,-2,-3,-4,-5,-10,10,-14,-20]], dtype=tf.float32) a = s_lamda_activation(a, 5) print(sess.run(a))

1条回答

网友

1楼 · 发布于 2024-04-26 18:16:14

问题是您没有正确地使用tf.where()来实现激活函数。您可以使用tf.gradients查看渐变，如下所示：

import tensorflow as tf

...

result = s_lamda_activation(a, 5)
grad = tf.gradients(result,a)

with tf.Session() as sess:
    print(sess.run(result))
    print(sess.run(grad))
[[   0.    0.    0.    0.    0.   10.  -10.   14.  -20.]
 [-100.    0.    0.    0.    0.  -10.   10.  -14.  -20.]]
[array([[nan, nan, nan, nan, nan, nan, nan, nan, nan],
       [nan, nan, nan, nan, nan, nan, nan, nan, nan]], dtype=float32)]

正确的用法很简单：

import tensorflow as tf

def s_lamda_activation(f, lam):
    return tf.where(tf.greater(tf.abs(f),lam),f,tf.zeros_like(f))

a = tf.constant([[1,2,3,4,5,10,-10,14,-20],[-100,-2,-3,-4,-5,-10,10,-14,-20]], dtype=tf.float32)

result = s_lamda_activation(a, 5)
grad = tf.gradients(result,a)

with tf.Session() as sess:
    print(sess.run(result))
    print(sess.run(grad))

[[   0.    0.    0.    0.    0.   10.  -10.   14.  -20.]
 [-100.    0.    0.    0.    0.  -10.   10.  -14.  -20.]]
[array([[0., 0., 0., 0., 0., 1., 1., 1., 1.],
       [1., 0., 0., 0., 0., 1., 1., 1., 1.]], dtype=float32)]

相关问题更多 >

编程相关推荐

热门问题

热门文章