神经网络的不同代价函数和激活函数的选择

import tensorflow as tf import numpy train_X = numpy.asarray([[0,0],[0,1],[1,0],[1,1]]) train_Y = numpy.asarray([[0],[0],[0],[1]]) x = tf.placeholder("float",[None, 2]) y = tf.placeholder("float",[None, 1]) W = tf.Variable(tf.zeros([2, 1])) b = tf.Variable(tf.zeros([1, 1])) activation = tf.nn.sigmoid(tf.matmul(x, W)+b) cost = tf.reduce_sum(tf.square(activation - y))/4 optimizer = tf.train.GradientDescentOptimizer(.1).minimize(cost) init = tf.initialize_all_variables() with tf.Session() as sess: sess.run(init) for i in range(5000): train_data = sess.run(optimizer, feed_dict={x: train_X, y: train_Y}) result = sess.run(activation, feed_dict={x:train_X}) print(result)

import tensorflow as tf import numpy train_X = numpy.asarray([[0,0],[0,1],[1,0],[1,1]]) train_Y = numpy.asarray([[1,0],[1,0],[1,0],[0,1]]) x = tf.placeholder("float",[None, 2]) y = tf.placeholder("float",[None, 2]) W = tf.Variable(tf.zeros([2, 2])) b = tf.Variable(tf.zeros([2])) activation = tf.nn.softmax(tf.matmul(x, W)+b) cost = -tf.reduce_sum(y*tf.log(activation)) optimizer = tf.train.GradientDescentOptimizer(0.5).minimize(cost) init = tf.initialize_all_variables() with tf.Session() as sess: sess.run(init) for i in range(5000): train_data = sess.run(optimizer, feed_dict={x: train_X, y: train_Y}) result = sess.run(activation, feed_dict={x:train_X}) print(result)

1条回答

网友

1楼 · 发布于 2024-05-14 16:50:37

我会把你的问题回答得有点乱，先从更一般的答案开始，然后用你特定实验的具体答案结束。

激活函数实际上，不同的激活函数有不同的属性。让我们首先考虑两层神经网络之间的激活函数。激活函数的唯一目的是充当非线性函数。如果你不把一个激活函数放在两层之间，那么两层在一起就不会比一层更好，因为它们的效果仍然只是一个线性变换。很长一段时间以来，人们一直在使用乙状结肠功能和tanh，选择相当武断，乙状结肠更受欢迎，直到最近，当ReLU成为占主导地位的非晶状体。人们之所以在层之间使用ReLU，是因为它不饱和（而且计算速度也更快）。想想乙状结肠的功能图。如果x的绝对值很大，那么sigmoid函数的导数就很小，这意味着当我们向后传播误差时，当我们穿过这些层时，误差的梯度会很快消失。在ReLU中，所有正输入的导数都是1，因此激发神经元的梯度根本不会被激活单元改变，也不会减缓梯度下降。

对于网络的最后一层，激活单元也取决于任务。对于回归，您将希望使用乙状结肠或tanh激活，因为您希望结果介于0和1之间。对于分类，您只希望一个输出为1，而所有其他输出为0，但是没有可微的方法可以精确地实现这一点，因此您需要使用softmax来近似它。

您的示例。现在让我们看看你的例子。第一个示例尝试以以下形式计算AND的输出：

sigmoid(W1 * x1 + W2 * x2 + B)

注意W1和W2总是收敛到相同的值，因为（x1，x2）的输出应该等于（x2，x1）的输出。因此，您要拟合的模型是：

sigmoid(W * (x1 + x2) + B)

x1 + x2只能接受三个值（0、1或2）中的一个，并且您希望在x1 + x2 < 2时返回0，在x1 + x2 = 2时返回1。由于sigmoid函数相当平滑，需要非常大的W和B值才能使输出接近所需的值，但是由于学习率很低，它们无法快速地获得这些大值。在第一个例子中提高学习速度将提高收敛速度。

您的第二个示例收敛得更好，因为softmax函数擅长使精确的一个输出等于1，而所有其他输出等于0。因为这正是你的情况，它确实很快收敛。注意sigmoid最终也会收敛到好的值，但它需要更多的迭代（或更高的学习率）。

使用什么。最后一个问题是，如何选择使用哪些激活和成本函数。这些建议适用于大多数情况：

如果进行分类，则使用softmax作为最后一层的非线性，使用cross entropy作为成本函数。
如果进行回归，则使用sigmoid或tanh作为最后一层的非线性，使用squared error作为成本函数。
使用ReLU作为层之间的非优先权。
使用更好的优化器（AdamOptimizer，AdagradOptimizer）而不是GradientDescentOptimizer，或者使用动量更快地收敛，

相关问题更多 >

编程相关推荐

热门问题

热门文章