深度学习手记（十）之TensorFlow中求loss的三种函数对比

在搭建神经网络模型时，都会计算模型的loss，再进行反向传播优化参数。而在TensorFlow中计算loss的函数有很多，其中使用比较多的是:tf.losses.sparse_softmax_cross_entropy()tf.nn.sparse_softmax_cross_entropy_with_logits()tf.nn.softmax_cross_entropy_with_lo...

llh_1178

2031人浏览 · 2019-04-17 21:39:51

llh_1178 · 2019-04-17 21:39:51 发布

在搭建神经网络模型时，都会计算模型的loss，再进行反向传播优化参数。而在TensorFlow中计算loss的函数有很多，其中使用比较多的是:

tf.losses.sparse_softmax_cross_entropy()
tf.nn.sparse_softmax_cross_entropy_with_logits()
tf.nn.softmax_cross_entropy_with_logits()

这三种求loss的函数，看似没有区别，但是，在使用的过程中稍不注意就会出错。
首先来说说第一个求loss的函数与后面两者的区别。区别主要有两个：
第一、tf.losses.sparse_softmax_cross_entropy()能自动将labels转化为One-Hot编码后再与经过softmax的logits计算交叉熵，而后面两个函数的labels的维度如果是[None]，那么就需要做一个
维度变换（tf.reshape(labels, [-1])）再与经过softmax的logits计算交叉熵；
第二、tf.losses.sparse_softmax_cross_entropy()得到的loss是平均损失，而后面两个函数的loss
却并不是。可以通过下面这个例子证明。

y = tf.constant([2,0])
x = tf.constant([[2.0, -1.0, 3.0], [1.0, 0.0, -0.5]])
# 首先使用tf.losses.sparse_softmax_cross_entropy函数
loss = tf.losses.sparse_softmax_cross_entropy(y, x)
sess = tf.Session()
sess.run(loss)

0.39546573

# 再使用tf.nn.sparse_softmax_cross_entropy_with_logits函数
loss_1 = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=x)
loss_2 = tf.reduce_mean(loss_1)
sess = tf.Session()
sess.run(loss_1, loss_2)

array([0.32656264, 0.4643688 ], dtype=float32)
0.39546573

然后再说tf.nn.sparse_softmax_cross_entropy_with_logits和tf.nn.softmax_cross_entropy_with_logits两者的区别。它们的区别主要是labels的形式，tf.nn.softmax_cross_entropy_with_logits函数要求labels必须是概率分布的形式。比如上面例子中，如果是：

loss_3 = tf.nn.softmax_cross_entropy_with_logits(labels=y, logits=x)
sess = tf.Session()
sess.run(loss_3)

则会报错，因为y并不是概率形式，所以要修改y的形式：

y_ = tf.constant([[0.0, 0.0, 1.0], [1.0, 0.0, 0.0]])
loss_3 = tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=x)
sess = tf.Session()
sess.run(loss_3)

array([0.32656264, 0.4643688 ], dtype=float32)

这样得到的值就是正确的了。同时，为了保证在优化参数和loss的时候，梯度不会发生爆炸，可以如下处理：

# 设置一个最大梯度值
max_grad_norm = 5
trainable_variables = tf.trainable_variables()
grads, _ = tf.clip_by_global_norm(tf.gradients(loss, trainable_variables), max_grad_norm)
optimizer = tf.train.GradientDescentOptimizer(learning_rate=1.0)
train_op = optimizer.apply_gradients(zip(grads, trainable_variables))

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

经典算力墙

脑启社区

生物计算中的多模态数据：提示工程架构师的AI提示融合方法

什么是生物多模态数据？它的融合难点在哪里？生物多模态数据是指来自不同生物层级、不同技术手段的异质数据模态类型数据形式示例核心价值分子模态序列/数值/结构基因组（DNA突变）、转录组（mRNA表达）、蛋白质组（3D结构）解释疾病的分子机制细胞/组织模态图像/单细胞矩阵病理切片（组织形态）、单细胞RNA-seq（细胞类型）连接分子与宏观表型临床模态文本/数值病历（年龄、吸烟史）、肿瘤标志物（CA125