深度学习中的损失函数

神经网络模型的效果及优化的目标是通过损失函数来定义的。1.平方差损失函数平方差函数是最常用的损失函数，也就是L2 loss再除以2。E=12(a−y)2E=12(a−y)2 E=\frac{1}{2}(a-y)^2其中y是我们期望的输出，a为神经元的实际输出 (a=σ(Wx+b)a=σ(Wx+b)a=\sigma(Wx+b), σσ\sigma 是激活函数) 。也就...

yuchiwang

7559人浏览 · 2018-03-13 16:49:23

yuchiwang · 2018-03-13 16:49:23 发布

神经网络模型的效果及优化的目标是通过损失函数来定义的。

1.平方差损失函数

平方差函数是最常用的损失函数，也就是L2 loss再除以2。

E = 1 2 (a - y) 2

a=σ(Wx+b) a = σ ( W x + b ) <script type="math/tex" id="MathJax-Element-134">a=\sigma(Wx+b)</script>,

σ σ <script type="math/tex" id="MathJax-Element-135">\sigma</script> 是激活函数) 。也就是说，当神经元的实际输出与我们的期望输出差距越大，代价就越高。

2.交叉熵损失函数

我们知道，熵的定义公式是：

H (y) = - \sum i y i l o g (y i)

H (y, a) = - \sum i y i l o g (a i)

H (y, a) = - 1 n \sum n \sum i y i, n l o g (a i, n)

J (θ) = - 1 m \sum i = 1 m y (i) log (h θ (x (i))) + (1 - y (i)) log (1 - h θ (x (i)))

3.SVM Hinge Loss

定义如下：

L i = \sum j \neq y i m a x (0, f j - f y i + Δ)

直观理解:
多类SVM“想要”正确类别的分类分数比其他不正确分类类别的分数要高，而且至少高出Δ 的边界值。如果其他分类分数进入了红色的区域，甚至更高，那么就开始计算损失。如果没有这些情况，损失值为0。我们的目标是找到一些权重，它们既能够让训练集中的数据样例满足这些限制，也能让总的损失值尽可能地低。
这里写图片描述

举一个具体的例子：
例子来源于斯坦福CS231n 课件。第一张图片是猫，神经网络计算得出其三个类别的分值分别为 3.2, 5.1 和 -1.7。很明显，理想情况下猫的分值应该高与其他两种类别，但根据计算结果，car的分值最高，因此在当前的权值设置下，该 network 会把这张图片分类为 car。此时我们可以根据公式计算损失

损失计算如下：(S代表Score，即分值)

L i = m a x (0, S c a r - S c a t + Δ) + m a x (0, S f r o g - S c a t + Δ) = 2.9 + 0

梯度求导： http://blog.csdn.net/bcj296050240/article/details/53890704

4.Softmax 交叉熵Loss

Softmax 函数是 Logistic 函数的推广，用于多分类。

定义如下：

L i = - l o g (e f y i \sum j e f j)

fj f j <script type="math/tex" id="MathJax-Element-465">f_j</script>表示各类别的score，

fyi f y i <script type="math/tex" id="MathJax-Element-466">f_{y_i}</script>表示该类的得分。

hinge loss和 softmax loss的示例：
这里写图片描述

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

类脑解耦大模型最简 MVP 落地｜从根源解决 LLM 臃肿、黑箱、失忆、幻觉四大问题（大模型的思考：四）

本次最简 MVP 的成功跑通，是模块化类脑大模型架构的里程碑式验证。证明了下一代 AI 的发展方向，不再是无休止的参数堆叠，而是智能的解耦、分工、重构。从最初类脑思想实验，到自我纠偏完善理论，再到低成本工程落地，整套体系逻辑自洽、拓展性极强。丰富颜色、形状、材质多类型特征子模块；接入数学运算独立子模块，解决大模型计算错误问题；迭代存储层，从 JSON 平滑升级轻量化数据库；完善联想、想象拓展模块，

脑启社区

告别Transformer？我们为什么必须推翻冯·诺依曼架构

《AI架构革命：从Transformer到光电忆阻器》传统Transformer架构面临算力困境，其O(n²)计算复杂度和冯·诺依曼架构的"存储墙"严重制约发展。新一代技术正加速突破：1）忆阻器实现存算一体，北京大学团队验证能效提升96倍；2）光电融合技术利用光信号突破电子速度极限；3）Mamba架构抛弃注意力机制，推理速度提升5倍；4）数据流芯片（如英伟达收购的Groq）实

脑启社区

一个大专生的自白：我为什么用「类脑架构」重写了分布式系统

BNOS 负责宏观的节点编排与协作，AAA 负责微观的模型自适应推理，两者在设计上是互补的。在查阅了大量现有的分布式框架和智能体（Agent）协作方案后，我发现它们要么过于厚重，要么在节点通信上引入了极高的复杂度。于是，我决定跳出传统的微服务或消息队列思维，尝试从生物大脑中汲取灵感，设计了一套基于仿生神经网络的通用模块化执行引擎——BNOS（Bionic Neural Network Operat