多层感知机（MLP）

多层感知机（MLP）以多层感知机为例，介绍多层神经网络。1. 隐藏层多层感知机在单层神经网络的基础上引入了一到多个隐藏层（hidden layer）。隐藏层位于输入层和输出层之间。在上图的多层感知机中，输入和输出个数分别为4和3，中间的隐藏层中包含了5个隐藏单元（hidden unit）。由于输入层不涉及计算，上图中的多层感知机的层数为2.由上图可见，隐藏层中的神经元和输入层中各个输入完全连接，输

DeeGLMath

37954人浏览 · 2021-10-24 22:25:16

DeeGLMath · 2021-10-24 22:25:16 发布

多层感知机（MLP）

以多层感知机为例，介绍多层神经网络。

1. 隐藏层

多层感知机在单层神经网络的基础上引入了一到多个隐藏层（hidden layer）。隐藏层位于输入层和输出层之间。
在这里插入图片描述

在上图的多层感知机中，输入和输出个数分别为4和3，中间的隐藏层中包含了5个隐藏单元（hidden unit）。由于输入层不涉及计算，上图中的多层感知机的层数为2.由上图可见，隐藏层中的神经元和输入层中各个输入完全连接，输出层中的神经元和隐藏层中的各个神经元也完全连接。因此，多层感知机中的隐藏层和输出层都是全连接层。

给定一个小批量样本 $\in R^{n \times d}$ ，其批量大小为 $n$ ，输入个数为 $d$ 。假设多层感知机只有一个隐藏层，其中隐藏单元个数为 $h$ 。记隐藏层的输出为 $H$ ，有 $\in R^{n \times h}$ 。因为隐藏层和输出层均是全连接层，可以设隐藏层的权重参数和偏差参数分别为：
$W_h \in R^{d \times h}, b_h \in R^{1 \times h} \tag 1$
输出层的权重参数和偏差参数分别为：
$W_o \in R^{h \times q}, b_o \in R^{1 \times q} \tag 2$
⼀种含单隐藏层的多层感知机的设计。其输出 $\in R^{n \times q}$ 的计算为：
$H=XW_h+b_h, \\ O=HW_o+b_o \tag 3$
将隐藏层的输出直接作为输出层的输⼊。如果将以上两个式⼦联⽴起来，可以得到:
$O=(XW_h+b_h)W_o+b_o=XW_hW_o+b_hW_o+b_o \tag 4$
从联立后的式子可以看出，虽然神经网络引入了隐藏层，却依然等价于一个单层神经网络：其中输出层权重参数为 $W_hW_o$ ，偏差参数为 $b_hW_o+b_o$ 。所以，即便添加更多的隐藏层，以上的设计只能与仅含输出层的单层神经网络等价。

2. 激活函数

引入隐藏层的神经网络可以等价于仅含输出层的单层神经网络的问题，在于全连接层只是对数据做仿射变换（affine transformation），而多个仿射变换的叠加仍然是⼀个仿射变换。解决问题的⽅法之一是引⼊⾮线性变换，对隐藏变量使⽤按元素运算的⾮线性函数进⾏变换，再作为下⼀个全连接层的输⼊。⾮线性函数被称为激活函数（activation function）。

ReLU函数

ReLU（rectified linear unit）函数提供了⼀个很简单的⾮线性变换。给定元素 $x$ ，该函数定义为：
$ReLU(x)=\max(x,0) \tag 5$
可以看出，ReLU函数只保留正数元素，并将负数元素清零。

%matplotlib inline
from utils import set_figsize, plt
from mxnet import autograd, nd

# 定义⼀个绘图函数 xyplot
def xyplot(x_vals, y_vals, name):
    set_figsize(figsize=(5, 2.5))
    plt.plot(x_vals.asnumpy(), y_vals.asnumpy())
    plt.xlabel('x')
    plt.ylabel(name + '(x)')

# 通过 NDArray提供的 relu函数来绘制 ReLU函数
x = nd.arange(-8.0, 8.0, 0.1)
x.attach_grad() # 申请存储梯度所需的内存
with autograd.record():
    y = x.relu()
xyplot(x, y, 'relu') # 该激活函数是⼀个两段线性函数

在这里插入图片描述

# 当输⼊为负数时，ReLU函数的导数为0；当输⼊为正数时，ReLU函数的导数为1。
y.backward() # 调用 backward函数自动求梯度
xyplot(x, x.grad, 'grad of relu')

在这里插入图片描述

sigmoid函数

sigmoid函数可以将元素的值变换到0和1之间：
$sigmoid(x)=\frac{1}{1+\exp(-x)} \tag 6$
当输⼊接近0时，sigmoid函数接近线性变换。

with autograd.record():
    y = x.sigmoid()
xyplot(x, y, 'sigmoid')

在这里插入图片描述

依据链式法则，sigmoid函数的导数：
$sigmoid^{'}(x)=sigmoid(x)(1-sigmoid(x)) \tag 7$
当输⼊为0时，sigmoid函数的导数达到最⼤值0.25；当输⼊越偏离0时，sigmoid函数的导数越接近0。

y.backward()
xyplot(x, x.grad, 'grad of sigmoid')

在这里插入图片描述

tanh函数

tanh（双曲正切）函数可以将元素的值变换到-1和1之间：
$tanh(x)=\frac{1-\exp(-2x)}{1+\exp(-2x)} \tag 8$
当输⼊接近0时，tanh函数接近线性变换。虽然该函数的形状和sigmoid函数的形状很像，但tanh函数在坐标系的原点上对称。

with autograd.record():
    y = x.tanh()
xyplot(x, y, 'tanh')

在这里插入图片描述

依据链式法则，tanh函数的导数：
$tanh^{'}(x)=1-tanh^2(x) \tag 9$
当输⼊为0时，tanh函数的导数达到最⼤值1；当输⼊越偏离0时，tanh函数的导数越接近0。

y.backward()
xyplot(x, x.grad, 'grad of tanh')

在这里插入图片描述

多层感知机就是含有⾄少⼀个隐藏层的由全连接层组成的神经⽹络，且每个隐藏层的输出通过激活函数进⾏变换。多层感知机的层数和各隐藏层中隐藏单元个数都是超参数。多层感知机按以下方式计算输出：
$H=\phi(XW_h+b_h), \\ O=HW_o+b_o \tag {10}$
其中 $ϕ\phi$ 表⽰激活函数。

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

类脑解耦大模型最简 MVP 落地｜从根源解决 LLM 臃肿、黑箱、失忆、幻觉四大问题（大模型的思考：四）

本次最简 MVP 的成功跑通，是模块化类脑大模型架构的里程碑式验证。证明了下一代 AI 的发展方向，不再是无休止的参数堆叠，而是智能的解耦、分工、重构。从最初类脑思想实验，到自我纠偏完善理论，再到低成本工程落地，整套体系逻辑自洽、拓展性极强。丰富颜色、形状、材质多类型特征子模块；接入数学运算独立子模块，解决大模型计算错误问题；迭代存储层，从 JSON 平滑升级轻量化数据库；完善联想、想象拓展模块，

脑启社区

告别Transformer？我们为什么必须推翻冯·诺依曼架构

《AI架构革命：从Transformer到光电忆阻器》传统Transformer架构面临算力困境，其O(n²)计算复杂度和冯·诺依曼架构的"存储墙"严重制约发展。新一代技术正加速突破：1）忆阻器实现存算一体，北京大学团队验证能效提升96倍；2）光电融合技术利用光信号突破电子速度极限；3）Mamba架构抛弃注意力机制，推理速度提升5倍；4）数据流芯片（如英伟达收购的Groq）实

脑启社区

一个大专生的自白：我为什么用「类脑架构」重写了分布式系统

BNOS 负责宏观的节点编排与协作，AAA 负责微观的模型自适应推理，两者在设计上是互补的。在查阅了大量现有的分布式框架和智能体（Agent）协作方案后，我发现它们要么过于厚重，要么在节点通信上引入了极高的复杂度。于是，我决定跳出传统的微服务或消息队列思维，尝试从生物大脑中汲取灵感，设计了一套基于仿生神经网络的通用模块化执行引擎——BNOS（Bionic Neural Network Operat