前向传播是输入数据经加权求和、加偏置、激活函数逐层变换得到输出的过程,不更新参数;反向传播利用链式法则从损失函数梯度出发,逐层计算权重与偏置的梯度并更新。

前向传播:数据怎么“流过”神经网络
前向传播是神经网络做预测的过程:输入数据从输入层开始,逐层经过加权求和、加偏置、激活函数变换,最终得到输出。比如一个两层网络(含1个隐藏层),计算过程是:
- 隐藏层输出 = 激活函数(输入 × 权重₁ + 偏置₁)
- 输出层输出 = 激活函数(隐藏层输出 × 权重₂ + 偏置₂)
常用激活函数如ReLU(max(0, x))或Sigmoid(1 / (1 + exp(-x))),它们让网络能拟合非线性关系。注意:前向传播不更新参数,只产生预测值和中间结果——这些中间结果在反向传播时会被复用。
反向传播:误差怎么“流回来”更新参数
反向传播的本质是链式法则的工程实现:从损失函数对输出的梯度出发,逐层往回计算损失对每个权重和偏置的偏导数。核心步骤是:
- 计算输出层误差项(如:预测值与真实标签的差 × 输出层激活函数导数)
- 用该误差项乘以前一层输出,得到对当前层权重的梯度
- 用误差项乘以1,得到对当前层偏置的梯度
- 将误差项传递到前一层(乘以上一层权重转置,再乘该层激活函数导数)
例如,用均方误差(MSE)和Sigmoid激活时,输出层误差项 = (y_pred − y_true) × y_pred × (1 − y_pred);ReLU的导数在x>0时为1,在x≤0时为0,实际编码中常写成 (x > 0).astype(float)。
立即学习“Python免费学习笔记(深入)”;
手动实现一小段前向+反向代码(无框架)
理解原理最直接的方式是手写一个单隐藏层网络的关键片段:
# 前向 z1 = X @ W1 + b1 # 隐藏层加权和 a1 = np.maximum(0, z1) # ReLU z2 = a1 @ W2 + b2 # 输出层加权和 y_pred = 1 / (1 + np.exp(-z2)) # Sigmoid输出反向(假设MSE损失)
d_loss_dz2 = (y_pred - y_true) y_pred (1 - y_pred) # 输出层误差项 d_loss_dW2 = a1.T @ d_loss_dz2 d_loss_db2 = np.sum(d_loss_dz2, axis=0)
d_loss_da1 = d_loss_dz2 @ W2.T d_loss_dz1 = d_loss_da1 * (z1 > 0) # ReLU导数 d_loss_dW1 = X.T @ d_loss_dz1 d_loss_db1 = np.sum(d_loss_dz1, axis=0)
更新权重(SGD)
W1 -= lr d_loss_dW1 b1 -= lr d_loss_db1 W2 -= lr d_loss_dW2 b2 -= lr d_loss_db2
为什么容易卡在反向传播?几个关键提醒
初学反向传播常因细节出错导致梯度为0或爆炸。注意:
- 矩阵维度必须对齐:W1.shape = (input_dim, hidden_dim),X.shape = (batch_size, input_dim),所以 X @ W1 合理;反向时 d_loss_dW1 = X.T @ d_loss_dz1,形状才匹配
- 激活函数导数不能漏:Sigmoid导数不是“1−y”,而是“y×(1−y)”;ReLU导数不是常数1,需按输入值分段
- 批量训练时,对偏置的梯度要沿 batch 维度求和(np.sum(..., axis=0)),否则形状错
- 初始化权重不能全零:会导致所有神经元学习相同特征,梯度对称失效;推荐用小随机数,如 np.random.randn(...) * 0.01









