必须减去最大值以保证数值稳定性:使所有指数项≤1,避免exp溢出inf或下溢0,确保至少一项为1,防止softmax输出全0或nan导致梯度崩溃。

Softmax 函数在 C++ 中的正确实现方式
直接用 exp(x) 对每个元素计算再归一化,大概率会遇到 inf 或 nan —— 尤其当输入向量含较大正值(如 100)时,exp(100) 超出 double 表示范围。关键不是“怎么写公式”,而是“怎么稳住数值”。
标准解法是减去最大值(max-shift trick):
std::vectorsoftmax(const std::vector & logits) { double max_val = *std::max_element(logits.begin(), logits.end()); std::vector exps; double sum = 0.0; for (double x : logits) { double exp_x = std::exp(x - max_val); // 防溢出 exps.push_back(exp_x); sum += exp_x; } std::vector result; for (double exp_x : exps) { result.push_back(exp_x / sum); } return result; }
为什么必须减去最大值?数值稳定性原理
softmax(x)_i = exp(x_i) / sum_j exp(x_j),分子分母同乘 exp(-c) 后等价于 exp(x_i - c) / sum_j exp(x_j - c)。只要 c 是常数,结果不变。选 c = max(x) 可保证:
- 所有
x_i - c ≤ 0,所以exp(x_i - c) ∈ (0, 1] - 至少有一个项为
exp(0) = 1,避免全下溢成 0 - 不会出现
inf(除非原始输入本身是inf)
漏掉这步,在训练初期 logits 波动大时,softmax 输出可能全为 0 或 nan,梯度直接崩掉。
立即学习“C++免费学习笔记(深入)”;
用 Eigen 库做向量化加速时的常见陷阱
如果用 Eigen::VectorXd 替代 std::vector,不能直接写 exp(logits) —— 默认不自动做 max-shift。必须手动处理:
Eigen::VectorXd softmax_eigen(const Eigen::VectorXd& logits) {
double max_val = logits.maxCoeff();
Eigen::VectorXd shifted = logits.array() - max_val;
Eigen::VectorXd exps = shifted.array().exp();
double sum = exps.sum();
return exps / sum;
}注意点:
-
.array()必须显式调用,否则.exp()无定义 -
logits.maxCoeff()返回double,不是引用;别误写成&logits.maxCoeff() - 若
logits是空向量,maxCoeff()会抛异常 —— 生产环境需前置检查 - 对小向量(
size ),Eigen 的开销可能比原生循环大,别盲目优化
极端情况:全 NaN 输入或含 inf 的处理策略
真实训练中,前层梯度爆炸可能导致 logits 含 inf 或 nan。此时 max_element 和 exp 行为未定义(C++ 标准不保证),可能静默返回错误结果。
建议在 softmax 前加轻量级校验:
- 用
std::isnan(x)和std::isinf(x)扫描输入 - 发现
nan直接返回全 0 向量(或抛异常,视 pipeline 设计而定) - 发现
+inf:只保留该位置为 1,其余为 0(数学上合理) - 发现
-inf:可设为极小负数(如-1e30)再进 softmax,避免exp(-inf)=0导致除零
这些分支判断成本极低,但能防止 silent failure —— 这类 bug 往往要到 loss 突然卡死才暴露,排查成本远高于预防。











