使用 PyTorch 实现多 Softmax 输出的神经网络-Python教程-PHP中文网

使用 PyTorch 实现多 Softmax 输出的神经网络

心靈之曲

发布： 2025-10-07 14:53:55

原创

777人浏览过

使用 pytorch 实现多 softmax 输出的神经网络

本文介绍了如何使用 PyTorch 构建一个具有多个独立二元分类输出的神经网络。重点讲解了如何选择合适的损失函数 BCEWithLogitsLoss，以及如何正确配置神经网络的输出层，以解决需要预测多个 0 到 1 值的问题，并提供代码示例和注意事项，帮助读者理解和应用该方法。

在构建神经网络时，如果需要网络输出多个独立的 0 到 1 之间的值，而不是进行多类别分类，那么传统的 nn.Softmax() 和 CrossEntropyLoss 就不再适用。这种情况通常出现在需要预测多个标签，每个标签都是二元（0 或 1）的情况下。本文将介绍如何使用 PyTorch 中的 BCEWithLogitsLoss 损失函数来解决这个问题。

理解问题

传统的 Softmax 函数通常用于多类别分类，它会将网络的输出转化为一个概率分布，所有输出之和为 1。然而，当需要预测多个独立的二元值时，每个输出应该被视为一个独立的二元分类问题。

解决方案：BCEWithLogitsLoss

BCEWithLogitsLoss 是 PyTorch 中用于二元交叉熵损失的函数，它结合了 Sigmoid 函数和 BCELoss 函数。Sigmoid 函数将网络的输出值压缩到 0 到 1 之间，表示概率。BCELoss 函数则计算二元交叉熵损失。

以下是使用 BCEWithLogitsLoss 的步骤：

ViiTor实时翻译

AI实时多语言翻译专家！强大的语音识别、AR翻译功能。

116

查看详情

网络结构： 确保网络的输出层具有与目标输出数量相同的神经元。
损失函数： 使用 BCEWithLogitsLoss 作为损失函数。
前向传播： 在前向传播过程中，直接输出网络的原始输出，不需要应用 Softmax 或 Sigmoid 函数，因为 BCEWithLogitsLoss 内部已经包含了 Sigmoid 函数。

代码示例

以下是一个示例代码，展示了如何使用 BCEWithLogitsLoss 构建一个具有多个二元分类输出的神经网络：

import torch
import torch.nn as nn
import torch.optim as optim

class NeuralNet(nn.Module):
    def __init__(self, input_size, hidden_size, num_outputs):
        super(NeuralNet, self).__init__()
        self.fc1 = nn.Linear(input_size, hidden_size)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(hidden_size, num_outputs)

    def forward(self, x):
        out = self.fc1(x)
        out = self.relu(out)
        out = self.fc2(out)  # No Sigmoid here!
        return out

# 超参数
input_size = 10
hidden_size = 20
num_outputs = 5
learning_rate = 0.001
num_epochs = 100

# 模型实例化
model = NeuralNet(input_size, hidden_size, num_outputs)

# 损失函数和优化器
criterion = nn.BCEWithLogitsLoss()
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

# 示例数据
input_data = torch.randn(32, input_size) # 32个样本，每个样本10个特征
target_data = torch.randint(0, 2, (32, num_outputs)).float() # 32个样本，每个样本5个二元标签

# 训练循环
for epoch in range(num_epochs):
    # 前向传播
    outputs = model(input_data)
    loss = criterion(outputs, target_data)

    # 反向传播和优化
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    if (epoch+1) % 10 == 0:
        print (f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}')

登录后复制

代码解释：

num_outputs: 定义了输出的数量，对应于需要预测的二元标签的数量。
BCEWithLogitsLoss(): 选择 BCEWithLogitsLoss 作为损失函数。
model(x): 在前向传播过程中，直接输出 fc2 层的输出，不需要应用 Sigmoid 函数。
target_data: 目标数据应该是浮点数类型，且值为0或1。

注意事项

数据类型： 确保目标数据（target_data）是 torch.float 类型，并且值是 0 或 1。
Sigmoid 函数： 不要在网络的前向传播中显式地应用 Sigmoid 函数，因为 BCEWithLogitsLoss 内部已经包含了 Sigmoid 函数。
输出解释： 网络的输出值是 logits，可以通过 torch.sigmoid(outputs) 将其转换为概率值，用于后续的分析或决策。