
在卷积神经网络(cnn)图像分类任务中,我们期望模型能够学习到不同类别的特征并给出多样化的预测结果。然而,有时即使训练损失函数平稳下降,模型却可能表现出异常行为:在训练初期,它可能倾向于预测某个特定类别(例如始终预测为 0),而在训练后期,又可能完全集中于预测另一个占多数的类别(例如始终预测为 2)。这种现象导致模型的准确率极低,且无法有效区分不同图像。
这种单一预测的问题表明模型并未真正学习到有意义的特征,而是找到了一个“捷径”——通过简单地预测最常见的类别来最小化损失,尤其当数据集存在严重类别不平衡时。
导致PyTorch CNN模型在训练中输出单一结果的主要原因通常有两个:
数据归一化缺失: 图像数据通常具有较大的像素值范围(例如0-255)。如果不对这些数据进行归一化处理,直接输入到神经网络中,可能导致以下问题:
数据集类别不平衡: 在分类任务中,如果某些类别的样本数量远多于其他类别,模型在训练过程中会倾向于偏向于预测多数类别。这是因为预测多数类别可以更容易地降低整体损失,而忽略了对少数类别的识别。在给定的例子中,类别 2 占据了约50%的样本,这很可能导致模型最终只预测 2。
针对上述问题,我们可以采取以下策略来改进模型训练:
数据归一化是将输入数据缩放到一个标准范围内的关键步骤。对于RGB图像,通常将其像素值从 [0, 255] 范围缩放到 [0, 1],然后进行标准化(减去均值,除以标准差)。
实现方法: 在 torchvision.transforms.v2.Compose 中添加 v2.Normalize 转换。均值(mean)和标准差(std)可以根据整个数据集计算,或者使用预训练模型常用的ImageNet统计值作为起点。
import torch
import torch.nn as nn
import torch.nn.functional as F
import torchvision.transforms.v2 as v2
from torch.utils.data import DataLoader, Dataset
import numpy as np
# 假设UBCDataset是一个自定义数据集,能返回图片和标签
# class UBCDataset(Dataset):
# def __init__(self, transforms=None):
# # ... dataset initialization ...
# self.transforms = transforms
#
# def __len__(self):
# # ... return dataset size ...
# return 100 # Example size
#
# def __getitem__(self, idx):
# # ... load image and label ...
# image = torch.randn(3, 255, 255) # Example: random RGB image
# label = torch.randint(0, 5, (1,)).item() # Example: random label 0-4
# if self.transforms:
# image = self.transforms(image)
# return image, label
# 针对RGB图像的均值和标准差(例如使用ImageNet的统计值)
# 建议根据自己的数据集计算精确的均值和标准差
mean = [0.485, 0.456, 0.406] # ImageNet mean for R, G, B channels
std = [0.229, 0.224, 0.225] # ImageNet std for R, G, B channels
transforms = v2.Compose([
v2.ToImageTensor(),
v2.ConvertImageDtype(torch.float), # 确保转换为浮点类型
v2.Resize((256, 256), antialias=True),
v2.Normalize(mean=mean, std=std) # 添加归一化步骤
])
# dataset = UBCDataset(transforms=transforms)
# full_dataloader = DataLoader(dataset, batch_size=10, shuffle=True) # 训练时通常shuffle当数据集存在类别不平衡时,可以通过为 CrossEntropyLoss 函数提供 weight 参数来解决。这个 weight 参数是一个张量,其中每个元素对应一个类别的权重。通常,我们会给样本数量较少的类别更高的权重,给样本数量较多的类别更低的权重。
实现方法:
# 假设我们已经统计了每个类别的样本数量
# 这是一个示例,实际应用中需要从数据集中获取真实的类别计数
# 假设有5个类别,类别2的样本数量最多
n_categories = 5
# 示例:假设实际数据集中各类别样本数量
# 类别0: 100, 类别1: 150, 类别2: 500, 类别3: 120, 类别4: 80
class_counts = torch.tensor([100, 150, 500, 120, 80], dtype=torch.float32)
# 计算类别权重
# 一种常用的方法是:weight_i = total_samples / (n_categories * class_count_i)
# 或者更简单的逆频率:weight_i = 1.0 / class_count_i,然后归一化
# 这里使用 inverse frequency 并归一化,使得权重总和为类别数
class_weights = 1.0 / class_counts
class_weights = class_weights / class_weights.sum() * n_categories # 归一化以保持尺度
# 将权重传递给CrossEntropyLoss
loss_fn = nn.CrossEntropyLoss(weight=class_weights)
# 注意:如果模型在GPU上训练,class_weights也需要移动到GPU
# if torch.cuda.is_available():
# class_weights = class_weights.to('cuda')
# loss_fn = nn.CrossEntropyLoss(weight=class_weights)结合上述解决方案,以下是修正后的模型、数据加载、损失函数和训练循环的关键部分。
# 定义CNN模型(与原问题中的模型相同)
class CNN(nn.Module):
def __init__(self, n_layers=3, n_categories=5):
super(CNN, self).__init__()
# n_layers在这里通常指输入通道数,对于RGB图像是3
self.conv1 = nn.Conv2d(n_layers, 6, 5)
self.pool = nn.MaxPool2d(2, 2)
self.conv2 = nn.Conv2d(6, 16, 5)
self.conv3 = nn.Conv2d(16, 16, 5) # 增加一个卷积层
# 重新计算全连接层输入维度
# 假设输入256x256,经过三次MaxPool2d(2,2)
# 256 -> 128 (pool1) -> 64 (pool2) -> 32 (pool3)
# 卷积核大小5x5,每次卷积会减小图像尺寸 (5-1) = 4像素
# conv1: (256-4) = 252 -> pool1: 126
# conv2: (126-4) = 122 -> pool2: 61
# conv3: (61-4) = 57 -> pool3: 28 (如果conv3的输出是57x57,maxpool2x2会变成28x28)
# 原始问题中是28*28,这里保持一致
self.fc1 = nn.Linear(16 * 28 * 28, 200) # 修正为28*28
self.fc2 = nn.Linear(200, 84)
self.fc3 = nn.Linear(84, n_categories)
def forward(self, x):
x = self.pool(F.relu(self.conv1(x)))
x = self.pool(F.relu(self.conv2(x)))
x = self.pool(F.relu(self.conv3(x)))
# 展平操作
x = x.view(-1, 16 * 28 * 28) # 确保这里的维度与fc1输入匹配
x = F.relu(self.fc1(x))
x = F.relu(self.fc2(x))
x = self.fc3(x) # 最后一层通常不加激活函数,因为CrossEntropyLoss内部会处理
return x
# 实例化模型
model = CNN(n_layers=3, n_categories=5) # n_layers应为输入图像通道数,RGB是3
# 优化器
optimizer = torch.optim.SGD(model.parameters(), lr=0.001, momentum=0.9)
# 假设UBCDataset和full_dataloader已经定义并包含上述更新的transforms
# 训练循环
# batches = iter(full_dataloader) # 通常不手动迭代,而是直接在for循环中使用dataloader
# 模拟数据集和数据加载器,以便代码可运行
class MockUBCDataset(Dataset):
def __init__(self, transforms=None, num_samples=1000, n_categories=5):
self.transforms = transforms
self.num_samples = num_samples
self.n_categories = n_categories
# 模拟类别不平衡数据
self.labels = torch.cat([
torch.full((int(num_samples * 0.1),), 0), # 10% class 0
torch.full((int(num_samples * 0.15),), 1), # 15% class 1
torch.full((int(num_samples * 0.5),), 2), # 50% class 2
torch.full((int(num_samples * 0.12),), 3), # 12% class 3
torch.full((int(num_samples * 0.13),), 4) # 13% class 4
]).long()
# 确保总样本数一致
self.labels = self.labels[:num_samples]
def __len__(self):
return self.num_samples
def __getitem__(self, idx):
# 模拟255x255 RGB图像
image = torch.rand(3, 255, 255) * 255 # 模拟0-255范围的原始图像
label = self.labels[idx]
if self.transforms:
image = self.transforms(image)
return image, label
dataset = MockUBCDataset(transforms=transforms, num_samples=1000, n_categories=5)
full_dataloader = DataLoader(dataset, batch_size=10, shuffle=True) # 训练时通常shuffle
# 重新计算类别权重(基于模拟数据集)
# 统计模拟数据集中的真实类别分布
actual_class_counts = torch.zeros(n_categories, dtype=torch.float32)
for label in dataset.labels:
actual_class_counts[label] += 1
class_weights = 1.0 / actual_class_counts
class_weights = class_weights / class_weights.sum() * n_categories
# 损失函数(使用加权交叉熵)
loss_fn = nn.CrossEntropyLoss(weight=class_weights)
# 将模型和权重移动到GPU(如果可用)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)
loss_fn.to(device) # 权重也需要移动到设备上
print("LABELS OUTPUT CORRECT LOSS")
num_epochs = 5 # 示例训练5个epoch
for epoch in range(num_epochs):
print(f"\n--- Epoch {epoch+1}/{num_epochs} ---")
model.train() # 设置模型为训练模式
for batch_idx, (X, y) in enumerate(full_dataloader):
X, y = X.to(device), y.to(device) # 将数据移动到设备上
optimizer.zero_grad() # 在每次迭代开始时清零梯度
pred = model(X)
loss = loss_fn(pred, y)
loss.backward()
optimizer.step()
if batch_idx % 50 == 0: # 每50个batch打印一次
predicted_labels = pred.argmax(1)
correct_predictions = (y == predicted_labels).sum().item()
print(f"Batch {batch_idx}: {y.cpu()} {predicted_labels.cpu()} {correct_predictions} / {len(y)} {loss.item():.4f}")
# 在每个epoch结束时可以进行验证或评估
# model.eval()
# with torch.no_grad():
# # ... 评估逻辑 ...当PyTorch CNN模型在训练过程中输出单一类别时,这通常是数据预处理不当和/或数据集类别不平衡的信号。通过对输入图像进行适当的归一化处理,并利用加权交叉熵损失函数来处理类别不平衡问题,可以显著改善模型的训练行为,使其能够学习到更丰富、更多样化的特征,从而提高分类的准确性和鲁棒性。这些基础但关键的步骤是构建高性能深度学习模型的基石。
以上就是PyTorch CNN训练输出异常:单一预测与解决方案的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号