CNN的核心是通过局部感知、参数共享和空间下采样高效提取层次化特征:卷积层用滑动窗口提取局部模式,池化层降维并增强平移不变性,ReLU引入非线性,全连接层实现特征到类别的映射。

卷积神经网络(CNN)是图像识别的基石,它的核心不在于堆叠层数,而在于用局部感知、参数共享和空间下采样来高效提取图像的层次化特征。
卷积层:让网络“看懂”局部模式
图像本质是像素矩阵,直接全连接处理计算量爆炸且忽略空间结构。卷积层通过滑动小窗口(卷积核)在图像上逐区域扫描,每步只计算该区域与核的加权和,再加偏置、激活。这个过程模拟人眼对边缘、纹理等局部特征的敏感性。
关键点:
- 卷积核大小(如3×3)决定感受野范围,小核更关注细节,大核易捕获粗粒度结构
- 步长(stride)控制滑动间隔,增大步长可压缩输出尺寸
- 填充(padding)能保持输入输出尺寸一致,常用"same"填充
- 多个卷积核并行工作,每个生成一个特征图(feature map),共同构成通道维度
池化层:降维+抗干扰,不是可有可无
池化(常用最大池化)在局部区域内取最大值(或平均值),主要作用不是“压缩数据”,而是降低特征图的空间分辨率、增强平移不变性,并抑制过拟合。
立即学习“Python免费学习笔记(深入)”;
例如,一个3×3区域内最大响应值保留下来,意味着即使目标轻微移动,只要还在该区域内,特征仍能被捕捉——这对识别旋转、缩放、偏移的物体至关重要。
注意:池化层无参数,不参与反向传播更新;现代部分模型(如ResNet)会用步长卷积替代池化,但思想一致。
激活函数与非线性:打破线性表达瓶颈
没有激活函数的CNN只是多个线性变换的叠加,等价于单层线性模型,无法拟合复杂图像分布。ReLU(f(x)=max(0,x))因计算快、缓解梯度消失,成为默认选择。
它让负值归零,只保留正向响应,使网络具备分段线性拟合能力。实践中,ReLU通常紧接在卷积层之后,再进入池化。
全连接层与分类头:从特征到决策
经过多轮卷积+池化后,高维特征图被展平为一维向量,送入全连接层。这里不再强调空间关系,而是学习特征组合与类别映射关系。
最后一层常用Softmax(多分类)或Sigmoid(二分类)输出概率分布。训练时配合交叉熵损失函数,通过反向传播不断调整所有层权重——包括卷积核参数,这才是CNN真正“学会看图”的过程。
补充:Batch Normalization常插在卷积/全连接后、激活前,稳定训练;Dropout用于全连接层防过拟合。










