深度学习中余弦相似度为1的常见原因及调试指南

聖光之護

发布时间：2025-10-03 16:28:01

198人浏览过

来源于php中文网

原创

深度学习中余弦相似度为1的常见原因及调试指南

本教程深入探讨了在深度学习任务中，即使输入张量看似不同，余弦相似度仍可能计算为1的常见原因。文章解释了余弦相似度仅衡量向量方向而非幅度的特性，并通过分析代码示例揭示了导致向量完全对齐的多种情况，包括直接赋值和模型输出的特性。同时，提供了详细的调试策略，帮助开发者识别并解决此类问题。

1. 余弦相似度的核心概念

余弦相似度（cosine similarity）是一种衡量两个非零向量之间夹角余弦值的度量方法。它的核心在于评估向量的方向相似性，而非其幅值（长度）的差异。当两个向量的方向完全一致时，它们之间的夹角为0度，余弦值为1；当方向完全相反时，夹角为180度，余弦值为-1；当它们正交时，夹角为90度，余弦值为0。

其计算公式如下： $$ \text{similarity} = \cos(\theta) = \frac{A \cdot B}{|A| |B|} = \frac{\sum_{i=1}^n A_i Bi}{\sqrt{\sum{i=1}^n Ai^2} \sqrt{\sum{i=1}^n B_i^2}} $$ 其中，$A$ 和 $B$ 是两个向量，$A \cdot B$ 是它们的点积，$|A|$ 和 $|B|$ 分别是它们的欧几里得范数（即向量的长度或幅值）。

2. 余弦相似度为1的深层机制

理解余弦相似度为1的关键在于认识到它只关注方向。即使两个向量的数值内容完全不同，只要它们在多维空间中指向同一个方向，它们的余弦相似度就会是1。

2.1 向量完全相同

这是最直接的情况。如果两个向量在数值上完全相同，它们无疑指向同一个方向，且幅值也相同，因此余弦相似度为1。

2.2 向量共线且方向一致（幅值不同）

这是更具迷惑性的情况，也是许多开发者容易忽视的。如果一个向量是另一个向量的正数倍，那么它们的方向是完全一致的，即使它们的幅值（长度）不同，余弦相似度仍然为1。

示例代码：

import torch
import torch.nn.functional as F

# 向量A
vector_a = torch.tensor([1.0, 2.0, 3.0])

# 向量B是向量A的两倍（方向相同，幅值不同）
vector_b = vector_a * 2
print(f"Vector A: {vector_a}")
print(f"Vector B: {vector_b}")

# 计算余弦相似度
similarity = F.cosine_similarity(vector_a, vector_b, dim=-1)
print(f"Cosine Similarity (A, B): {similarity.item()}") # 输出接近 1.0

# 向量C与向量A方向不同
vector_c = torch.tensor([3.0, 2.0, 1.0])
print(f"Vector C: {vector_c}")
similarity_ac = F.cosine_similarity(vector_a, vector_c, dim=-1)
print(f"Cosine Similarity (A, C): {similarity_ac.item()}") # 输出一个小于1的值

在这个例子中，vector_a 和 vector_b 的数值内容明显不同，但它们的余弦相似度是1，因为它们指向相同的方向。

3. 深度学习场景下的具体分析与代码解析

在深度学习模型中，尤其是在处理嵌入向量（embeddings）时，余弦相似度为1的问题可能由多种因素引起。结合提供的训练代码，我们可以进行详细分析。

3.1 训练循环中的张量来源分析

观察训练代码中的关键部分：

Revid AI

AI短视频生成平台

下载

for i, (_image1, _label1) in enumerate(train_loader):
    image1 = _image1.to(DEVICE)
    label1 = _label1[0]
    vector1_tensor = model(image1) # 当前批次的嵌入向量

    if (i == 0): # 异常处理或初始化情况
      image2 = image1
      label2 = label1
      vector2_tensor = vector1_tensor # 直接将 vector1_tensor 赋值给 vector2_tensor

    # PROBLEM LOCATION
    similarity =  F.cosine_similarity(vector1_tensor, vector2_tensor, dim = -1)
    # ... 其他训练逻辑 ...

    # 循环结束前的张量回收与更新
    image2 = image1.clone()
    label2 = label1
    vector2_tensor = vector1_tensor.detach() # 将当前 vector1_tensor 的副本（无梯度）赋给 vector2_tensor

初始化阶段 (i == 0) 的问题： 在第一个批次（i == 0）中，vector2_tensor 被直接赋值为 vector1_tensor。这意味着 vector1_tensor 和 vector2_tensor 指向的是同一个张量对象。它们不仅数值相同，而且是内存中的同一份数据。在这种情况下，它们的余弦相似度必然为1。即使它们在后续的梯度计算中可能因为 detach() 操作而有所区分，但在计算 similarity 的那一刻，它们是完全相同的。
后续迭代 (i > 0) 的问题： 在随后的迭代中，vector2_tensor 的值来源于上一个迭代中 vector1_tensor 的 detach() 副本。这意味着当前迭代计算的 similarity 是在比较：
- vector1_tensor (当前批次的 image1 经过 model 得到的嵌入)
- vector2_tensor (上一个批次的 image1 经过 model 得到的嵌入，且已 detach())
如果 vector1_tensor 和 vector2_tensor 始终计算为1，则意味着：
- 模型输出的稳定性： 尽管 image1 可能在批次之间有所不同，但模型（例如VGG作为特征提取器）可能将不同输入映射到高度相似或共线的嵌入空间中。
- 数据本身的相似性： 如果连续批次的 image1 之间差异非常小，即使模型正常工作，其输出的嵌入向量也可能高度相似。
- 模型坍塌 (Model Collapse)： 在对比学习或自监督学习中，如果损失函数或正则化不当，模型可能会将所有输入映射到相同的点或方向，导致嵌入空间坍塌，所有嵌入向量的余弦相似度都趋近于1。这通常是训练失败的信号。

3.2 VGG 模型与嵌入空间

提供的 trans_VGG 模型是一个基于VGG架构的特征提取器，它将输入图像转换为一个固定维度的向量（例如800维）。如果这个VGG模型没有经过充分的预训练，或者在当前任务中其全连接层（fc_layer）未能学习到区分性的特征，它可能会将不同的输入图像映射到高度相似的向量方向上。

4. 调试与验证策略

当遇到余弦相似度持续为1的问题时，可以采取以下步骤进行调试和验证：

4.1 检查张量内容与属性

这是最直接的验证方式，可以帮助你了解 vector1_tensor 和 vector2_tensor 的实际状态。

# 在计算 similarity 之前添加以下调试代码
print(f"Iteration: {i}")
print(f"vector1_tensor shape: {vector1_tensor.shape}, norm: {torch.norm(vector1_tensor).item():.4f}")
print(f"vector2_tensor shape: {vector2_tensor.shape}, norm: {torch.norm(vector2_tensor).item():.4f}")

# 打印张量的前几个元素，观察数值差异
print(f"vector1_tensor (first 5 elements): {vector1_tensor[0, :5]}")
print(f"vector2_tensor (first 5 elements): {vector2_tensor[0, :5]}")

# 检查张量是否是同一个对象
print(f"Are vector1_tensor and vector2_tensor the same object? {vector1_tensor is vector2_tensor}")

# 检查张量是否包含完全相同的数值
print(f"Are vector1_tensor and vector2_tensor numerically equal? {torch.equal(vector1_tensor, vector2_tensor)}")

# 手动计算余弦相似度以验证 F.cosine_similarity 的行为
dot_product = torch.sum(vector1_tensor * vector2_tensor, dim=-1)
norm_v1 = torch.norm(vector1_tensor, dim=-1)
norm_v2 = torch.norm(vector2_tensor, dim=-1)
manual_similarity = dot_product / (norm_v1 * norm_v2 + 1e-8) # 加一个小的 epsilon 避免除以零
print(f"Manual Cosine Similarity: {manual_similarity.item():.4f}")

通过这些打印信息，你可以快速判断：

如果 vector1_tensor is vector2_tensor 为 True，那么问题出在张量赋值逻辑上。
如果 torch.equal(vector1_tensor, vector2_tensor) 为 True 但 is 为 False（例如通过 clone() 复制），则它们是数值完全相同的不同对象。
如果两者都为 False，但余弦相似度仍为1，则说明它们是数值不同但方向一致的共线向量。

4.2 审查训练逻辑与数据来源

确认 vector1_tensor 和 vector2_tensor 的预期来源： 在对比学习任务中，通常 vector1_tensor 和 vector2_tensor 应该来自不同的输入（例如，一对正样本或一对负样本），以学习区分性特征。目前的逻辑 (vector2_tensor = vector1_tensor 或 vector1_tensor.detach()) 使得它们之间存在强烈的依赖性，这可能不是期望的对比对生成方式。
检查数据加载器： 确保 train_loader 每次提供的 _image1 具有足够的随机性和多样性。如果数据集非常小或图像内容高度相似，即使模型正常，输出的嵌入也可能趋于一致。

4.3 调整模型架构或训练策略

模型坍塌的缓解： 如果怀疑是模型坍塌，可以考虑：
- 增加对比损失的负样本数量： 确保模型有足够的“不相似”样本来学习区分。
- 引入正则化： 例如L2正则化、Dropout等，防止模型过拟合或特征退化。
- 使用不同的损失函数： 例如InfoNCE损失等，这些损失函数通常设计有防止模型坍塌的机制。
- 调整学习率和优化器： 适当调整超参数可能有助于模型跳出局部最优。
VGG特征提取器： 如果VGG模型是随机初始化的，其在训练初期可能无法提取有意义的特征。考虑使用预训练的VGG模型，并在其基础上进行微调。

4.4 可视化嵌入空间

使用降维技术（如PCA或t-SNE）将高维嵌入向量投影到2D或3D空间中，可以直观地观察嵌入向量的分布。如果所有嵌入点都聚集在一个非常小的区域，或者呈现出明显的共线趋势，则表明模型可能存在坍塌问题。

5. 注意事项

区分“不同”的含义： 在调试时，要明确“张量不同”是指内存地址不同 (is not)、数值内容不同 (torch.equal 为 False)，还是仅仅是幅值不同但方向一致。
对比学习的挑战： 在设计对比学习任务时，如何有效地生成正负样本对，以及如何避免模型坍塌，是核心挑战。确保 vector1_tensor 和 vector2_tensor 的来源和关系能够真正反映你想要学习的相似性/差异性。
梯度流： detach() 操作会切断梯度流。在你的代码中，vector2_tensor = vector1_tensor.detach() 意味着 `vector