MongoDB聚合查询：如何获取包含重复字段的完整文档信息

DDD

发布时间：2025-11-27 16:52:09

963人浏览过

来源于php中文网

原创

MongoDB聚合查询：如何获取包含重复字段的完整文档信息

在mongodb聚合查询中，`$group`阶段常用于对文档进行分组并执行聚合操作，但它也会默认消除分组键的重复项。若需获取所有匹配文档，包括那些具有重复字段值的文档，核心在于移除或避免使用`$group`阶段，从而让所有符合条件的文档直接通过管道，保留其原始结构和重复信息。

MongoDB的聚合框架是一个强大而灵活的数据处理工具，它允许开发者通过一系列管道操作对数据进行转换和分析。然而，在使用过程中，开发者有时会遇到一个常见需求：如何从聚合查询中获取包含重复字段值的完整文档信息，而不是去重后的结果。这通常是由于对$group阶段的理解或使用不当造成的。

理解$group阶段的作用

$group是MongoDB聚合管道中的一个关键阶段，其主要作用是根据指定的_id表达式对文档进行分组，并对每个组执行聚合操作（如$sum、$avg、$first等）。

工作原理： 当$group阶段被应用于管道时，它会遍历所有输入文档，并根据_id字段的值将它们归类。所有具有相同_id值的文档将被视为一个组，并最终生成一个代表该组的新文档作为输出。

导致去重的原因： 在原始的聚合代码中，TypedAggregation.group("numBerId")指定"numBerId"作为分组键。这意味着所有具有相同numBerId值的文档将被合并成一个单一的输出文档，其_id就是该numBerId的值。这种操作的本质就是对numBerId字段进行了去重，因此最终结果中只会包含唯一的numBerId值，而无法获取到原始的、包含重复numBerId的完整文档信息。

解决方案：移除$group阶段

如果您的目标是获取所有匹配的文档，包括那些numBerId值重复的文档，那么就不应该使用$group阶段。$match阶段已经完成了筛选工作，后续的阶段应该专注于保留或转换这些文档，而不是去重。

修改后的聚合管道逻辑：

要获取包含重复numBerId的完整文档信息，只需从聚合管道中移除TypedAggregation.group("numBerId")这一行。这样，$match阶段筛选出的所有文档将直接通过管道，经过$limit和$sort阶段后，最终作为结果返回。

AdsGo AI

全自动 AI 广告专家，助您在数分钟内完成广告搭建、优化及扩量

下载

示例代码（Java Spring Data MongoDB）：

以下代码展示了如何修改聚合管道以获取包含重复字段的完整文档，并提供了两种获取方式：仅获取指定字段列表或获取完整的文档列表。

import org.springframework.data.mongodb.core.MongoTemplate;
import org.springframework.data.mongodb.core.aggregation.Aggregation;
import org.springframework.data.mongodb.core.aggregation.TypedAggregation;
import org.springframework.data.mongodb.core.query.Criteria;
import org.springframework.data.domain.Sort.Direction;
import org.bson.Document;
import java.util.List;
import java.util.stream.Collectors;

public class MongoDuplicateDataFetcher {

    private final MongoTemplate mongoTemplate;
    private final String collectionName;

    public MongoDuplicateDataFetcher(MongoTemplate mongoTemplate, String collectionName) {
        this.mongoTemplate = mongoTemplate;
        this.collectionName = collectionName;
    }

    /**
     * 从MongoDB集合中获取所有匹配的numBerId字段，包括重复值。
     * 此方法会返回一个可能包含重复numBerId的字符串列表。
     *
     * @param numBerId 匹配的numBerId前缀
     * @return 包含所有匹配numBerId的列表，可能包含重复值
     */
    public List getAllNumBerIdsWithDuplicates(String numBerId) {
        TypedAggregation agg = TypedAggregation.newAggregation(Document.class,
            // 阶段1: 匹配符合条件的文档
            TypedAggregation.match(Criteria.where("numBerId").regex("^" + numBerId, "i")
                    .andOperator(Criteria.where("numBerId").ne(""))),
            // 阶段2: 限制返回文档数量
            TypedAggregation.limit(20000),
            // 阶段3: 对结果进行排序，这里选择按numBerId字段升序
            // 如果需要对整个文档进行排序，可以根据其他字段进行
            TypedAggregation.sort(Direction.ASC, "numBerId")
            // 注意: 移除了TypedAggregation.group("numBerId")，以保留所有文档和重复值
        );

        // 执行聚合，获取映射后的结果列表。
        // 此时，每个Document都是一个完整的匹配文档。
        List results = mongoTemplate.aggregate(agg, collectionName, Document.class).getMappedResults();

        // 从每个文档中提取numBerId字段并收集成列表
        return results.stream()
                .map(d -> (String) d.get("numBerId"))
                .collect(Collectors.toList());
    }

    /**
     * 从MongoDB集合中获取所有匹配的完整文档，包括重复值。
     * 此方法会返回一个包含完整文档对象的列表。
     *
     * @param numBerId 匹配的numBerId前缀
     * @return 包含所有匹配文档的列表，可能包含重复值
     */
    public List getAllDocumentsWithDuplicates(String numBerId) {
        TypedAggregation agg = TypedAggregation.newAggregation(Document.class,
            // 阶段1: 匹配符合条件的文档
            TypedAggregation.match(Criteria.where("numBerId").regex("^" + numBerId, "i")
                    .andOperator(Criteria.where("numBerId").ne(""))),
            // 阶段2: 限制返回文档数量
            TypedAggregation.limit(20000),
            // 阶段3: 对结果进行排序
            TypedAggregation.sort(Direction.ASC, "numBerId")
        );
        // 直接返回映射后的完整文档列表
        return mongoTemplate.aggregate(agg, collectionName, Document.class).getMappedResults();
    }
}

关键点与注意事项：

移除$group： 这是解决问题的核心。一旦移除了$group阶段，$match筛选出的所有文档都将保留其原始结构和所有字段，包括那些numBerId值重复的文档。
getMappedResults() vs getRawResults()：
- 在Spring Data MongoDB中，mongoTemplate.aggregate(...).getMappedResults()通常更方便。它直接将聚合管道的最终输出映射到指定的类型（如Document或自定义POJO）并返回一个列表。
- getRawResults()会返回原始的聚合管道输出Document，这个Document通常包含一个名为results的数组，需要您手动解析。对于不包含$group且未指定$out或$merge等输出阶段的聚合，getMappedResults()通常直接返回匹配的文档列表。
数据提取：
- 如果您只需要特定字段（如numBerId）的列表，可以在获取到List后，使用Java 8 Stream API对其进行映射和收集。
- 如果您需要的是包含所有字段的完整文档对象，那么直接返回getMappedResults()的结果即可。
$limit和$sort的位置： 这些阶段可以在$match之后直接应用，以限制和排序匹配到的所有文档。$sort可以根据任何字段进行，包括numBerId。

总结

在MongoDB聚合查询中，获取包含重复字段的完整文档信息，其核心在于理解和正确使用聚合管道的各个阶段。当目标是保留所有匹配文档及其原始结构（包括重复值）时，应避免使用$group阶段。$match阶段负责筛选，而后续的$limit、$sort等阶段则直接作用于这些筛选出的文档，确保所有符合条件的文档都能被返回。通过移除不必要的$group阶段，开发者可以轻松实现获取包含重复数据的完整文档列表的需求。这种方法保持了数据的完整性，并避免了不必要的去重操作。

VSCode Java项目加载缓慢问题的终极解决方案

Java Socket 客户端连接宿主机服务的 Docker 端口转发配置指南

如何快速解决 VS Code 首次加载 Java 项目缓慢的问题

在Java里如何实现命令行待办事项工具_JavaList实战解析

Java并发编程中的并发库与工具类介绍