Java中高效识别并提取重复元素（保留N-1个副本）的教程

DDD

发布时间：2025-11-16 17:27:17

278人浏览过

来源于php中文网

原创

Java中高效识别并提取重复元素（保留N-1个副本）的教程

本教程旨在介绍如何在java中使用集合框架高效地识别列表中的重复元素，并根据特定需求保留每个重复项的n-1个副本。我们将重点利用`hashset`的o(1)平均时间复杂度特性，实现比传统嵌套循环或`arraylist.contains()`方法更优的性能，确保在处理大量数据时仍能保持高效。

需求分析：识别并保留N-1个重复元素

在数据处理中，我们经常需要从一个集合中找出重复的元素。一个常见的特定需求是，对于列表中出现的每个重复值，我们希望返回其所有重复实例，但排除首次出现的那一个。换句话说，如果一个数字出现了N次，我们希望在结果中保留N-1次。

例如，给定一个整数列表 {1, 1, 2, 2, 2}：

数字 1 出现了 2 次，我们期望返回 1 个 1。
数字 2 出现了 3 次，我们期望返回 2 个 2。因此，最终期望的输出是 {1, 2, 2}。

传统方法的局限性

一种直观但效率低下的方法是使用嵌套循环或在 ArrayList 中反复调用 contains() 方法来检查元素是否已存在。

public static Integer[] returnDuplicateNaive(Integer[] list) {
    List uniqueList = new ArrayList<>(); // 实际上这里是用来存储首次出现的元素
    List duplicates = new ArrayList<>(); // 存储重复元素
    for (int k = 0; k < list.length; k++) {
        // 这种方式的逻辑复杂且效率低下
        // 实际应用中不推荐
        if (uniqueList.contains(list[k])) {
            duplicates.add(list[k]);
        } else {
            uniqueList.add(list[k]);
        }
    }
    return duplicates.toArray(new Integer[0]);
}

上述代码片段虽然可能接近用户尝试的思路，但其核心问题在于 ArrayList.contains() 操作的时间复杂度为 O(N)，在一个循环中多次调用会导致整体算法复杂度上升到 O(N^2)，对于大型数据集而言，性能会急剧下降。

立即学习“Java免费学习笔记（深入）”；

优化方案：利用 HashSet 高效检测重复

为了克服 ArrayList.contains() 的性能瓶颈，我们可以利用 HashSet 的特性。HashSet 内部基于哈希表实现，其 add()、remove() 和 contains() 等操作的平均时间复杂度为 O(1)。

MCP官网

Model Context Protocol（模型上下文协议）

下载

核心思路：

创建一个 HashSet 来存储已经“见过”的唯一元素。
遍历输入列表中的每一个元素。
尝试将当前元素添加到 HashSet 中。
- 如果 HashSet.add() 方法返回 true，表示该元素是第一次被添加，即它是唯一的，HashSet 中之前没有该元素。
- 如果 HashSet.add() 方法返回 false，表示该元素之前已经存在于 HashSet 中，因此它是一个重复元素。此时，我们将这个重复元素添加到结果列表中。

通过这种方式，我们自然地实现了“保留 N-1 个重复副本”的需求，因为每个元素第一次出现时会被 HashSet 记录，而后续的每次出现（即重复）都会被捕获并添加到结果列表中。

代码实现

下面是基于 HashSet 实现高效识别并提取重复元素的方法：

import java.util.ArrayList;
import java.util.Arrays;
import java.util.HashSet;
import java.util.List;
import java.util.Set;

/**
 * 识别并返回列表中除首次出现外所有重复的元素。
 * 例如：{1, 1, 2, 2, 2} 将返回 {1, 2, 2}。
 */
public class DuplicateElementExtractor {

    public static Integer[] returnDuplicates(Integer[] list) {
        // 用于存储所有重复的元素（即除了第一次出现的之外）
        List duplicates = new ArrayList<>();
        // 用于高效地记录已经“见过”的唯一元素
        Set seen = new HashSet<>();

        // 遍历输入列表中的每一个元素
        for (Integer next : list) {
            // 尝试将元素添加到 seen 集合中
            // 如果 add() 返回 false，说明该元素之前已经存在于 seen 集合中，
            // 因此它是一个重复元素，将其添加到 duplicates 列表中。
            if (!seen.add(next)) {
                duplicates.add(next);
            }
        }
        // 将结果列表转换为 Integer 数组并返回
        return duplicates.toArray(new Integer[0]);
        // 或者使用更现代的语法：
        // return duplicates.toArray(Integer[]::new);
    }

    public static void main(String[] args) {
        Integer[] list1 = {1, 1, 2, 2, 2};
        System.out.println("原始列表: " + Arrays.toString(list1));
        System.out.println("重复元素 (N-1副本): " + Arrays.toString(returnDuplicates(list1))); // 预期输出: [1, 2, 2]

        Integer[] list2 = {10, 20, 30, 10, 20, 40, 50, 10};
        System.out.println("原始列表: " + Arrays.toString(list2));
        System.out.println("重复元素 (N-1副本): " + Arrays.toString(returnDuplicates(list2))); // 预期输出: [10, 20, 10]

        Integer[] list3 = {5, 5, 5, 5};
        System.out.println("原始列表: " + Arrays.toString(list3));
        System.out.println("重复元素 (N-1副本): " + Arrays.toString(returnDuplicates(list3))); // 预期输出: [5, 5, 5]

        Integer[] list4 = {1, 2, 3};
        System.out.println("原始列表: " + Arrays.toString(list4));
        System.out.println("重复元素 (N-1副本): " + Arrays.toString(returnDuplicates(list4))); // 预期输出: []
    }
}

输出结果：

原始列表: [1, 1, 2, 2, 2]
重复元素 (N-1副本): [1, 2, 2]
原始列表: [10, 20, 30, 10, 20, 40, 50, 10]
重复元素 (N-1副本): [10, 20, 10]
原始列表: [5, 5, 5, 5]
重复元素 (N-1副本): [5, 5, 5]
原始列表: [1, 2, 3]
重复元素 (N-1副本): []

性能考量与注意事项

时间复杂度： 采用 HashSet 的方法，遍历输入列表一次，每次 add() 操作的平均时间复杂度为 O(1)。因此，整个算法的平均时间复杂度为 O(N)，其中 N 是输入列表的元素数量。这比 O(N^2) 的传统方法有了显著的性能提升。
空间复杂度： 需要额外的空间来存储 HashSet (seen 集合) 和 ArrayList (duplicates 列表)。在最坏情况下（所有元素都不同），seen 集合将存储 N 个元素；在最好情况下（所有元素都相同），seen 集合将存储 1 个元素。duplicates 列表最多存储 N-1 个元素。因此，空间复杂度为 O(N)。
元素类型： 此方法适用于任何可以正确实现 hashCode() 和 equals() 方法的 Java 对象，因为 HashSet 依赖于这两个方法来确定元素的唯一性。对于标准包装类（如 Integer、String 等），这些方法已经正确实现。
顺序： 结果列表 duplicates 中的元素顺序会保留它们在原始列表中作为重复项出现的顺序。例如，如果 1 在索引 1 处重复，2 在索引 3 处重复，那么结果中 1 会在 2 之前。