使用Java Stream API高效处理列表去重：基于ID和日期筛选最新记录

DDD

发布时间：2025-08-05 16:36:13

301人浏览过

来源于php中文网

原创

使用Java Stream API高效处理列表去重：基于ID和日期筛选最新记录

本文详细介绍了如何利用Java Stream API，特别是Collectors.toMap结合自定义合并函数，优雅地解决列表中对象去重的问题。针对具有相同ID但不同时间戳的对象，教程演示了如何保留具有最新日期时间的对象，从而实现数据清洗和筛选，提高代码的可读性和效率。

在日常的软件开发中，我们经常会遇到需要处理包含重复数据的列表。例如，一个学生列表中可能存在多个具有相同学号（id）但不同入学日期（startdatetime）的记录，而我们只希望保留每个学号对应的最新记录。传统的方法可能涉及循环遍历、使用辅助set或map进行手动去重和比较，这往往导致代码冗长且可读性差。java 8引入的stream api提供了一种更简洁、更具函数式编程风格的解决方案。

核心问题与解决方案

我们的目标是：给定一个Student对象列表，如果存在多个Student对象拥有相同的id，则只保留其中startDatetime最新的那个对象。

import java.time.LocalDateTime;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;
import java.util.function.BinaryOperator;
import java.util.function.Function;
import java.util.Comparator;
import java.util.stream.Collectors;

public class StudentDeduplication {

    static class Student {
        private String id;
        private LocalDateTime startDatetime;

        public Student(String id, LocalDateTime startDatetime) {
            this.id = id;
            this.startDatetime = startDatetime;
        }

        public String getId() {
            return id;
        }

        public LocalDateTime getStartDatetime() {
            return startDatetime;
        }

        @Override
        public String toString() {
            return "Student{id='" + id + "', startDatetime=" + startDatetime + '}';
        }
    }

    public static void main(String[] args) {
        List students = new ArrayList<>() {{
            add(new Student("1", LocalDateTime.now())); // 最新的ID为1的记录
            add(new Student("1", LocalDateTime.of(2000, 2, 1, 1, 1)));
            add(new Student("1", LocalDateTime.of(1990, 2, 1, 1, 1)));
            add(new Student("2", LocalDateTime.of(1990, 2, 1, 1, 1))); // ID为2的记录
        }};

        System.out.println("原始学生列表：");
        students.forEach(System.out::println);

        // 使用Stream API进行去重和筛选
        List uniqueStudents = students.stream()
            .collect(Collectors.toMap(
                Student::getId, // Key Mapper: 使用Student的ID作为Map的键
                Function.identity(), // Value Mapper: 将Student对象本身作为Map的值
                BinaryOperator.maxBy(Comparator.comparing(Student::getStartDatetime)) // Merge Function: 处理键冲突时，保留startDatetime最新的Student对象
            ))
            .values().stream() // 获取Map中所有值（即去重后的Student对象）
            .sorted(Comparator.comparing(Student::getStartDatetime)) // (可选) 按照startDatetime排序结果
            .collect(Collectors.toList()); // 收集为List (Java 16+ 可用 .toList())

        System.out.println("\n去重并筛选后的学生列表：");
        uniqueStudents.forEach(System.out::println);
    }
}

深入解析 Collectors.toMap 的三参数版本

上述解决方案的核心在于Collectors.toMap的第三个参数——合并函数（mergeFunction）。

keyMapper (Student::getId): 这个函数定义了如何从流中的每个元素（Student对象）中提取用于Map键的值。在这里，我们使用Student::getId，表示每个Student对象的id属性将作为Map的键。
valueMapper (Function.identity()): 这个函数定义了如何从流中的每个元素中提取用于Map值的值。Function.identity()是一个便利的方法，它返回一个函数，该函数简单地返回其输入参数。这意味着Student对象本身将作为Map的值。
mergeFunction (BinaryOperator.maxBy(Comparator.comparing(Student::getStartDatetime))): 这是解决重复问题的关键。当Collectors.toMap在处理流时遇到两个或多个元素生成了相同的键时，mergeFunction就会被调用来决定保留哪个值。
- BinaryOperator.maxBy()：这是一个静态工厂方法，它接收一个Comparator作为参数，并返回一个BinaryOperator。这个BinaryOperator会在两个输入元素中选择“更大”的那个。
- Comparator.comparing(Student::getStartDatetime)：这个Comparator用于比较两个Student对象。它通过比较它们的startDatetime属性来确定哪个对象“更大”（即时间更晚）。
综合起来，当遇到相同id的Student对象时，BinaryOperator.maxBy(Comparator.comparing(Student::getStartDatetime))会比较这两个Student的startDatetime，并保留日期时间更晚（即最新）的那个对象。

获取最终结果

Collectors.toMap操作的结果是一个Map，其中键是Student的ID，值是对应ID下最新的Student对象。要将其转换回List，我们只需：

ImgCreator AI

一款AI图像生成工具，适合创建插图、动画和概念设计图像。

下载

立即学习“Java免费学习笔记（深入）”；

调用Map.values()获取Map中所有值的集合。
将这个集合转换为一个Stream (.stream())。
（可选）如果需要对结果列表进行特定排序（例如按startDatetime升序），可以继续使用.sorted(Comparator.comparing(Student::getStartDatetime))。
最后，使用Collectors.toList()（或Java 16+的.toList()）将Stream中的元素收集到一个新的List中。

注意事项与总结

导入必要的类: 确保导入了java.time.LocalDateTime, java.util.ArrayList, java.util.List, java.util.Map, java.util.function.BinaryOperator, java.util.function.Function, java.util.Comparator, java.util.stream.Collectors。
Student类: 为了使示例代码完整可运行，Student类需要包含id和startDatetime字段，以及相应的getter方法。为了方便打印输出，建议重写toString()方法。
效率: 这种基于Stream API的解决方案在处理大量数据时通常表现良好，并且代码表达力强，易于理解。它避免了显式的循环和条件判断，将业务逻辑更好地封装在函数式操作中。
不可变性: 在实际应用中，如果原始列表是不可变的（例如通过List.of()创建），则需要注意在add操作时可能抛出UnsupportedOperationException。本示例中使用了new ArrayList() {{ ... }}来创建可变列表。

通过上述方法，我们可以利用Java Stream API的强大功能，以一种声明式且高效的方式，解决列表中对象的去重和筛选问题，使代码更加简洁、健壮。

基于Perlin噪声的AI智能漫游与归巢机制设计

如何用Java写一个简单的新闻发布系统

️「Java+AI」Stable Diffusion插件开发：3倍速图像生成优化技巧

Java调用PyTorch模型完整指南：打破语言壁垒的AI应用开发

2025Java开发者技能图谱：热门技术栈学习路径