
在日常的软件开发中,我们经常会遇到需要处理包含重复数据的列表。例如,一个学生列表中可能存在多个具有相同学号(id)但不同入学日期(startdatetime)的记录,而我们只希望保留每个学号对应的最新记录。传统的方法可能涉及循环遍历、使用辅助set或map进行手动去重和比较,这往往导致代码冗长且可读性差。java 8引入的stream api提供了一种更简洁、更具函数式编程风格的解决方案。
核心问题与解决方案
我们的目标是:给定一个Student对象列表,如果存在多个Student对象拥有相同的id,则只保留其中startDatetime最新的那个对象。
import java.time.LocalDateTime;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;
import java.util.function.BinaryOperator;
import java.util.function.Function;
import java.util.Comparator;
import java.util.stream.Collectors;
public class StudentDeduplication {
static class Student {
private String id;
private LocalDateTime startDatetime;
public Student(String id, LocalDateTime startDatetime) {
this.id = id;
this.startDatetime = startDatetime;
}
public String getId() {
return id;
}
public LocalDateTime getStartDatetime() {
return startDatetime;
}
@Override
public String toString() {
return "Student{id='" + id + "', startDatetime=" + startDatetime + '}';
}
}
public static void main(String[] args) {
List students = new ArrayList<>() {{
add(new Student("1", LocalDateTime.now())); // 最新的ID为1的记录
add(new Student("1", LocalDateTime.of(2000, 2, 1, 1, 1)));
add(new Student("1", LocalDateTime.of(1990, 2, 1, 1, 1)));
add(new Student("2", LocalDateTime.of(1990, 2, 1, 1, 1))); // ID为2的记录
}};
System.out.println("原始学生列表:");
students.forEach(System.out::println);
// 使用Stream API进行去重和筛选
List uniqueStudents = students.stream()
.collect(Collectors.toMap(
Student::getId, // Key Mapper: 使用Student的ID作为Map的键
Function.identity(), // Value Mapper: 将Student对象本身作为Map的值
BinaryOperator.maxBy(Comparator.comparing(Student::getStartDatetime)) // Merge Function: 处理键冲突时,保留startDatetime最新的Student对象
))
.values().stream() // 获取Map中所有值(即去重后的Student对象)
.sorted(Comparator.comparing(Student::getStartDatetime)) // (可选) 按照startDatetime排序结果
.collect(Collectors.toList()); // 收集为List (Java 16+ 可用 .toList())
System.out.println("\n去重并筛选后的学生列表:");
uniqueStudents.forEach(System.out::println);
}
} 深入解析 Collectors.toMap 的三参数版本
上述解决方案的核心在于Collectors.toMap的第三个参数——合并函数(mergeFunction)。
keyMapper (Student::getId): 这个函数定义了如何从流中的每个元素(Student对象)中提取用于Map键的值。在这里,我们使用Student::getId,表示每个Student对象的id属性将作为Map的键。
valueMapper (Function.identity()): 这个函数定义了如何从流中的每个元素中提取用于Map值的值。Function.identity()是一个便利的方法,它返回一个函数,该函数简单地返回其输入参数。这意味着Student对象本身将作为Map的值。
-
mergeFunction (BinaryOperator.maxBy(Comparator.comparing(Student::getStartDatetime))): 这是解决重复问题的关键。当Collectors.toMap在处理流时遇到两个或多个元素生成了相同的键时,mergeFunction就会被调用来决定保留哪个值。
- BinaryOperator.maxBy():这是一个静态工厂方法,它接收一个Comparator作为参数,并返回一个BinaryOperator。这个BinaryOperator会在两个输入元素中选择“更大”的那个。
- Comparator.comparing(Student::getStartDatetime):这个Comparator用于比较两个Student对象。它通过比较它们的startDatetime属性来确定哪个对象“更大”(即时间更晚)。
综合起来,当遇到相同id的Student对象时,BinaryOperator.maxBy(Comparator.comparing(Student::getStartDatetime))会比较这两个Student的startDatetime,并保留日期时间更晚(即最新)的那个对象。
获取最终结果
Collectors.toMap操作的结果是一个Map
立即学习“Java免费学习笔记(深入)”;
- 调用Map.values()获取Map中所有值的集合。
- 将这个集合转换为一个Stream (.stream())。
- (可选)如果需要对结果列表进行特定排序(例如按startDatetime升序),可以继续使用.sorted(Comparator.comparing(Student::getStartDatetime))。
- 最后,使用Collectors.toList()(或Java 16+的.toList())将Stream中的元素收集到一个新的List中。
注意事项与总结
- 导入必要的类: 确保导入了java.time.LocalDateTime, java.util.ArrayList, java.util.List, java.util.Map, java.util.function.BinaryOperator, java.util.function.Function, java.util.Comparator, java.util.stream.Collectors。
- Student类: 为了使示例代码完整可运行,Student类需要包含id和startDatetime字段,以及相应的getter方法。为了方便打印输出,建议重写toString()方法。
- 效率: 这种基于Stream API的解决方案在处理大量数据时通常表现良好,并且代码表达力强,易于理解。它避免了显式的循环和条件判断,将业务逻辑更好地封装在函数式操作中。
- 不可变性: 在实际应用中,如果原始列表是不可变的(例如通过List.of()创建),则需要注意在add操作时可能抛出UnsupportedOperationException。本示例中使用了new ArrayList() {{ ... }}来创建可变列表。
通过上述方法,我们可以利用Java Stream API的强大功能,以一种声明式且高效的方式,解决列表中对象的去重和筛选问题,使代码更加简洁、健壮。










