HashSet去重需元素正确重写equals()和hashCode(),否则逻辑相等对象仍被视作不同;自定义类须手动实现,包装类和JDK不可变类已内置支持。

HashSet 去重原理与使用前提
Java 中最常用的去重方式是把元素放进 HashSet,但它能正确去重的前提是:元素类型必须正确重写 equals() 和 hashCode()。否则即使两个对象逻辑上相等,HashSet 也会当作不同元素保留。
常见错误现象:new Person("Alice", 25) 和 new Person("Alice", 25) 被当成两个不同对象存入 HashSet —— 因为 Person 没有重写 hashCode(),默认用内存地址计算哈希值。
- 自定义类去重前,务必检查是否已重写
equals()和hashCode()(IDE 通常可自动生成) - 基本类型包装类(
Integer、String等)和 JDK 自带不可变类已内置正确实现,可直接用 -
HashSet不保证插入顺序;如需有序去重,改用LinkedHashSet
ArrayList 去重的三种典型写法对比
面对一个已有 ArrayList,想保留首次出现的元素并去重,有多个选择,但行为和性能差异明显。
最容易踩的坑是用 removeIf() 配合 indexOf(),看似简洁,实则时间复杂度 O(n²),大数据量下卡顿明显。
立即学习“Java免费学习笔记(深入)”;
- 推荐写法(兼顾可读与性能):
Set
—— 利用seen = new HashSet<>(); list.removeIf(e -> !seen.add(e)); Set.add()返回true表示新增成功,false表示已存在 - 若需新集合不修改原列表:
List
—— 构造时自动去重,且uniqueList = new ArrayList<>(new LinkedHashSet<>(list)); LinkedHashSet保持插入顺序 - 慎用写法:
list.stream().distinct().collect(Collectors.toList());
—— 语义清晰,但底层仍依赖equals/hashCode,且对大列表有额外流开销
Stream.distinct() 的限制与适用场景
Stream.distinct() 是声明式去重方式,但它内部依赖元素的 hashCode() 和 equals(),和 HashSet 使用同一套逻辑,没有额外魔法。
Android 是一个专门针对移动设备的软件集,它包括一个操作系统,中间件和一些重要的应用程序。Beta版的 Android SDK 提供了在Android平台上使用JaVa语言进行Android应用开发必须的工具和API接口。 特性 应用程序框架 支持组件的重用与替换 Dalvik 虚拟机 专为移动设备优化 集成的浏览器 基于开源的WebKit 引擎 优化的图形库 包括定制的2D图形库,3D图形库基于
它不适合用于未重写 equals/hashCode 的自定义对象,也不适合按特定字段去重(比如只看 id 字段忽略其他字段)。
- 仅适用于已满足去重契约的对象(如
String、重写过方法的 POJO) - 无法指定去重依据字段;如需按
user.getId()去重,得用Collectors.toMap()或Collectors.collectingAndThen()组合 - 对并行流(
parallelStream())也生效,但结果顺序不保证,除非源是ArrayList且未做中间操作打乱顺序
按对象字段去重的实用方案
实际业务中,常需“按 ID 去重”或“按 name + email 联合去重”,这时不能依赖默认 equals,得手动控制。
最简可控的方式是用 Collectors.toMap(),以目标字段为 key,整个对象为 value,重复 key 时保留第一个:
ListuniqueById = list.stream() .collect(Collectors.toMap( User::getId, user -> user, (existing, replacement) -> existing)) .values() .stream() .collect(Collectors.toList());
-
(existing, replacement) -> existing表示遇到重复 key 时保留首次出现的对象 - 若要保留最后一次,改成
(existing, replacement) -> replacement - 联合字段去重可构造复合 key,例如
u.getName() + "|" + u.getEmail(),但注意 null 安全,建议用Objects.toString(u.getName()) - 该方式比手写循环更函数式,也比多次遍历更高效
复杂点在于字段组合逻辑和 null 处理,这些地方容易被忽略,一出错就导致去重失效或 NPE。









