HashSet判断重复需同时满足hashCode()相同且equals()返回true;仅用hashCode()会因哈希冲突导致误判;自定义类须重写二者,否则默认基于内存地址比较;底层基于HashMap实现,故支持null、不安全,且去重逻辑等同key去重。

HashSet 判断重复的依据是:先比 hashCode(),再比 equals() —— 二者必须同时满足,才算重复。
为什么不是只看 hashCode()?
哈希码只是“快速筛人”的第一步。不同对象可能算出相同哈希值(哈希冲突),比如 new String("ABC") 和 new String("BAC") 在某些实现下哈希值可能碰巧一样。如果只依赖 hashCode(),就会误判为重复,导致数据丢失。
- 只有
hashCode()相同 → 进入同一哈希桶,触发equals()检查 -
hashCode()不同 → 直接认定不重复,不调用equals() -
hashCode()相同 且equals()返回true→ 确认为重复,add()返回false,不插入
自定义类没重写 hashCode() 和 equals() 会怎样?
默认继承自 Object,hashCode() 返回对象内存地址哈希,equals() 是引用比较。结果就是:两个字段完全相同的 Student 实例,在 HashSet 里仍被视为不同元素。
常见错误现象:
立即学习“Java免费学习笔记(深入)”;
- 明明构造了两个
new Student(1, "Alice"),set.size()却是 2 -
set.contains(new Student(1, "Alice"))返回false,即使集合里已有逻辑相同的对象
正确做法是:用 Objects.hash(...) 生成 hashCode(),用 Objects.equals(...) 辅助写 equals():
public class Student {
private int id;
private String name;
@Override
public boolean equals(Object o) {
if (this == o) return true;
if (!(o instanceof Student)) return false;
Student s = (Student) o;
return id == s.id && Objects.equals(name, s.name);
}
@Override
public int hashCode() {
return Objects.hash(id, name);
}
}
HashSet 底层其实是 HashMap,这有什么影响?
是的 —— HashSet 的每个元素都作为 HashMap 的 key 存储,value 固定是 Presentation(一个静态 Object 占位符)。这意味着:
- 所有去重逻辑,本质就是
HashMap.put(key, value)的 key 去重逻辑 -
null元素能存,因为HashMap允许一个nullkey - 线程不安全:多线程往同一个
HashSetadd()可能导致数据错乱或死循环(JDK 7 及以前链表成环)
如果你需要线程安全的去重容器,别手动加 synchronized,优先考虑 Collections.synchronizedSet(new HashSet()) 或 ConcurrentHashMap.newKeySet()(JDK 8+)。
最容易被忽略的一点:重写 hashCode() 和 equals() 时,参与计算的字段必须是「业务上决定唯一性」的字段。比如学生去重按学号,就别把 name 也塞进 Objects.hash() —— 否则改名后,旧对象在集合里就再也 contains() 不到了。










