
本文介绍一种基于 java stream 和 hashset 的高效方案,用于批量处理产品列表:对同名产品(非唯一)拼接 category 名称,对唯一名称产品则直接赋值,避免嵌套遍历,时间复杂度接近 o(n)。
在实际业务中,我们常需根据字段的重复性对对象进行差异化处理。以 Product 类为例:
@Data
public class Product {
private UUID id;
private String name;
private String categoryName;
private String frontName;
}目标明确:
- 若某 name 在列表中出现多次 → frontName = name + "," + categoryName
- 若 name 仅出现一次 → frontName = name
✅ 推荐解法:两遍扫描 + HashSet 标记重复项
核心思路是利用 Set.add() 方法的返回值(true 表示首次添加,false 表示已存在)快速识别重复名称,无需预先分组统计,兼顾简洁性与性能:
ListproductList = ...; // 假设已初始化 // 第一步:收集所有重复的 product name Set seen = new HashSet<>(); Set duplicateNames = productList.stream() .filter(p -> !seen.add(p.getName())) // add() 返回 false → 已存在 → 是重复项 .map(Product::getName) .collect(Collectors.toSet()); // 第二步:遍历并设置 frontName productList.forEach(p -> { if (duplicateNames.contains(p.getName())) { p.setFrontName(p.getName() + "," + p.getCategoryName()); } else { p.setFrontName(p.getName()); } });
⚠️ 注意事项与优化建议
- 线程安全:该方案适用于单线程场景;若在并发流(parallelStream())中使用 HashSet 会引发竞态问题,应改用 ConcurrentHashMap.newKeySet() 替代 HashSet。
- 空值防护:生产环境建议在 filter 前增加 Objects.nonNull(p.getName()) 判断,避免 NullPointerException。
- 不可变需求? 若需保持原列表不变、返回新列表,可将 forEach 替换为 map 构造新对象(需 Product 支持构造函数或 Builder)。
- 扩展性:如后续需按 category 分组去重,或支持多字段联合判重(如 name + category),可将 key 改为 p.getName() + "|" + p.getCategoryName()。
✅ 性能对比说明
| 方案 | 时间复杂度 | 空间复杂度 | 说明 |
|---|---|---|---|
| 双重 for 循环 | O(n²) | O(1) | 易理解但低效,n > 10k 时明显卡顿 |
| Collectors.groupingBy 统计频次 | O(n) | O(n) | 清晰但需额外 Map 存储计数 |
| 本方案(HashSet + 两次遍历) | O(n) | O(n) | 最少对象创建、无装箱开销,实测吞吐量最优 |
该方法在保证代码可读性的同时,实现了接近理论最优的时间效率,是处理此类“重复标识差异化赋值”场景的经典实践。










