0

0

Java中根据首字段删除文本数据重复行的策略与实现

霞舞

霞舞

发布时间:2025-12-03 15:48:36

|

811人浏览过

|

来源于php中文网

原创

Java中根据首字段删除文本数据重复行的策略与实现

本教程详细阐述了在java中如何高效地从文本数据中删除基于首字段重复的整行记录。文章提供了两种核心策略:一是利用java stream api的`collectors.tomap`直接处理字符串列表,通过自定义键映射和合并函数实现去重;二是引入领域对象(如`company`类)来封装数据,提高代码可读性和可维护性,并结合stream api进行去重。教程包含示例代码、注意事项及最佳实践,旨在帮助开发者选择合适的去重方案。

在处理文本数据时,经常会遇到需要根据记录中的特定字段来识别并删除重复行的情况。例如,在一个包含公司信息的文本文件中,我们可能希望根据公司的唯一标识符(如ID)来确保每家公司只保留一条记录,即使其他字段有所不同。本教程将探讨两种在Java中实现这一目标的有效方法。

1. 使用Java Stream API直接处理字符串列表

当数据以字符串列表的形式存在时,我们可以利用Java 8引入的Stream API及其强大的Collectors.toMap()方法来实现基于首字段的去重。这种方法简洁高效,适用于快速处理。

核心原理

Collectors.toMap()允许我们指定如何从流中的元素生成键(keyMapper)和值(valueMapper)。更重要的是,它提供了一个mergeFunction来处理当多个元素生成相同的键时如何合并这些值。通过将行的第一个字段作为键,整行作为值,并指定在键冲突时保留第一个遇到的值,即可实现去重。

示例代码

假设我们有一个包含公司信息的字符串列表,每行以逗号分隔,第一个字段是公司ID。

立即学习Java免费学习笔记(深入)”;

import java.util.List;
import java.util.function.Function;
import java.util.stream.Collectors;

public class DuplicateRowRemover {

    public static void main(String[] args) {
        List sourceList = List.of(
            "123456,greenwitch street,near dominos store,Opp sandwitch company,Neyork,US,876890",
            "123480,Postwitch street,near KFC store,Opp masala company,Newyork,US,876891",
            "123456,Newyork street,near 100th avenue,King master company,Texas,US,10005"
        );

        List uniqueList = sourceList.stream()
            .collect(Collectors.toMap(
                str -> str.substring(0, str.indexOf(',')), // keyMapper: 提取第一个逗号前的子字符串作为键
                Function.identity(),                       // valueMapper: 整行字符串作为值
                (existing, replacement) -> existing        // mergeFunction: 当键重复时,保留已存在的(即第一个遇到的)值
            ))
            .values()                                      // 获取Map中所有的值(即去重后的行)
            .stream()
            .toList();                                     // 转换为List

        System.out.println("去重后的字符串列表:");
        uniqueList.forEach(System.out::println);
        // 预期输出:
        // 123456,greenwitch street,near dominos store,Opp sandwitch company,Neyork,US,876890
        // 123480,Postwitch street,near KFC store,Opp masala company,Newyork,US,876891
    }
}

在上述代码中:

九歌
九歌

九歌--人工智能诗歌写作系统

下载
  • keyMapper (str -> str.substring(0, str.indexOf(','))):通过查找第一个逗号的位置来截取字符串的第一个字段,将其作为Map的键。
  • valueMapper (Function.identity()):将原始的完整字符串作为Map的值。
  • mergeFunction ((existing, replacement) -> existing):这是处理重复键的关键。当遇到相同的键时,此函数决定保留哪个值。此处我们选择保留existing(即Map中已有的值),这意味着对于相同的公司ID,我们总是保留第一次出现的完整行。

2. 引入领域对象提升代码可维护性与可读性

尽管直接处理字符串列表对于简单场景很有效,但在更复杂的应用中,将文本数据解析成具体的领域对象(如Company类)会大大提高代码的可读性、可维护性和类型安全性。

创建领域对象

首先,定义一个POJO(Plain Old Java Object)来表示文本文件中的每一行数据。为了简洁,这里使用Lombok的@Getter和@Builder注解,但也可以使用标准的Java Getter和构造器。

import lombok.Builder;
import lombok.Getter;

@Builder
@Getter
public class Company {
    private long id;
    private String street;
    private String locationDescription;
    private String companyName;
    private String state;
    private String country;
    private String zipCode;

    // 静态方法,用于将字符串行解析为Company对象
    public static Company parse(String line) {
        String[] arr = line.split(",");
        if (arr.length < 7) {
            throw new IllegalArgumentException("Invalid line format: " + line);
        }
        return Company.builder()
            .id(Long.parseLong(arr[0]))
            .street(arr[1]) // 假设所有字段都有用
            .locationDescription(arr[2])
            .companyName(arr[3])
            .state(arr[4])
            .country(arr[5])
            .zipCode(arr[6])
            .build();
    }

    @Override
    public String toString() {
        return id + "," + street + "," + locationDescription + "," + companyName + "," + state + "," + country + "," + zipCode;
    }
}

使用领域对象进行去重

有了Company对象后,我们可以先将字符串列表映射成Company对象的流,然后再使用Collectors.toMap()进行去重。

import java.util.List;
import java.util.function.Function;
import java.util.stream.Collectors;

public class CompanyDuplicateRemover {

    public static void main(String[] args) {
        List sourceList = List.of(
            "123456,greenwitch street,near dominos store,Opp sandwitch company,Neyork,US,876890",
            "123480,Postwitch street,near KFC store,Opp masala company,Newyork,US,876891",
            "123456,Newyork street,near 100th avenue,King master company,Texas,US,10005"
        );

        List uniqueCompanies = sourceList.stream()
            .map(Company::parse)                           // 将每行字符串解析为Company对象
            .collect(Collectors.toMap(
                Company::getId,                            // keyMapper: 使用Company对象的ID作为键
                Function.identity(),                       // valueMapper: Company对象本身作为值
                (existing, replacement) -> existing        // mergeFunction: 当ID重复时,保留已存在的Company对象
            ))
            .values()                                      // 获取Map中所有的Company对象
            .stream()
            .toList();                                     // 转换为List

        System.out.println("去重后的Company对象列表:");
        uniqueCompanies.forEach(System.out::println);
        // 预期输出 (Company的toString方法):
        // 123456,greenwitch street,near dominos store,Opp sandwitch company,Neyork,US,876890
        // 123480,Postwitch street,near KFC store,Opp masala company,Newyork,US,876891
    }
}

这种方法的核心优势在于:

  • 类型安全:操作的是强类型对象,而非原始字符串。
  • 可读性强:代码意图更清晰,Company::getId比str -> str.substring(0, str.indexOf(','))更直观。
  • 易于扩展:如果未来需要对公司数据进行更多操作(如修改、筛选),直接操作对象比字符串解析更方便。

注意事项与最佳实践

  1. 文件读取与写入:上述示例是基于内存中的List。在实际应用中,您需要从文本文件读取数据到List,并在去重后将uniqueList或uniqueCompanies写入新的文件或更新原文件。
    // 示例:从文件读取
    // List allLines = Files.readAllLines(Paths.get("your_file.txt"), StandardCharsets.UTF_8);
    //
    // 示例:写入文件
    // Files.write(Paths.get("unique_records.txt"), uniqueList, StandardCharsets.UTF_8);
  2. 错误处理
    • str.indexOf(',')如果字符串中没有逗号,会返回-1,导致substring抛出IndexOutOfBoundsException。
    • Long.parseLong(arr[0])如果字符串不是有效的数字,会抛出NumberFormatException。
    • Company.parse方法中需要考虑数组越界问题(arr.length)。 在生产代码中,应加入适当的try-catch块或使用Optional来处理这些潜在的异常情况。
  3. mergeFunction的选择
    • (existing, replacement) -> existing:保留第一个遇到的记录。
    • (existing, replacement) -> replacement:保留最后一个遇到的记录。 您的业务逻辑将决定应该保留哪个重复项。
  4. 性能考量:对于非常大的文件(GB级别),将所有内容一次性加载到内存中可能会导致内存溢出。在这种情况下,可以考虑以下策略:
    • 逐行处理:使用BufferedReader逐行读取,并将去重逻辑(如使用HashSet存储已处理的ID)应用于每一行。
    • 外部排序/归并:对于无法完全加载到内存的数据,可以考虑使用外部排序算法,将数据分块处理,排序后相邻的重复行会在一起,方便删除。
    • 数据库:如果数据量巨大且需要复杂的查询,将数据导入数据库可能是更好的选择,利用数据库的唯一索引和去重功能。
  5. distinct()与toMap()的区别
    • stream().distinct()方法是基于对象的equals()和hashCode()方法来判断重复的。如果您的需求是判断整个字符串对象是否完全相同,那么distinct()是合适的。
    • 但本教程的需求是根据部分字段(首字段)来判断重复,此时distinct()就不适用,因为即使首字段相同,如果其他字段不同,equals()方法仍会认为它们是不同的对象。因此,Collectors.toMap()是解决这类问题的正确选择。

总结

本文介绍了在Java中根据文本数据首字段删除重复行的两种主要方法:直接使用Stream API的Collectors.toMap()处理字符串,以及通过引入领域对象来提高代码质量。选择哪种方法取决于您的具体需求:对于简单的、一次性的任务,直接处理字符串可能更快捷;而对于需要长期维护、业务逻辑复杂的应用,使用领域对象无疑是更健壮、更可维护的方案。无论选择哪种方法,都应充分考虑错误处理、性能优化和业务逻辑中对重复项的保留策略。

相关专题

更多
java
java

Java是一个通用术语,用于表示Java软件及其组件,包括“Java运行时环境 (JRE)”、“Java虚拟机 (JVM)”以及“插件”。php中文网还为大家带了Java相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

835

2023.06.15

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

740

2023.07.05

java自学难吗
java自学难吗

Java自学并不难。Java语言相对于其他一些编程语言而言,有着较为简洁和易读的语法,本专题为大家提供java自学难吗相关的文章,大家可以免费体验。

735

2023.07.31

java配置jdk环境变量
java配置jdk环境变量

Java是一种广泛使用的高级编程语言,用于开发各种类型的应用程序。为了能够在计算机上正确运行和编译Java代码,需要正确配置Java Development Kit(JDK)环境变量。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

397

2023.08.01

java保留两位小数
java保留两位小数

Java是一种广泛应用于编程领域的高级编程语言。在Java中,保留两位小数是指在进行数值计算或输出时,限制小数部分只有两位有效数字,并将多余的位数进行四舍五入或截取。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

399

2023.08.02

java基本数据类型
java基本数据类型

java基本数据类型有:1、byte;2、short;3、int;4、long;5、float;6、double;7、char;8、boolean。本专题为大家提供java基本数据类型的相关的文章、下载、课程内容,供大家免费下载体验。

446

2023.08.02

java有什么用
java有什么用

java可以开发应用程序、移动应用、Web应用、企业级应用、嵌入式系统等方面。本专题为大家提供java有什么用的相关的文章、下载、课程内容,供大家免费下载体验。

430

2023.08.02

java在线网站
java在线网站

Java在线网站是指提供Java编程学习、实践和交流平台的网络服务。近年来,随着Java语言在软件开发领域的广泛应用,越来越多的人对Java编程感兴趣,并希望能够通过在线网站来学习和提高自己的Java编程技能。php中文网给大家带来了相关的视频、教程以及文章,欢迎大家前来学习阅读和下载。

16926

2023.08.03

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

43

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 2.6万人学习

C# 教程
C# 教程

共94课时 | 6.9万人学习

Java 教程
Java 教程

共578课时 | 47.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号