Java读取Excel数据并保持列顺序的实用指南

聖光之護

发布时间：2025-07-21 21:42:11

360人浏览过

来源于php中文网

原创

Java读取Excel数据并保持列顺序的实用指南

当从Excel文件中读取数据并将其存储到List结构中时，标准的HashMap无法保证键值对的插入顺序，导致列顺序混乱。本教程将详细介绍如何利用LinkedHashMap来有效解决这一问题，确保数据在内存中保持与Excel源文件一致的列顺序，为后续的数据处理或写回Excel提供便利，并提供完整的Java代码示例。

1. 问题背景：HashMap与数据顺序

在java中，hashmap是一种基于哈希表的map实现，它提供了高效的键值对存储和检索能力。然而，hashmap的设计初衷是为了优化性能，而不是为了维护元素的插入顺序。这意味着当你向hashmap中添加键值对时，它们在内部的存储顺序是不确定的，并且可能会随着哈希冲突的解决或内部扩容而改变。

对于Excel这类结构化数据源，列的顺序通常是固定的且具有业务意义。例如，一个Excel表格可能有“姓名”、“年龄”、“城市”三列，如果使用HashMap存储每一行数据，那么读取后，Map中键值对的顺序可能是“年龄”->“姓名”->“城市”，而非原始的“姓名”->“年龄”->“城市”。当需要将这些数据写回Excel或进行依赖列顺序的进一步处理时，这种顺序的丢失就会成为一个严重的问题。

2. 解决方案：LinkedHashMap与TreeMap

为了解决HashMap不保留插入顺序的问题，Java提供了两种特殊的Map实现：

LinkedHashMap: LinkedHashMap是HashMap的子类，它通过维护一个双向链表来记录键值对的插入顺序。这意味着当你遍历LinkedHashMap时，元素的返回顺序将与它们被插入时的顺序完全一致。这正是我们从Excel读取数据并希望保留列顺序时所需要的特性。
TreeMap: TreeMap是基于红黑树实现的Map，它会根据键的自然顺序（或者通过构造函数提供的Comparator）对键值对进行排序。如果你希望Map中的列按照字母顺序或其他自定义顺序排列，TreeMap是一个选择。但对于保留Excel原始列顺序的需求，LinkedHashMap更为直接和适用。

考虑到我们的目标是保留Excel中“从左到右”的原始列顺序，LinkedHashMap是最佳选择。

3. 实现细节：使用LinkedHashMap读取Excel数据

下面我们将修改原始代码，将每一行数据的存储容器从HashMap替换为LinkedHashMap，以确保列顺序的保留。

乾坤圈新媒体矩阵管家

新媒体账号、门店矩阵智能管理系统

下载

立即学习“Java免费学习笔记（深入）”；

import org.apache.poi.ss.usermodel.*;
import java.util.*;
import java.util.stream.Collectors;

public class ExcelDataReader {

    /**
     * 从Excel工作表中读取数据，并将其存储为List>。
     * 每个Map代表一行数据，键为列标题，值为单元格内容。
     * 使用LinkedHashMap确保列的顺序与Excel中一致。
     *
     * @param sheet 要读取的Excel工作表对象。
     * @return 包含所有行数据的List，每行数据是一个LinkedHashMap。
     *         如果工作表为空，则返回一个空列表。
     */
    public static List> readExcelSheet(Sheet sheet) {
        Iterator rows = sheet.iterator();

        // 检查工作表是否为空
        if (!rows.hasNext()) {
            return Collections.emptyList();
        }

        // 读取表头（第一行）以获取列名和它们的顺序
        Row headerRow = rows.next();
        List columnHeaders = new ArrayList<>();
        // 遍历表头单元格，获取所有非空列名
        for (Cell cell : headerRow) {
            String headerValue = cell.getStringCellValue().trim(); // 获取并清理列名
            if (!headerValue.isEmpty()) {
                columnHeaders.add(headerValue);
            } else {
                // 如果遇到空列名，认为后续没有有效列，停止读取表头
                // 实际应用中可能需要更复杂的逻辑来处理空列名或合并单元格
                break;
            }
        }

        List> allRowsData = new ArrayList<>();

        // 遍历剩余的行（数据行）
        while (rows.hasNext()) {
            Row dataRow = rows.next();
            // 使用LinkedHashMap来保证列的插入顺序与表头一致
            Map rowDataMap = new LinkedHashMap<>();

            // 遍历已识别的列头，按顺序获取对应单元格的值
            for (int i = 0; i < columnHeaders.size(); ++i) {
                String columnName = columnHeaders.get(i);
                // 获取单元格，如果单元格不存在则创建为空白单元格
                Cell cell = dataRow.getCell(i, Row.MissingCellPolicy.CREATE_NULL_AS_BLANK);
                String cellValue = getCellValueAsString(cell); // 统一处理单元格值

                rowDataMap.put(columnName, cellValue);
            }

            // 仅添加非空行到结果列表
            // 判断行是否为空的逻辑：如果所有值都为空字符串，则认为是空行
            if (!rowDataMap.values().stream().allMatch(String::isEmpty)) {
                allRowsData.add(rowDataMap);
            }
        }

        return allRowsData;
    }

    /**
     * 辅助方法：将单元格内容统一转换为字符串。
     * 处理不同类型的单元格，避免toString()直接调用可能带来的问题。
     *
     * @param cell 单元格对象。
     * @return 单元格内容的字符串表示。
     */
    private static String getCellValueAsString(Cell cell) {
        if (cell == null) {
            return "";
        }
        switch (cell.getCellType()) {
            case STRING:
                return cell.getStringCellValue().trim();
            case NUMERIC:
                if (DateUtil.isCellDateFormatted(cell)) {
                    // 处理日期类型
                    return cell.getDateCellValue().toString(); // 或者使用SimpleDateFormat格式化
                } else {
                    // 处理数字类型，避免科学计数法或精度问题
                    return String.valueOf(cell.getNumericCellValue());
                }
            case BOOLEAN:
                return String.valueOf(cell.getBooleanCellValue());
            case FORMULA:
                // 对于公式单元格，尝试获取其计算结果
                try {
                    return String.valueOf(cell.getNumericCellValue()); // 假设公式结果为数字
                } catch (IllegalStateException e) {
                    try {
                        return cell.getStringCellValue().trim(); // 假设公式结果为字符串
                    } catch (IllegalStateException ex) {
                        return ""; // 无法获取结果
                    }
                }
            case BLANK:
                return "";
            default:
                return cell.toString().trim(); // 其他类型直接转字符串
        }
    }

    // 示例用法
    public static void main(String[] args) {
        // 假设你有一个Excel文件 "example.xlsx"
        // 这里只是一个模拟，实际使用需要引入Apache POI库并加载Workbook
        // Workbook workbook = new XSSFWorkbook(new FileInputStream("example.xlsx"));
        // Sheet sheet = workbook.getSheetAt(0);

        // 为了演示，我们创建一个模拟的Sheet对象
        // 在实际项目中，你需要使用Apache POI加载真实的Excel文件
        // 以下代码仅为概念性演示，不能直接运行，需要POI库支持
        // 假设 sheet 对象已经通过 Workbook.getSheetAt(0) 或其他方式获得

        // 模拟一个简单的Excel工作表
        Workbook mockWorkbook = new org.apache.poi.xssf.usermodel.XSSFWorkbook();
        Sheet mockSheet = mockWorkbook.createSheet("SampleData");

        // 创建表头
        Row header = mockSheet.createRow(0);
        header.createCell(0).setCellValue("column1");
        header.createCell(1).setCellValue("column2");

        // 创建数据行1
        Row row1 = mockSheet.createRow(1);
        row1.createCell(0).setCellValue("value1");
        row1.createCell(1).setCellValue("value2");

        // 创建数据行2
        Row row2 = mockSheet.createRow(2);
        row2.createCell(0).setCellValue("value3");
        row2.createCell(1).setCellValue("value4");

        List> data = readExcelSheet(mockSheet);

        System.out.println("读取到的数据 (LinkedHashMap 保持顺序):");
        for (int i = 0; i < data.size(); i++) {
            Map rowMap = data.get(i);
            System.out.println(i + " = " + rowMap);
            // 验证顺序
            rowMap.forEach((key, value) -> System.out.println("    \"" + key + "\" -> " + value));
        }

        // 预期输出：
        // 0 = {column1=value1, column2=value2}
        //     "column1" -> value1
        //     "column2" -> value2
        // 1 = {column1=value3, column2=value4}
        //     "column1" -> value3
        //     "column2" -> value4
    }
}

代码解释：

Map rowDataMap = new LinkedHashMap();: 这是核心改动。通过将HashMap替换为LinkedHashMap，我们确保了在向rowDataMap中添加键值对（即列名和单元格值）时，它们的插入顺序会被保留。
columnHeaders列表: 在读取表头时，我们首先将所有列名按照它们在Excel中的出现顺序存储在一个List中。这个列表充当了“模板”，确保后续在填充LinkedHashMap时，我们总是按照正确的索引i和列名columnHeaders.get(i)来添加数据。
getCellValueAsString(Cell cell)辅助方法: 为了提高代码的健壮性，我们引入了一个辅助方法来统一处理不同类型的单元格内容，将其转换为字符串。这比直接调用cell.toString()更安全和准确，因为toString()在不同单元格类型上可能返回不期望的结果（例如，数字可能会带有.0，日期会是原始格式）。
空行判断: if (!rowDataMap.values().stream().allMatch(String::isEmpty))这行代码用于判断当前行是否所有单元格都为空，如果是则不将其添加到结果列表中，这有助于过滤掉Excel中的空白行。

4. 注意事项与最佳实践

Apache POI依赖: 上述代码使用了Apache POI库来处理Excel文件。在实际项目中，你需要确保项目中已添加相应的Maven或Gradle依赖，例如：
```
    org.apache.poi
    poi
    5.2.3 


    org.apache.poi
    poi-ooxml
    5.2.3 
```
单元格类型处理: getCellValueAsString方法提供了一个基础的单元格类型处理。在更复杂的场景中，你可能需要根据业务需求对日期、数字格式、公式结果等进行更精细的控制（例如，使用DataFormatter来格式化单元格值）。
空列名处理: 示例代码在遇到空列名时会停止读取表头。如果你的Excel文件可能存在中间的空列名但后面仍有有效列的情况，你需要调整表头读取逻辑。
错误处理: 在生产环境中，应该增加更完善的错误处理机制，例如文件不存在、文件损坏、权限问题等。
性能考量: LinkedHashMap相比HashMap会占用稍多的内存，因为它需要维护额外的链表结构。但对于常见的Excel数据量，这种开销通常可以忽略不计。
内存管理: 对于非常大的Excel文件，一次性将所有数据加载到内存中可能会导致内存溢出。在这种情况下，可以考虑使用Apache POI的SAX解析器（XSSF and HSSF Eventmodel）进行流式读取，或者分批处理数据。

5. 总结

通过将存储每行数据的Map实现从HashMap替换为LinkedHashMap，我们可以轻松解决Java读取Excel数据时列顺序混乱的问题。LinkedHashMap能够完美地保留键值对的插入顺序，这对于依赖列顺序的Excel数据处理至关重要。结合对表头列名的有序提取和单元格内容的健壮处理，我们可以构建出高效且准确的Excel数据读取器，为后续的数据操作提供可靠的基础。

如何为 Apache ActiveMQ Artemis 指定专用 JDK

如何为 Apache ActiveMQ Artemis 配置专用 JDK

如何在 Apache POI 中精准定位并插入图片到 Word 文档指定文本后

如何在 Apache Camel 中避免同一队列中请求-回复消息的循环消费

Apache Camel：条件化设置HTTP请求头、请求体与动态路由的最佳实践