PHP：高效处理多数组列式数据分组聚合的教程

碧海醫心

发布时间：2025-10-06 11:29:01

409人浏览过

来源于php中文网

原创

PHP：高效处理多数组列式数据分组聚合的教程

本文探讨了在PHP中如何根据一个关键数组，对多个并行数组中的列式数据进行分组并求和。文章提供了三种不同的实现策略，包括原地修改、构建新索引数组以及利用引用进行聚合，旨在帮助开发者高效处理类似的数据聚合需求，确保数据处理的准确性和代码的可维护性。

在php开发中，我们经常会遇到需要处理多组相关联的列式数据的情况。例如，有多个数组分别存储了状态、交易数量、收入和毛利润，并且这些数组的索引是对应的。我们的目标是根据其中一个数组（例如状态数组）进行分组，并将其他相关联的数值型数组的数据进行求和聚合。

考虑以下场景中的数据结构：

$statuses = ['PROSPECT', 'BACKLOG', 'PROSPECT'];
$of_tranxs = [2, 1, 2];
$revs = [3, 1, 3];
$mgps = [4, 1, 4];

我们期望的输出是一个新的结构，其中每个状态只出现一次，并且对应的交易数量、收入和毛利润都已按状态聚合求和：

array(
  'status' => ['PROSPECT', 'BACKLOG'],
  'of_tranx' => [4, 1], // 2 + 2 = 4
  'rev' => [6, 1],     // 3 + 3 = 6
  'mgp' => [8, 1]      // 4 + 4 = 8
)

下面将介绍几种在PHP中实现这种分组求和的有效方法。

方法一：原地修改并重新索引

这种方法的核心思想是在遍历过程中，识别重复的状态。当发现重复状态时，将其对应的数值累加到第一次出现该状态的原始位置上，然后将重复项从所有原始数组中移除。最后，对所有数组进行重新索引以去除空洞。

立即学习“PHP免费学习笔记（深入）”；

实现步骤：

杰易OA办公自动化系统6.0

基于Intranet/Internet 的Web下的办公自动化系统，采用了当今最先进的PHP技术，是综合大量用户的需求,经过充分的用户论证的基础上开发出来的，独特的即时信息、短信、电子邮件系统、完善的工作流、数据库安全备份等功能使得信息在企业内部传递效率极大提高，信息传递过程中耗费降到最低。办公人员得以从繁杂的日常办公事务处理中解放出来，参与更多的富于思考性和创造性的工作。系统力求突出体系结构简明

下载

初始化一个辅助数组 $found 来记录每个状态第一次出现的索引。
遍历 $statuses 数组。
如果当前状态是第一次遇到，将其索引记录到 $found 中。
如果当前状态是重复的，将其对应的 $of_tranxs、$revs 和 $mgps 值累加到 $found 中记录的第一次出现的索引位置。
累加完成后，从所有原始数组中移除当前重复项。
循环结束后，使用 array_values() 对所有数组进行重新索引。

示例代码：

$statuses = ['PROSPECT', 'BACKLOG', 'PROSPECT'];
$of_tranxs = [2, 1, 2];
$revs = [3, 1, 3];
$mgps = [4, 1, 4];

$found = [];
foreach ($statuses as $index => $status) {
    if (!isset($found[$status])) {
        // 第一次遇到该状态，记录其索引
        $found[$status] = $index;
        continue;
    }
    // 状态重复，累加到第一次出现的位置
    $of_tranxs[$found[$status]] += $of_tranxs[$index];
    $revs[$found[$status]] += $revs[$index];
    $mgps[$found[$status]] += $mgps[$index];
    // 移除当前重复项
    unset($statuses[$index], $of_tranxs[$index], $revs[$index], $mgps[$index]);
}

$result = [
    'status' => array_values($statuses),
    'of_tranx' => array_values($of_tranxs),
    'rev' => array_values($revs),
    'mgp' => array_values($mgps)
];

var_export($result);

优点：

在原始数组上进行操作，可能在某些情况下节省内存（尽管 unset 和 array_values 会有开销）。
逻辑相对直观。

缺点：

会修改原始数组，如果原始数据还需要保留，则需要先进行复制。
unset 操作会打乱数组索引，最终需要 array_values() 进行重新索引，这会产生额外的遍历和内存开销。

方法二：构建新的结果数组并使用索引映射

这种方法通过构建一个新的结果数组来存储聚合后的数据，同时使用一个辅助数组来映射每个状态在新结果数组中的索引位置。这避免了对原始数组的修改和复杂的重新索引。

实现步骤：

初始化一个空的结果数组 $result 和一个用于新索引映射的数组 $newIndex。
初始化一个计数器 $i，用于为新结果数组分配索引。
遍历 $statuses 数组。
如果当前状态在 $newIndex 中不存在，说明是第一次遇到该状态：
- 将当前状态及其对应的数值添加到 $result 数组中。
- 将当前状态及其在新 $result 数组中的索引记录到 $newIndex 中，并递增 $i。
如果当前状态已在 $newIndex 中存在，说明是重复状态：
- 根据 $newIndex 中记录的索引，将当前数值累加到 $result 数组的对应位置。

示例代码：

$statuses = ['PROSPECT', 'BACKLOG', 'PROSPECT'];
$of_tranxs = [2, 1, 2];
$revs = [3, 1, 3];
$mgps = [4, 1, 4];

$result = [];
$newIndex = []; // 存储状态到新结果数组索引的映射
$i = 0;         // 新结果数组的索引计数器

foreach ($statuses as $oldIndex => $status) {
    if (!isset($newIndex[$status])) {
        // 第一次遇到该状态，添加到结果数组并记录新索引
        $newIndex[$status] = $i++;
        $result['status'][] = $status;
        $result['of_tranx'][] = $of_tranxs[$oldIndex];
        $result['rev'][] = $revs[$oldIndex];
        $result['mgp'][] = $mgps[$oldIndex];
    } else {
        // 状态重复，累加到结果数组的对应位置
        $targetNewIndex = $newIndex[$status];
        $result['of_tranx'][$targetNewIndex] += $of_tranxs[$oldIndex];
        $result['rev'][$targetNewIndex] += $revs[$oldIndex];
        $result['mgp'][$targetNewIndex] += $mgps[$oldIndex];
    }
}

var_export($result);

优点：

不修改原始数组，保持数据完整性。
代码逻辑清晰，易于理解和维护。
避免了 array_values() 的额外开销。

缺点：

需要额外的内存来存储 $newIndex 映射数组。

方法三：使用引用构建结果数组

此方法结合了前两种方法的优点，它通过构建一个包含引用变量的中间数组来直接操作最终结果，从而避免了 array_values() 的调用，并且在语义上更清晰地表示了聚合过程。

实现步骤：

初始化一个空的结果数组 $result 和一个用于存储引用的辅助数组 $ref。
遍历 $statuses 数组。
如果当前状态在 $ref 中不存在，说明是第一次遇到该状态：
- 在 $ref 数组中为该状态创建一个包含所有相关数据的关联数组。
- 将 $ref 中新创建的这个关联数组的引用添加到 $result 数组中。
如果当前状态已在 $ref 中存在，说明是重复状态：
- 直接通过 $ref 中的引用，累加对应状态的数值。由于 $result 中存储的是 $ref 中元素的引用，对 $ref 的修改会直接反映到 $result 中。

示例代码：

$statuses = ['PROSPECT', 'BACKLOG', 'PROSPECT'];
$of_tranxs = [2, 1, 2];
$revs = [3, 1, 3];
$mgps = [4, 1, 4];

$result = [];
$ref = []; // 存储状态到聚合数据块的引用

foreach ($statuses as $i => $status) {
    if (!isset($ref[$status])) {
        // 第一次遇到该状态，创建数据块并存储引用
        $ref[$status] = [
            'status' => $status,
            'of_tranx' => $of_tranxs[$i],
            'rev' => $revs[$i],
            'mgp' => $mgps[$i],
        ];
        $result[] = &$ref[$status]; // 将引用添加到结果数组
    } else {
        // 状态重复，通过引用直接累加
        $ref[$status]['of_tranx'] += $of_tranxs[$i];
        $ref[$status]['rev'] += $revs[$i];
        $ref[$status]['mgp'] += $mgps[$i];
    }
}

// 注意：此方法输出的 $result 结构与前两种略有不同，
// 它是一个索引数组，每个元素是一个包含 'status', 'of_tranx', 'rev', 'mgp' 的关联数组。
// 如果需要前两种方法的列式输出，需要再做一次转换。
// 例如：
$final_result = [
    'status' => array_column($result, 'status'),
    'of_tranx' => array_column($result, 'of_tranx'),
    'rev' => array_column($result, 'rev'),
    'mgp' => array_column($result, 'mgp'),
];

var_export($final_result);

优点：

避免了 array_values() 的调用，减少了额外的遍历。
通过引用直接操作数据，代码简洁高效。
中间结果 $result 是一个包含关联数组的数组，结构化程度更高，便于后续处理。

缺点：

如果最终需要列式输出（如示例期望），则需要额外的 array_column() 转换。
对引用的理解和使用需要更谨慎，避免潜在的副作用。

总结与注意事项

以上三种方法都能有效解决根据一个数组对多个列式数据进行分组求和的问题。在选择具体方法时，可以根据以下因素进行考量：

是否允许修改原始数据： 如果原始数据必须保持不变，应选择方法二或方法三。
性能要求： 对于大数据集，避免不必要的 unset 和 array_values() 操作（如方法一）通常会带来更好的性能。方法二和方法三在单次遍历中完成聚合，通常效率较高。
代码可读性与维护性： 方法二和方法三的逻辑相对清晰，易于理解。方法三通过引用操作，在某些场景下更为优雅。
最终输出结构： 方法三的直接输出是包含关联数组的索引数组，如果需要列式输出，则需额外转换。方法一和方法二直接生成列式输出。

建议在实际开发中，根据项目的具体需求和团队的代码风格，选择最适合的实现方案。对于大多数情况，方法二（构建新结果数组与索引映射）或方法三（使用引用）都是既高效又易于维护的良好选择。

URL重写与动态路由：PHP中实现类似/article1的美观文章链接

RSC与PHP代码风格差异大吗_编写习惯对比【风格】

本地php文件怎么浏览器打开_本地php文件打开步骤【方法】

PHP 中 MySQL 字符串类型分数字段排序异常的解决方案

PHP扩展怎样添加类定义_PHP扩展类定义方法【示例】