0

0

PHP:高效处理多数组列式数据分组聚合的教程

碧海醫心

碧海醫心

发布时间:2025-10-06 11:29:01

|

409人浏览过

|

来源于php中文网

原创

PHP:高效处理多数组列式数据分组聚合的教程

本文探讨了在PHP中如何根据一个关键数组,对多个并行数组中的列式数据进行分组并求和。文章提供了三种不同的实现策略,包括原地修改、构建新索引数组以及利用引用进行聚合,旨在帮助开发者高效处理类似的数据聚合需求,确保数据处理的准确性和代码的可维护性。

php开发中,我们经常会遇到需要处理多组相关联的列式数据的情况。例如,有多个数组分别存储了状态、交易数量、收入和毛利润,并且这些数组的索引是对应的。我们的目标是根据其中一个数组(例如状态数组)进行分组,并将其他相关联的数值型数组的数据进行求和聚合。

考虑以下场景中的数据结构:

$statuses = ['PROSPECT', 'BACKLOG', 'PROSPECT'];
$of_tranxs = [2, 1, 2];
$revs = [3, 1, 3];
$mgps = [4, 1, 4];

我们期望的输出是一个新的结构,其中每个状态只出现一次,并且对应的交易数量、收入和毛利润都已按状态聚合求和:

array(
  'status' => ['PROSPECT', 'BACKLOG'],
  'of_tranx' => [4, 1], // 2 + 2 = 4
  'rev' => [6, 1],     // 3 + 3 = 6
  'mgp' => [8, 1]      // 4 + 4 = 8
)

下面将介绍几种在PHP中实现这种分组求和的有效方法。

方法一:原地修改并重新索引

这种方法的核心思想是在遍历过程中,识别重复的状态。当发现重复状态时,将其对应的数值累加到第一次出现该状态的原始位置上,然后将重复项从所有原始数组中移除。最后,对所有数组进行重新索引以去除空洞。

立即学习PHP免费学习笔记(深入)”;

实现步骤:

杰易OA办公自动化系统6.0
杰易OA办公自动化系统6.0

基于Intranet/Internet 的Web下的办公自动化系统,采用了当今最先进的PHP技术,是综合大量用户的需求,经过充分的用户论证的基础上开发出来的,独特的即时信息、短信、电子邮件系统、完善的工作流、数据库安全备份等功能使得信息在企业内部传递效率极大提高,信息传递过程中耗费降到最低。办公人员得以从繁杂的日常办公事务处理中解放出来,参与更多的富于思考性和创造性的工作。系统力求突出体系结构简明

下载
  1. 初始化一个辅助数组 $found 来记录每个状态第一次出现的索引。
  2. 遍历 $statuses 数组。
  3. 如果当前状态是第一次遇到,将其索引记录到 $found 中。
  4. 如果当前状态是重复的,将其对应的 $of_tranxs、$revs 和 $mgps 值累加到 $found 中记录的第一次出现的索引位置。
  5. 累加完成后,从所有原始数组中移除当前重复项。
  6. 循环结束后,使用 array_values() 对所有数组进行重新索引。

示例代码:

$statuses = ['PROSPECT', 'BACKLOG', 'PROSPECT'];
$of_tranxs = [2, 1, 2];
$revs = [3, 1, 3];
$mgps = [4, 1, 4];

$found = [];
foreach ($statuses as $index => $status) {
    if (!isset($found[$status])) {
        // 第一次遇到该状态,记录其索引
        $found[$status] = $index;
        continue;
    }
    // 状态重复,累加到第一次出现的位置
    $of_tranxs[$found[$status]] += $of_tranxs[$index];
    $revs[$found[$status]] += $revs[$index];
    $mgps[$found[$status]] += $mgps[$index];
    // 移除当前重复项
    unset($statuses[$index], $of_tranxs[$index], $revs[$index], $mgps[$index]);
}

$result = [
    'status' => array_values($statuses),
    'of_tranx' => array_values($of_tranxs),
    'rev' => array_values($revs),
    'mgp' => array_values($mgps)
];

var_export($result);

优点:

  • 在原始数组上进行操作,可能在某些情况下节省内存(尽管 unset 和 array_values 会有开销)。
  • 逻辑相对直观。

缺点:

  • 会修改原始数组,如果原始数据还需要保留,则需要先进行复制。
  • unset 操作会打乱数组索引,最终需要 array_values() 进行重新索引,这会产生额外的遍历和内存开销。

方法二:构建新的结果数组并使用索引映射

这种方法通过构建一个新的结果数组来存储聚合后的数据,同时使用一个辅助数组来映射每个状态在新结果数组中的索引位置。这避免了对原始数组的修改和复杂的重新索引。

实现步骤:

  1. 初始化一个空的结果数组 $result 和一个用于新索引映射的数组 $newIndex。
  2. 初始化一个计数器 $i,用于为新结果数组分配索引。
  3. 遍历 $statuses 数组。
  4. 如果当前状态在 $newIndex 中不存在,说明是第一次遇到该状态:
    • 将当前状态及其对应的数值添加到 $result 数组中。
    • 将当前状态及其在新 $result 数组中的索引记录到 $newIndex 中,并递增 $i。
  5. 如果当前状态已在 $newIndex 中存在,说明是重复状态:
    • 根据 $newIndex 中记录的索引,将当前数值累加到 $result 数组的对应位置。

示例代码:

$statuses = ['PROSPECT', 'BACKLOG', 'PROSPECT'];
$of_tranxs = [2, 1, 2];
$revs = [3, 1, 3];
$mgps = [4, 1, 4];

$result = [];
$newIndex = []; // 存储状态到新结果数组索引的映射
$i = 0;         // 新结果数组的索引计数器

foreach ($statuses as $oldIndex => $status) {
    if (!isset($newIndex[$status])) {
        // 第一次遇到该状态,添加到结果数组并记录新索引
        $newIndex[$status] = $i++;
        $result['status'][] = $status;
        $result['of_tranx'][] = $of_tranxs[$oldIndex];
        $result['rev'][] = $revs[$oldIndex];
        $result['mgp'][] = $mgps[$oldIndex];
    } else {
        // 状态重复,累加到结果数组的对应位置
        $targetNewIndex = $newIndex[$status];
        $result['of_tranx'][$targetNewIndex] += $of_tranxs[$oldIndex];
        $result['rev'][$targetNewIndex] += $revs[$oldIndex];
        $result['mgp'][$targetNewIndex] += $mgps[$oldIndex];
    }
}

var_export($result);

优点:

  • 不修改原始数组,保持数据完整性。
  • 代码逻辑清晰,易于理解和维护。
  • 避免了 array_values() 的额外开销。

缺点:

  • 需要额外的内存来存储 $newIndex 映射数组。

方法三:使用引用构建结果数组

此方法结合了前两种方法的优点,它通过构建一个包含引用变量的中间数组来直接操作最终结果,从而避免了 array_values() 的调用,并且在语义上更清晰地表示了聚合过程。

实现步骤:

  1. 初始化一个空的结果数组 $result 和一个用于存储引用的辅助数组 $ref。
  2. 遍历 $statuses 数组。
  3. 如果当前状态在 $ref 中不存在,说明是第一次遇到该状态:
    • 在 $ref 数组中为该状态创建一个包含所有相关数据的关联数组。
    • 将 $ref 中新创建的这个关联数组的引用添加到 $result 数组中。
  4. 如果当前状态已在 $ref 中存在,说明是重复状态:
    • 直接通过 $ref 中的引用,累加对应状态的数值。由于 $result 中存储的是 $ref 中元素的引用,对 $ref 的修改会直接反映到 $result 中。

示例代码:

$statuses = ['PROSPECT', 'BACKLOG', 'PROSPECT'];
$of_tranxs = [2, 1, 2];
$revs = [3, 1, 3];
$mgps = [4, 1, 4];

$result = [];
$ref = []; // 存储状态到聚合数据块的引用

foreach ($statuses as $i => $status) {
    if (!isset($ref[$status])) {
        // 第一次遇到该状态,创建数据块并存储引用
        $ref[$status] = [
            'status' => $status,
            'of_tranx' => $of_tranxs[$i],
            'rev' => $revs[$i],
            'mgp' => $mgps[$i],
        ];
        $result[] = &$ref[$status]; // 将引用添加到结果数组
    } else {
        // 状态重复,通过引用直接累加
        $ref[$status]['of_tranx'] += $of_tranxs[$i];
        $ref[$status]['rev'] += $revs[$i];
        $ref[$status]['mgp'] += $mgps[$i];
    }
}

// 注意:此方法输出的 $result 结构与前两种略有不同,
// 它是一个索引数组,每个元素是一个包含 'status', 'of_tranx', 'rev', 'mgp' 的关联数组。
// 如果需要前两种方法的列式输出,需要再做一次转换。
// 例如:
$final_result = [
    'status' => array_column($result, 'status'),
    'of_tranx' => array_column($result, 'of_tranx'),
    'rev' => array_column($result, 'rev'),
    'mgp' => array_column($result, 'mgp'),
];

var_export($final_result);

优点:

  • 避免了 array_values() 的调用,减少了额外的遍历。
  • 通过引用直接操作数据,代码简洁高效。
  • 中间结果 $result 是一个包含关联数组的数组,结构化程度更高,便于后续处理。

缺点:

  • 如果最终需要列式输出(如示例期望),则需要额外的 array_column() 转换。
  • 对引用的理解和使用需要更谨慎,避免潜在的副作用。

总结与注意事项

以上三种方法都能有效解决根据一个数组对多个列式数据进行分组求和的问题。在选择具体方法时,可以根据以下因素进行考量:

  • 是否允许修改原始数据: 如果原始数据必须保持不变,应选择方法二或方法三。
  • 性能要求: 对于大数据集,避免不必要的 unset 和 array_values() 操作(如方法一)通常会带来更好的性能。方法二和方法三在单次遍历中完成聚合,通常效率较高。
  • 代码可读性与维护性: 方法二和方法三的逻辑相对清晰,易于理解。方法三通过引用操作,在某些场景下更为优雅。
  • 最终输出结构: 方法三的直接输出是包含关联数组的索引数组,如果需要列式输出,则需额外转换。方法一和方法二直接生成列式输出。

建议在实际开发中,根据项目的具体需求和团队的代码风格,选择最适合的实现方案。对于大多数情况,方法二(构建新结果数组与索引映射)或方法三(使用引用)都是既高效又易于维护的良好选择。

相关文章

PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
php文件怎么打开
php文件怎么打开

打开php文件步骤:1、选择文本编辑器;2、在选择的文本编辑器中,创建一个新的文件,并将其保存为.php文件;3、在创建的PHP文件中,编写PHP代码;4、要在本地计算机上运行PHP文件,需要设置一个服务器环境;5、安装服务器环境后,需要将PHP文件放入服务器目录中;6、一旦将PHP文件放入服务器目录中,就可以通过浏览器来运行它。

1717

2023.09.01

php怎么取出数组的前几个元素
php怎么取出数组的前几个元素

取出php数组的前几个元素的方法有使用array_slice()函数、使用array_splice()函数、使用循环遍历、使用array_slice()函数和array_values()函数等。本专题为大家提供php数组相关的文章、下载、课程内容,供大家免费下载体验。

1144

2023.10.11

php反序列化失败怎么办
php反序列化失败怎么办

php反序列化失败的解决办法检查序列化数据。检查类定义、检查错误日志、更新PHP版本和应用安全措施等。本专题为大家提供php反序列化相关的文章、下载、课程内容,供大家免费下载体验。

1048

2023.10.11

php怎么连接mssql数据库
php怎么连接mssql数据库

连接方法:1、通过mssql_系列函数;2、通过sqlsrv_系列函数;3、通过odbc方式连接;4、通过PDO方式;5、通过COM方式连接。想了解php怎么连接mssql数据库的详细内容,可以访问下面的文章。

948

2023.10.23

php连接mssql数据库的方法
php连接mssql数据库的方法

php连接mssql数据库的方法有使用PHP的MSSQL扩展、使用PDO等。想了解更多php连接mssql数据库相关内容,可以阅读本专题下面的文章。

1396

2023.10.23

html怎么上传
html怎么上传

html通过使用HTML表单、JavaScript和PHP上传。更多关于html的问题详细请看本专题下面的文章。php中文网欢迎大家前来学习。

1228

2023.11.03

PHP出现乱码怎么解决
PHP出现乱码怎么解决

PHP出现乱码可以通过修改PHP文件头部的字符编码设置、检查PHP文件的编码格式、检查数据库连接设置和检查HTML页面的字符编码设置来解决。更多关于php乱码的问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

1439

2023.11.09

php文件怎么在手机上打开
php文件怎么在手机上打开

php文件在手机上打开需要在手机上搭建一个能够运行php的服务器环境,并将php文件上传到服务器上。再在手机上的浏览器中输入服务器的IP地址或域名,加上php文件的路径,即可打开php文件并查看其内容。更多关于php相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

1303

2023.11.13

虚拟号码教程汇总
虚拟号码教程汇总

本专题整合了虚拟号码接收验证码相关教程,阅读下面的文章了解更多详细操作。

25

2025.12.25

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 7.9万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 6.9万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号