
1. 问题描述
在处理包含时间序列数据的数组时,我们经常会遇到同一个日期出现多条记录的情况。例如,一个订单数据数组可能包含多个相同order_date的子数组,而我们的目标是仅保留每个order_date对应的最后一条记录。这意味着,如果某个日期多次出现,所有较早的记录都应被移除,只留下最新(在原始数组中位置靠后)的那条。
考虑以下订单数据示例:
$arr = array(
array('order_id' => '12652', 'order_date' => '21-01', 'total' => 6.7, 'cumulative' => 6.7),
array('order_id' => 5204, 'order_date' => '21-02', 'total' => 21.65, 'cumulative' => 28.35), // 较早的'21-02'
array('order_id' => 7270, 'order_date' => '21-02', 'total' => 10.98, 'cumulative' => 39.33), // 较晚的'21-02',应保留
array('order_id' => 0, 'order_date' => '21-03', 'total' => 0, 'cumulative' => 39.33),
array('order_id' => 196331, 'order_date' => '21-04', 'total' => 12.6, 'cumulative' => 51.93), // 较早的'21-04'
array('order_id' => 199875, 'order_date' => '21-04', 'total' => 14.75, 'cumulative' => 66.68), // 较晚的'21-04',应保留
array('order_id' => 0, 'order_date' => '21-05', 'total' => 0, 'cumulative' => 66.68),
// ... 其他日期记录
'total' => 66.68,
'orders' => 5,
'avg' => 13.336,
);根据上述规则,我们希望移除索引为 1 和 4 的子数组,因为它们的 order_date (21-02 和 21-04) 在后面有重复且更晚的记录。
2. 解决方案概述
为了实现“保留最后一条记录”的需求,我们可以采用一种逆向处理的策略。核心思路如下:
- 反转数组: 首先,将原始数组的顺序反转。这样,原始数组中“最后出现”的记录在反转后的数组中就变成了“最先出现”。
- 过滤数组: 接着,遍历反转后的数组。在遍历过程中,我们需要一个机制来记录哪些日期已经被处理过(即已经保留了该日期的第一条记录)。
- 恢复顺序: 最后,将过滤后的数组再次反转,以恢复其原始的逻辑顺序。
这种方法巧妙地利用了array_reverse()和array_filter()的组合,配合一个静态变量来高效地完成任务。
立即学习“PHP免费学习笔记(深入)”;
3. 详细实现步骤
3.1 核心思路:反转与过滤
- array_reverse($arr): 这个函数会返回一个元素顺序颠倒的新数组。对于我们的问题,它使得原始数组中最后出现的重复项在处理时首先被遇到。
- array_filter($array, $callback): 这个函数会遍历数组中的每个元素,并对每个元素执行一个回调函数。如果回调函数返回 true,则保留该元素;如果返回 false,则将其从结果数组中移除。
- 静态变量 $existentKeys: 在array_filter的回调函数内部声明一个static变量,可以确保这个变量在函数每次调用时都保持其值,而不会被重新初始化。这使得我们可以在多次迭代中跟踪哪些order_date已经被“看到”并保留了。
3.2 代码示例
以下是实现上述逻辑的PHP代码:
'12652',
'order_date' => '21-01',
'total' => 6.7,
'cumulative' => 6.7
),
array(
'order_id' => 5204,
'order_date' => '21-02',
'total' => 21.65,
'cumulative' => 28.35
),
array(
'order_id' => 7270,
'order_date' => '21-02',
'total' => 10.98,
'cumulative' => 39.33,
),
array(
'order_id' => 0,
'order_date' => '21-03',
'total' => 0,
'cumulative' => 39.33
),
array(
'order_id' => 196331,
'order_date' => '21-04',
'total' => 12.6,
'cumulative' => 51.93
),
array(
'order_id' => 199875,
'order_date' => '21-04',
'total' => 14.75,
'cumulative' => 66.68
),
array(
'order_id' => 0,
'order_date' => '21-05',
'total' => 0,
'cumulative' => 66.68
),
array(
'order_id' => 0,
'order_date' => '21-06',
'total' => 0,
'cumulative' => 66.68
),
array(
'order_id' => 0,
'order_date' => '21-07',
'total' => 0,
'cumulative' => 66.68
),
array(
'order_id' => 0,
'order_date' => '21-08',
'total' => 0,
'cumulative' => 66.68
),
array(
'order_id' => 0,
'order_date' => '21-09',
'total' => 0,
'cumulative' => 66.68
),
'total' => 66.68,
'orders' => 5,
'avg' => 13.336,
);
echo "原始数组:
";
echo "";
print_r($arr);
echo "
";
$res = array_filter(array_reverse($arr, true), function ($item) {
// 声明一个静态变量来存储已经处理过的日期
static $existentKeys = [];
// 检查当前元素是否是包含 'order_date' 的子数组
if (isset($item['order_date'])) {
$order_date = $item['order_date'];
// 如果该日期已经存在于 $existentKeys 中,说明这不是该日期的最后一条记录(因为我们是反向遍历)
if (isset($existentKeys[$order_date])) {
return false; // 过滤掉此元素
} else {
// 否则,这是该日期的第一条记录(反向遍历时),将其标记为已存在并保留
$existentKeys[$order_date] = true;
return true; // 保留此元素
}
}
// 对于不包含 'order_date' 键的元素(如 'total', 'orders', 'avg'),直接保留
return true;
});
// 再次反转数组以恢复原始顺序
$final_result = array_reverse($res, true);
echo "处理后的数组 (保留每个日期的最后一条记录):
";
echo "";
print_r($final_result);
echo "
";
?>3.3 代码解析
-
array_reverse($arr, true):
- $arr 是我们的原始数组。
- true 作为第二个参数非常重要,它指示 array_reverse 保留数组的键名。如果省略或设置为 false,数字键会被重置为 0, 1, 2...,这可能会导致后续处理中的混淆,特别是当原始数组的键名有特定含义时。
-
array_filter(..., function ($item) { ... }):
- array_filter 会遍历 array_reverse($arr, true) 返回的数组中的每个元素。
- 匿名函数作为回调,接收每个元素 $item。
-
static $existentKeys = [];:
- static 关键字确保 $existentKeys 变量在回调函数的多次调用之间保持其状态。它只会在第一次调用时被初始化一次。
- 这个数组将用来存储我们已经保留了order_date的日期值,作为键。
-
if (isset($item['order_date'])) { ... }:
- 这一步检查当前处理的 $item 是否是一个包含 order_date 键的子数组。这是为了避免对数组末尾的非订单数据(如 'total', 'orders', 'avg')进行日期去重逻辑处理,确保它们被正确保留。
-
if (isset($existentKeys[$order_date])) { return false; }:
- 由于我们已经反转了数组,当遇到一个 order_date 时,如果它已经在 $existentKeys 中,说明我们之前(在反转后的数组中)已经处理并保留了该日期的第一条记录(对应原始数组中的最后一条)。因此,当前这条是重复且较早的,应该被过滤掉。
-
else { $existentKeys[$order_date] = true; return true; }:
- 如果 order_date 不在 $existentKeys 中,说明这是我们第一次遇到这个日期(在反转后的数组中)。这意味着它是原始数组中该日期的最后一条记录。我们将其添加到 $existentKeys 中,并返回 true 以保留此元素。
-
return true; (在 if (isset($item['order_date'])) 外部):
- 对于那些不包含 order_date 键的元素(如 'total', 'orders', 'avg'),它们不会进入日期去重逻辑,直接返回 true,确保它们也被保留在结果数组中。
-
array_reverse($res, true):
- array_filter 返回的 $res 数组仍然是反转后的顺序。我们需要再次使用 array_reverse (同样带 true 参数以保留键名) 将其恢复到原始的逻辑顺序。
4. 注意事项
- 键名保留: 在两次调用 array_reverse() 时,务必传入 true 作为第二个参数,以保留原始数组的键名。否则,数字键将被重置,可能导致数据结构或索引错乱。
- 性能: 对于非常大的数组,这种方法通常是高效的,因为它只需要进行两次完整的数组遍历(一次反转,一次过滤)。$existentKeys 数组作为哈希表,其查找操作的平均时间复杂度为 O(1)。
- 内存使用: array_reverse() 会创建一个新的数组副本,array_filter() 也会创建一个新的数组。对于内存极其敏感的应用,需要考虑这一点。
- 数据结构一致性: 确保所有需要根据 order_date 去重的子数组都包含 order_date 键。如果某些子数组缺失此键,它们将不会参与去重逻辑,而是被直接保留。
- 替代方案: 也可以通过循环遍历原始数组,并构建一个新数组来实现。例如,使用 foreach 循环,并将 order_date 作为新数组的键来存储每个日期的最新记录。这种方法可能在某些情况下更直观,但需要手动管理键和值的覆盖。
5. 总结
通过结合 array_reverse() 和 array_filter(),并利用静态变量在回调函数中维护状态,我们可以优雅且高效地解决PHP数组中按特定字段去重并保留最后一条记录的问题。这种模式在处理日志、订单或任何时间序列数据时都非常有用,能够帮助我们获得最新、最准确的数据视图。理解 static 变量在回调函数中的作用是掌握此解决方案的关键。











