PHP：基于一维数组对二维数组指定列进行过滤的两种方法

霞舞

发布时间：2025-10-09 12:32:01

534人浏览过

来源于php中文网

原创

PHP：基于一维数组对二维数组指定列进行过滤的两种方法

本文将探讨在PHP中如何根据一个一维数组的白名单值，对一个二维数组的特定列进行过滤。我们将详细介绍两种主要方法：使用array_uintersect()配合自定义比较回调函数，以及使用array_filter()结合in_array()。文章将提供示例代码，并讨论两种方法的实现细节、适用场景及潜在的性能考量，旨在帮助开发者选择最适合其需求的过滤策略。

在php开发中，我们经常会遇到需要从一个包含多个关联数组（即二维数组）的数据集中，根据另一个一维数组中指定的条件值，筛选出符合条件的行。例如，我们有一个用户列表（二维数组），希望根据一个年龄白名单（一维数组）来筛选出特定年龄的用户。

考虑以下示例数据：

$a1 = [
    ['name' => 'mike',  'age' => 18],
    ['name' => 'james', 'age' => 22],
    ['name' => 'sarah', 'age' => 35],
    ['name' => 'ken',   'age' => 29],
];

$a2 = [22, 25, 35, 40]; // 希望保留age为这些值的用户

我们的目标是得到如下结果：

[
    ['name' => 'james', 'age' => 22],
    ['name' => 'sarah', 'age' => 35]
]

下面将介绍两种实现此过滤的方法。

方法一：使用 array_uintersect() 进行高级过滤

array_uintersect() 函数可以计算两个或更多数组的交集，并使用用户自定义的比较函数进行值的比较。由于我们的两个数组具有不同的结构（一个二维数组，一个一维数组），因此需要一个自定义的比较函数来指定如何提取和比较值。

立即学习“PHP免费学习笔记（深入）”；

array_uintersect() 简介

array_uintersect(array $array1, array $array2, ... , callable $value_compare_func) 函数返回一个数组，其中包含所有在 array1 中存在并且在所有其他数组中也存在的值。值是通过用户提供的回调函数进行比较的。

自定义比较函数的重要性

在我们的场景中，$a1 的元素是关联数组，而 $a2 的元素是标量值。直接比较它们会导致错误。因此，我们需要一个回调函数来：

从 $a1 的元素中提取 age 值。
直接使用 $a2 的元素值。
对这些提取出的值进行比较。

回调函数会接收两个参数，分别代表来自两个（或更多）输入数组的元素。由于在 array_uintersect 的内部迭代过程中，回调函数可能会收到来自 $a1 的完整行数组，也可能收到来自 $a2 的标量年龄值，因此我们需要健壮地处理这两种情况。

代码示例

 'mike',  'age' => 18],
    ['name' => 'james', 'age' => 22],
    ['name' => 'sarah', 'age' => 35],
    ['name' => 'ken',   'age' => 29],
];

$a2 = [22, 25, 35, 40];

$filteredArray = array_uintersect(
    $a1,
    $a2,
    fn($a, $b) => ($a['age'] ?? $a) <=> ($b['age'] ?? $b)
);

var_export($filteredArray);
?>

回调函数解析

fn($a, $b) => ($a['age'] ?? $a) ($b['age'] ?? $b) 是一个箭头函数，它定义了比较逻辑。

$a 和 $b 是回调函数接收的两个待比较元素。
$a['age'] ?? $a：这部分是关键。它尝试访问 $a 的 'age' 键。如果 $a 是一个关联数组（来自 $a1），它将返回 age 的值。如果 $a 是一个标量值（来自 $a2），则 'age' 键不存在，?? (null 合并运算符) 会使其回退到 $a 本身的值。
同样，$b['age'] ?? $b 执行相同的逻辑。
(飞船运算符) 用于比较两个值。它会返回 -1、0 或 1，分别表示小于、等于或大于。array_uintersect 就是根据这个返回值来判断元素是否相等。

适用场景与性能考量

array_uintersect() 方法的优点是其语义清晰，直接表达了“取交集”的意图。它在内部处理了迭代和比较，代码相对紧凑。对于中等规模的数据集，其性能通常可以接受。然而，对于非常大的数据集，由于自定义回调函数的每次调用都会带来一定的开销，可能需要进行基准测试以评估其性能。

方法二：结合 array_filter() 和 in_array() 进行简洁过滤

另一种更直观且常用的方法是使用 array_filter() 配合一个回调函数，该回调函数内部使用 in_array() 来检查当前元素的 age 值是否在白名单 $a2 中。

法语写作助手

法语助手旗下的AI智能写作平台，支持语法、拼写自动纠错，一键改写、润色你的法语作文。

下载

基本原理

array_filter() 函数用于使用回调函数过滤数组的元素。它会遍历数组的每个元素，并将元素作为参数传递给回调函数。如果回调函数返回 true，则当前元素会被保留在结果数组中；如果返回 false，则会被丢弃。
in_array() 函数用于检查一个值是否存在于数组中。

将两者结合，我们可以遍历 $a1 中的每个用户行，然后检查该用户的 age 是否存在于 $a2 白名单中。

代码示例

 'mike',  'age' => 18],
    ['name' => 'james', 'age' => 22],
    ['name' => 'sarah', 'age' => 35],
    ['name' => 'ken',   'age' => 29],
];

$a2 = [22, 25, 35, 40];

$filteredArray = array_filter(
    $a1,
    fn($row) => in_array($row['age'], $a2)
);

var_export($filteredArray);
?>

性能优化：将白名单数组转换为哈希表

in_array() 在每次调用时都需要遍历其内部数组 $a2 来查找值。如果 $a1 非常大（需要多次调用 in_array()），并且 $a2 也非常大，那么这种重复遍历可能会导致性能瓶颈，因为 in_array() 的时间复杂度是 O(n)。

为了优化性能，尤其是在 $a2 包含大量元素时，我们可以先将 $a2 转换为一个关联数组（哈希表/查找表），这样 isset() 或 array_key_exists() 的查找时间复杂度就接近 O(1)。

 'mike',  'age' => 18],
    ['name' => 'james', 'age' => 22],
    ['name' => 'sarah', 'age' => 35],
    ['name' => 'ken',   'age' => 29],
];

$a2 = [22, 25, 35, 40];

// 将 $a2 转换为一个用于快速查找的哈希表
// 例如：[22 => true, 25 => true, 35 => true, 40 => true]
$whitelistLookup = array_flip(array_map('strval', $a2)); // 使用 strval 确保键是字符串，防止意外类型转换

$filteredArray = array_filter(
    $a1,
    fn($row) => isset($whitelistLookup[(string)$row['age']]) // 使用 isset 进行 O(1) 查找
);

var_export($filteredArray);
?>

注意事项：

array_flip() 会将数组的值作为键，键作为值。如果 $a2 中有重复值，则只有最后一个值会被保留。
array_map('strval', $a2) 是为了确保 $a2 中的所有元素都被转换为字符串，以避免在 array_flip 过程中因混合类型键导致的潜在问题。
isset($whitelistLookup[(string)$row['age']]) 中，将 $row['age'] 强制转换为字符串 (string) 是一个好的实践，以确保查找键的类型与 whitelistLookup 中的键类型一致。

适用场景与注意事项

array_filter() 结合 in_array() 的方法在代码可读性上通常优于 array_uintersect()，尤其对于不熟悉复杂回调函数的开发者。它易于理解和实现。当白名单数组 $a2 较小，或者 $a1 数组也较小时，性能差异不明显。但如前所述，对于大规模数据，转换为哈希表进行查找是提高性能的关键优化。

总结与选择建议

两种方法都能有效解决根据一维数组过滤二维数组特定列的问题。

array_uintersect() 方法：
- 优点： 语义上更接近“求交集”，代码紧凑。
- 缺点： 自定义回调函数逻辑可能略显复杂，特别是处理不同深度的数组时。
- 适用场景： 当需要基于复杂比较逻辑进行数组交集操作时。
array_filter() 结合 in_array() 方法：
- 优点： 代码逻辑直观，易于理解和维护。
- 缺点： 在处理大规模数据时，in_array() 的重复调用可能导致性能问题。
- 适用场景：
  - 当白名单数组（$a2）较小，或总数据量不大时，此方法简单高效。
  - 当白名单数组较大时，强烈建议先将其转换为哈希表，然后使用 isset() 进行 O(1) 查找，以获得最佳性能。