
本文详细介绍了如何使用 `jq` 工具对 json 数据进行高效的递归清理。内容涵盖了如何递归地移除空值(包括空字符串、空数组、空对象及空键值对),修剪所有字符串的空白,并将特定字符串(如 "true" 和 "false")转换为布尔类型。文章通过优化 `walk` 函数,提供了一个高性能的 `jq` 解决方案,旨在降低 cpu 占用,提升数据预处理效率。
在数据处理流程中,经常需要对复杂的 JSON 数据进行清洗和标准化。这些操作包括移除无效或空的数据项、统一数据格式以及进行类型转换。对于嵌套层级较深的 JSON 结构,手动编写递归逻辑不仅繁琐,而且容易出错。jq 作为一款强大的命令行 JSON 处理器,提供了处理此类需求的优雅方案。
本次数据清洗任务的核心需求可以归纳为以下几点:
所有这些操作都必须以递归方式应用于整个 JSON 结构。
jq 提供了一个内置的 walk 函数,它允许用户对 JSON 结构中的每个节点应用一个过滤器。walk(f) 的基本思想是:对于每个节点,它首先递归地处理其子节点,然后将函数 f 应用于当前节点。这使得 walk 成为处理递归清洗任务的理想选择。
用户最初尝试的 jq 解决方案利用了 walk 函数,并根据节点类型应用不同的清洗逻辑:
jq 'walk(
if type == "string" then
# 字符串处理:修剪空白并转换为布尔值
(sub("^[[:space:]]+"; "") | sub("[[:space:]]+$"; "") | if . == "true" then . |= true else . end | if . == "false" then . |= false else . end)
elif type == "object" then
# 对象处理:修剪键的空白,并移除空键或空值的条目
with_entries(
select(.value | . != "" and . != null and . != [] and . != {}) # 过滤空值
| .key |= sub("^[[:space:]]+"; "") | .key |= sub("[[:space:]]+$"; "") # 修剪键的空白
| select(.key | length > 0) # 过滤空键
)
elif type == "array" then
# 数组处理:移除空元素
map(select(. | . != "" and . != null and . != [] and . != {})) # 过滤空值
else . end)'这个方案在功能上是完整的,能够实现所有预期的清洗和转换。然而,在处理大规模数据或性能敏感的环境中,内置的 walk 函数可能不是最优选择,尤其是在 CPU 密集型场景下。
为了提高处理效率,我们可以定义一个自定义的、更高效的 walk 函数。标准的 jq 内置 walk 在某些实现中可能存在性能开销。通过自定义 walk 函数,我们可以更精细地控制递归过程,尤其是在对象处理上,使用 reduce keys_unsorted[] 通常比其他方法更高效。
以下是优化后的 walk 函数定义:
Easily find JSON paths within JSON objects using our intuitive Json Path Finder
30
# 定义一个优化的 walk 函数
def walk(f):
def w:
if type == "object" then
# 对于对象,递归处理每个键值对,然后将函数 f 应用于整个对象
. as $in
| reduce keys_unsorted[] as $key
( {}; . + { ($key): ($in[$key] | w) } ) | f
elif type == "array" then
# 对于数组,递归处理每个元素,然后将函数 f 应用于整个数组
map( w ) | f
else
# 对于其他类型(如字符串、数字、布尔值、null),直接应用函数 f
f
end;
w;这个优化后的 walk 函数通过以下方式提升了性能:
现在,我们将之前的数据清洗和转换逻辑封装到一个独立的 jq 过滤器中,并将其作为参数传递给优化后的 walk 函数。
# 定义优化的 walk 函数
def walk(f):
def w:
if type == "object" then
. as $in
| reduce keys_unsorted[] as $key
( {}; . + { ($key): ($in[$key] | w) } ) | f
elif type == "array" then
map( w ) | f
else
f
end;
w;
# 定义数据清洗和转换逻辑
def cleanup_transform_filter:
if type == "string" then
# 字符串处理:修剪空白并转换为布尔值
(sub("^[[:space:]]+"; "") | sub("[[:space:]]+$"; "") | if . == "true" then true elif . == "false" then false else . end)
elif type == "object" then
# 对象处理:修剪键的空白,并移除空键或空值的条目
with_entries(
.key |= (sub("^[[:space:]]+"; "") | sub("[[:space:]]+$"; "")) # 修剪键的空白
| select(.key | length > 0) # 过滤空键
| select(.value | . != "" and . != null and . != [] and . != {}) # 过滤空值
)
elif type == "array" then
# 数组处理:移除空元素
map(select(. | . != "" and . != null and . != [] and . != {})) # 过滤空值
else
. # 其他类型保持不变
end;
# 应用优化后的 walk 函数和清洗逻辑
walk(cleanup_transform_filter)示例输入 JSON:
{
"key1": " value1 ",
"key2": "",
"key3": "true",
"key4": "false",
"key5": null,
"key6": [],
"key7": {},
" key8 ": 123,
"key9": [
" array_val ",
"",
null,
{},
"false"
],
"key10": {
"sub_key1": " sub_val ",
"sub_key2": "",
" ": 456,
"sub_key3": []
},
"": "empty_key_value"
}使用上述 jq 脚本处理后的输出:
{
"key1": "value1",
"key3": true,
"key4": false,
"key8": 123,
"key9": [
"array_val",
false
],
"key10": {
"sub_key1": "sub_val"
}
}从输出可以看出:
通过上述优化方案,我们能够在 jq 中高效地实现复杂的 JSON 数据清洗和转换任务,从而更好地支持数据预处理流程。
以上就是使用 jq 高效递归清理 JSON 数据:移除空值、类型转换与字符串修剪的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号