
1. 引言:Jolt JSON转换简介
jolt是一个强大的json转换库,它允许开发者通过定义一系列的规格(spec)来重塑、过滤、转换json数据。在处理异构数据源集成、api网关的数据标准化以及日志处理等场景中,jolt因其声明式、易于理解的特性而广受欢迎。本教程将通过一个实际案例,展示jolt在处理动态数组和进行数据类型转换方面的能力。
2. 复杂JSON转换挑战:案例分析
假设我们有一个复杂的输入JSON结构,其中包含嵌套对象和动态长度的数组。我们的目标是将其转换为一个更扁平、结构化的格式,并且对特定字段进行数据类型转换。
原始输入JSON:
{
"Entity": {
"card": {
"cardNo":"123456789",
"cardStatus":"10",
"cardAddress":"UK",
"cardAddress1":"US",
"cardCity":"mk" ,
"name": "RAM",
"lastName": "ABU",
"name1": "RAM1",
"lastName1": "ABU1"
},
"Photos": [
{
"Id": 327703,
"Caption": "TEST>> photo 1",
"Url": "http://bob.com/0001/327703/photo.jpg"
},
{
"Id": 327704,
"Caption": "TEST>> photo 2",
"Url": "http://bob.com/0001/327704/photo.jpg"
},
{
"Id": 327704,
"Caption": "TEST>> photo 2",
"Url": "http://bob.com/0001/327704/photo.jpg"
}
]
}
}目标输出JSON:
{
"tab": {
"text": "123456789"
},
"address": [
{
"add": "UK",
"add2": "US",
"mk": "mk"
}
],
"Photos": [
{
"caption2": "http.1.com",
"no": "222444"
},
{
"caption2": "http.2.com",
"no": "222444"
},
{
"caption2": "TEST>> photo 1",
"no": "327703"
},
{
"caption2": "TEST>> photo 2",
"no": "327704"
},
{
"caption2": "TEST>> photo 2",
"no": "327704"
}
]
}转换中的关键挑战:
- 结构重塑: 将Entity.card中的字段映射到顶层的tab和address对象。
- 动态数组处理: Photos数组的长度是动态的,需要将每个Photos元素中的Id和Caption字段映射到no和caption2。
- 硬编码值集成: 在Photos数组的开头插入一些硬编码的条目(例如http.1.com和http.2.com)。
- 数据类型转换: 最终输出中Photos数组里no字段的值必须是字符串类型,而非原始的数值类型。
3. Jolt Spec设计与逐步实现
为了实现上述转换,我们将采用多阶段的Jolt Spec,结合shift和modify-overwrite-beta操作。
3.1 阶段一:初步数据重塑与字段映射 (shift操作)
shift操作是Jolt中最常用的操作之一,用于将输入JSON的字段移动到输出JSON的不同路径。
[
{
"operation": "shift",
"spec": {
"Entity": {
"card": {
"cardNo": "tab.text",
"cardAddress": "address[0].add",
"cardAddress1": "address[0].add2",
"cardC*": "address[0].mk",
// 硬编码部分:将字面量值映射到Photos数组
// 注意:Id1和Id2是输入中不存在的键,这里是利用Jolt的特性,
// 当源路径不存在时,目标路径会接收一个默认值(通常是null),
// 但这里结合了"#值"的语法,意味着将字面量"222444"作为值。
"Id1": "Photos.no",
"#222444": "Photos.no", // 实际输出中no的值是222444,这里是更准确的表示
"#http.1.com": "Photos.caption2",
"Id2": "Photos.no",
"#http.2.com": "Photos.caption2"
},
"Photos": {
"*": { // 使用通配符*来处理Photos数组中的每个元素
"Id": "Photos.no",
"Caption": "Photos.caption2"
}
}
}
}
}
]解释:
- "cardNo": "tab.text":将cardNo的值映射到tab.text。
- "cardAddress": "address[0].add":将cardAddress的值映射到address数组的第一个元素add字段。
- "cardC*": "address[0].mk":使用通配符*匹配cardCity,将其值映射到address[0].mk。
- "Id1": "Photos.no", "#222444": "Photos.no", "#http.1.com": "Photos.caption2":这部分是实现硬编码的关键。Id1和Id2在输入card中不存在,它们作为源键时,Jolt会查找其对应的值。但结合#前缀的字面量,例如#http.1.com,Jolt会将其作为字面值处理,并映射到目标路径。为了匹配目标输出中的no: 222444,我们假设Id1和Id2在原始问题中隐含了生成222444的逻辑,或者它们本身就是一种占位符,其值由#222444提供。在这个Spec中,#222444会被映射到Photos.no,而#http.1.com和#http.2.com则会被映射到Photos.caption2,从而生成那两个硬编码的Photos条目。
- "Photos": {"*": {"Id": "Photos.no", "Caption": "Photos.caption2"}}:这部分处理原始Photos数组。*匹配数组中的每个索引,将其内部的Id和Caption字段分别映射到目标Photos数组元素的no和caption2字段。
经过此阶段,tab和address结构已经初步形成,Photos数组也包含了硬编码和动态提取的条目,但no字段仍然是数值类型。
3.2 阶段二:结构整合与优化 (shift操作)
这个阶段主要是为了确保tab、address和Photos都在输出JSON的根级别,并且Photos数组结构正确。在很多情况下,当上一个shift操作已经将数据正确地放置在目标路径时,这个阶段可以用来微调结构或进行简单的提升。
[
// ... (阶段一的shift操作) ...
,
{
"operation": "shift",
"spec": {
"tab": "&", // 将 "tab" 对象提升到根级别
"address": "&", // 将 "address" 数组提升到根级别
"Photos": {
"*": { // 遍历Photos数组的每个元素
"*": { // 遍历每个元素内部的键(如 "no", "caption2")
"@": "&3[&1].&2" // 将当前值 (@) 映射回根级别下的 Photos[数组索引].键
}
}
}
}
}
]解释:
- "tab": "&" 和 "address": "&":这是Jolt中将当前匹配到的键(tab或address)及其值整体提升到输出JSON根目录的简洁方式。
- "Photos": {"*": {"*": {"@": "&3[&1].&2"}}}:这部分相对复杂。
- 第一个*匹配Photos数组的索引。
- 第二个*匹配Photos数组中每个元素的键(例如no或caption2)。
- @表示当前匹配到的值。
- &3向上回溯三级,指的是输出JSON的根目录。
- &1向上回溯一级,指的是Photos数组的索引。
- &2向上回溯两级,指的是键(no或caption2)。
- 所以&3[&1].&2的含义是:将当前值映射到根目录下的Photos数组,索引为当前元素的索引,键为当前元素的键。这实际上是一个确保Photos数组结构保持不变的“通过”操作。
3.3 阶段三:数据类型转换 (modify-overwrite-beta操作)
这是解决核心挑战——将no字段从数值转换为字符串——的关键阶段。modify-overwrite-beta操作允许我们修改现有字段的值。
[
// ... (阶段一和阶段二的shift操作) ...
,
{
"operation": "modify-overwrite-beta",
"spec": {
"Photos": {
"*": { // 遍历Photos数组中的每个元素
"no": "=toString" // 将当前元素的"no"字段的值转换为字符串类型
}
}
}
}
]解释:
- "operation": "modify-overwrite-beta":指定使用修改操作。overwrite-beta表示如果目标字段已存在,则覆盖其值。
- "Photos": {"*": {"no": "=toString"}}:
- Photos:定位到Photos数组。
- *:遍历Photos数组中的每一个元素。
- no:定位到每个元素内部的no字段。
- "=toString":这是一个Jolt内置函数,用于将当前字段的值转换为字符串。Jolt会读取no字段的当前值(例如327703),然后应用toString函数,将其变为"327703"。
4. 完整Jolt Spec示例
将以上三个阶段整合起来,即可得到完整的Jolt Spec,实现从输入到目标输出的转换。
[
{
"operation": "shift",
"spec": {
"Entity": {
"card": {
"cardNo": "tab.text",
"cardAddress": "address[0].add",
"cardAddress1": "address[0].add2",
"cardC*": "address[0].mk",
"#222444": "Photos[0].no", // 硬编码第一个Photos条目的no
"#http.1.com": "Photos[0].caption2", // 硬编码第一个Photos条目的caption2
"#222444": "Photos[1].no", // 硬编码第二个Photos条目的no
"#http.2.com": "Photos[1].caption2" // 硬编码第二个Photos条目的caption2
},
"Photos": {
"*": { // 使用@1来获取当前Photos数组的索引,并从2开始
"Id": "Photos[&1+2].no", // 动态Photos条目从索引2开始
"Caption": "Photos[&1+2].caption2"
}
}
}
}
},
{
"operation": "modify-overwrite-beta",
"spec": {
"Photos": {
"*": {
"no": "=toString" // 将Photos数组中每个元素的"no"字段的值转换为字符串类型
}
}
}
}
]注意: 原始问题中的第二个shift操作 ("Photos": {"*": {"*": {"@": "&3[&1].&2"}}}) 实际上是保持 Photos 数组结构不变的。为了简化和优化,并且直接生成目标结构,我们可以将硬编码的 Photos 条目直接指定到数组索引,然后将动态 Photos 条目从后续索引开始。上述优化后的Jolt Spec将原始的两个shift操作和modify操作整合为更精简的两步。
解释优化后的Spec:
-
第一个shift操作:
- card部分:cardNo, cardAddress, cardAddress1, cardC*的映射保持不变。
- 硬编码Photos条目:直接指定索引Photos[0]和Photos[1]来放置硬编码的no和caption2值。
- 动态Photos条目:"Photos": {"*": {"Id": "Photos[&1+2].no", "Caption": "Photos[&1+2].caption2"}}
- *匹配原始Photos数组的










