使用“Get data from XML”步骤读取XML文件最可靠,需规范XML格式、设对重复节点路径(如/orders/order),嵌套项(如items/item)需二级解析,注意编码、XPath及命名空间配置。

用 Pentaho Data Integration(Kettle)读取 XML 文件,核心是使用 “Get data from XML” 步骤,它专为解析结构化 XML 设计,比通用的 “Text file input” 更可靠、更灵活。
准备 XML 文件和了解结构
确保 XML 文件格式规范(有根节点、标签闭合、无非法字符),并提前查看其层级结构。例如:
Alice 299.99 Laptop Mouse
注意:Kettle 默认按“重复节点”提取数据。上例中, 是重复节点,应设为循环路径; 是嵌套重复节点,需额外处理(见下文)。
配置 “Get data from XML” 步骤
在转换中添加该步骤后,关键设置包括:
-
XML source:选择“File”并指定路径(支持变量如
${FILE_PATH}) -
Repeat node:填写相对 XPath,如
/orders/order—— 这决定每行输出对应一个 -
Fields 标签页中定义字段:
- Field name:如
customer - Element XPath:相对于 repeat node 的路径,如
customer(直接子元素)或../@id(取父节点属性) - Type:选 String / Number / Date 等,匹配实际值类型
- Format/Length/Precision:按需填写,如金额设为 Number + 2 位小数
- Field name:如
处理多层嵌套(如 items/item)
“Get data from XML” 本身不支持跨层级展开多个重复组。若需把每个 拆成独立行,推荐组合方案:
- 先用 “Get data from XML” 提取
级数据(含内容作为 XML 片段字段) - 再接一个 “Get data from XML” 步骤,将上一步输出的
items_xml字段作为 XML source(选 “XML from field”),repeat node 设为items/item - 用 “Join Rows (Cartesian product)” 或 “Stream lookup” 关联主订单信息(需提前加唯一键,如 order_id)
常见问题与提示
避免踩坑:










