如何用Pentaho Data Integration (Kettle) 读取XML

幻夢星雲

发布时间：2026-01-04 11:19:02

481人浏览过

来源于php中文网

原创

使用“Get data from XML”步骤读取XML文件最可靠，需规范XML格式、设对重复节点路径（如/orders/order），嵌套项（如items/item）需二级解析，注意编码、XPath及命名空间配置。

如何用pentaho data integration (kettle) 读取xml

用 Pentaho Data Integration（Kettle）读取 XML 文件，核心是使用 “Get data from XML” 步骤，它专为解析结构化 XML 设计，比通用的 “Text file input” 更可靠、更灵活。

准备 XML 文件和了解结构

确保 XML 文件格式规范（有根节点、标签闭合、无非法字符），并提前查看其层级结构。例如：



  
    Alice
    299.99
    
      Laptop
      Mouse

注意：Kettle 默认按“重复节点”提取数据。上例中，是重复节点，应设为循环路径；是嵌套重复节点，需额外处理（见下文）。

配置 “Get data from XML” 步骤

在转换中添加该步骤后，关键设置包括：

叮当好记-AI音视频转图文

AI音视频转录与总结，内容学习效率 x10！

下载

XML source：选择“File”并指定路径（支持变量如 ${FILE_PATH}）
Repeat node：填写相对 XPath，如 /orders/order —— 这决定每行输出对应一个
Fields 标签页中定义字段：
- Field name：如 customer
- Element XPath：相对于 repeat node 的路径，如 customer（直接子元素）或 ../@id（取父节点属性）
- Type：选 String / Number / Date 等，匹配实际值类型
- Format/Length/Precision：按需填写，如金额设为 Number + 2 位小数

处理多层嵌套（如 items/item）

“Get data from XML” 本身不支持跨层级展开多个重复组。若需把每个拆成独立行，推荐组合方案：

先用 “Get data from XML” 提取级数据（含内容作为 XML 片段字段）
再接一个 “Get data from XML” 步骤，将上一步输出的 items_xml 字段作为 XML source（选 “XML from field”），repeat node 设为 items/item
用 “Join Rows (Cartesian product)” 或 “Stream lookup” 关联主订单信息（需提前加唯一键，如 order_id）

常见问题与提示

避免踩坑：

中文乱码？在步骤的 “Content” 标签页中，显式设置 Encoding 为 UTF-8（即使文件声明了也建议指定）
字段为空？检查 XPath 是否正确，是否用了 text()（如 customer/text()），或启用 “Ignore empty elements”
性能慢？大文件建议开启 “Use memory mapping”（在 Content 页），并限制预览行数
需要命名空间？在 “Content” 页勾选 “Support namespaces”，并在 XPath 中用前缀（如 ns:customer），同时在 “Namespaces” 表格里定义前缀与 URI 映射

XML中如何判断节点是否为叶子节点_XML判断节点是否为叶子节点的方法

XML中如何判断节点是否为空_XML判断节点是否为空的技巧与步骤

XPath如何选择父节点？

XPath如何选择后代节点？

XPath的following轴怎么选择之后的节点？

相关标签:

node 编码 app 中文乱码 stream 常见问题 String 命名空间 date format xml 循环值类型 Length number input

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Java怎么把ResultSet直接转换成XML 下一篇：XML Schema中的substitutionGroup怎么用

作者最新文章

Dapper的QuerySingle和SingleOrDefault有什么区别 Dapper查询单行数据

2026-01-05 09:22

老款MacBook Pro怎么强制安装最新版macOS【补丁工具】

2026-01-05 09:25

普通发票查询入口全国增值税发票查验官网

2026-01-05 09:33

哔哩轻小说作家后台在哪哔哩轻小说创作中心入口

2026-01-05 09:49

手机怎么开增值税发票税务APP电子发票开具操作演示【教程】

2026-01-05 09:51

c# byte[] 和 string 如何转换

2026-01-05 09:55

三角洲端游官网入口官方启动器下载

2026-01-05 10:01

改了抖音名后抖查查搜不到账号了？昵称修改后的数据同步与搜索解决方法

2026-01-05 10:05

货拉拉司机版怎么接单赚钱 2026新手加入跑单流程【教学】

2026-01-05 10:11

c# 数据库的事务隔离级别和C#并发编程的关系

2026-01-05 10:15

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

314

2023.08.02

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

617

2023.07.31

python中的format是什么意思

python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

427

2024.06.27

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1855

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2081

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

932

2024.11.28

length函数用法

length函数用于返回指定字符串的字符数或字节数。可以用于计算字符串的长度，以便在查询和处理字符串数据时进行操作和判断。需要注意的是length函数计算的是字符串的字符数，而不是字节数。对于多字节字符集，一个字符可能由多个字节组成。因此，length函数在计算字符串长度时会将多字节字符作为一个字符来计算。更多关于length函数的用法，大家可以阅读本专题下面的文章。

908

2023.09.19

点击input框没有光标怎么办

点击input框没有光标的解决办法：1、确认输入框焦点；2、清除浏览器缓存；3、更新浏览器；4、使用JavaScript；5、检查硬件设备；6、检查输入框属性；7、调试JavaScript代码；8、检查页面其他元素；9、考虑浏览器兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

180

2023.11.24

从零到实战：Python 编程系统入门专题

本专题面向零编程基础及初学者，系统讲解 Python 编程语言的核心知识与实战技巧。内容涵盖 Python 基础语法、数据结构、函数与模块、常用标准库、简单算法思维，以及真实应用场景下的小项目实战。通过循序渐进的学习路径，帮助读者快速建立编程思维，掌握 Python 在数据处理、自动化脚本及日常开发中的实际应用能力，为后续深入学习 Web 开发、数据分析或人工智能打下坚实基础。

2026.01.05

热门下载

网站特效

网站源码

网站素材

前端模板