0

0

如何用Pentaho Data Integration (Kettle) 读取XML

幻夢星雲

幻夢星雲

发布时间:2026-01-04 11:19:02

|

481人浏览过

|

来源于php中文网

原创

使用“Get data from XML”步骤读取XML文件最可靠,需规范XML格式、设对重复节点路径(如/orders/order),嵌套项(如items/item)需二级解析,注意编码、XPath及命名空间配置。

如何用pentaho data integration (kettle) 读取xml

用 Pentaho Data Integration(Kettle)读取 XML 文件,核心是使用 “Get data from XML” 步骤,它专为解析结构化 XML 设计,比通用的 “Text file input” 更可靠、更灵活。

准备 XML 文件和了解结构

确保 XML 文件格式规范(有根节点、标签闭合、无非法字符),并提前查看其层级结构。例如:



  
    Alice
    299.99
    
      Laptop
      Mouse
    
  

注意:Kettle 默认按“重复节点”提取数据。上例中, 是重复节点,应设为循环路径; 是嵌套重复节点,需额外处理(见下文)。

配置 “Get data from XML” 步骤

在转换中添加该步骤后,关键设置包括:

叮当好记-AI音视频转图文
叮当好记-AI音视频转图文

AI音视频转录与总结,内容学习效率 x10!

下载
  • XML source:选择“File”并指定路径(支持变量如 ${FILE_PATH}
  • Repeat node:填写相对 XPath,如 /orders/order —— 这决定每行输出对应一个
  • Fields 标签页中定义字段:
    • Field name:如 customer
    • Element XPath:相对于 repeat node 的路径,如 customer(直接子元素)或 ../@id(取父节点属性)
    • Type:选 String / Number / Date 等,匹配实际值类型
    • Format/Length/Precision:按需填写,如金额设为 Number + 2 位小数

处理多层嵌套(如 items/item)

“Get data from XML” 本身不支持跨层级展开多个重复组。若需把每个 拆成独立行,推荐组合方案:

  • 先用 “Get data from XML” 提取 级数据(含 内容作为 XML 片段字段)
  • 再接一个 “Get data from XML” 步骤,将上一步输出的 items_xml 字段作为 XML source(选 “XML from field”),repeat node 设为 items/item
  • 用 “Join Rows (Cartesian product)” 或 “Stream lookup” 关联主订单信息(需提前加唯一键,如 order_id)

常见问题与提示

避免踩坑:

  • 中文乱码?在步骤的 “Content” 标签页中,显式设置 EncodingUTF-8(即使文件声明了也建议指定)
  • 字段为空?检查 XPath 是否正确,是否用了 text()(如 customer/text()),或启用 “Ignore empty elements”
  • 性能慢?大文件建议开启 “Use memory mapping”(在 Content 页),并限制预览行数
  • 需要命名空间?在 “Content” 页勾选 “Support namespaces”,并在 XPath 中用前缀(如 ns:customer),同时在 “Namespaces” 表格里定义前缀与 URI 映射

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

314

2023.08.02

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

617

2023.07.31

python中的format是什么意思
python中的format是什么意思

python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

427

2024.06.27

pdf怎么转换成xml格式
pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法:1. 使用在线转换器;2. 使用桌面软件(如 adobe acrobat、itext);3. 使用命令行工具(如 pdftoxml)。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1855

2024.04.01

xml怎么变成word
xml怎么变成word

步骤:1. 导入 xml 文件;2. 选择 xml 结构;3. 映射 xml 元素到 word 元素;4. 生成 word 文档。提示:确保 xml 文件结构良好,并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容,可以阅读本专题下面的文章。

2081

2024.08.01

xml是什么格式的文件
xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容,可阅读本专题下面的相关文章。

932

2024.11.28

length函数用法
length函数用法

length函数用于返回指定字符串的字符数或字节数。可以用于计算字符串的长度,以便在查询和处理字符串数据时进行操作和判断。 需要注意的是length函数计算的是字符串的字符数,而不是字节数。对于多字节字符集,一个字符可能由多个字节组成。因此,length函数在计算字符串长度时会将多字节字符作为一个字符来计算。更多关于length函数的用法,大家可以阅读本专题下面的文章。

908

2023.09.19

点击input框没有光标怎么办
点击input框没有光标怎么办

点击input框没有光标的解决办法:1、确认输入框焦点;2、清除浏览器缓存;3、更新浏览器;4、使用JavaScript;5、检查硬件设备;6、检查输入框属性;7、调试JavaScript代码;8、检查页面其他元素;9、考虑浏览器兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

180

2023.11.24

从零到实战:Python 编程系统入门专题
从零到实战:Python 编程系统入门专题

本专题面向零编程基础及初学者,系统讲解 Python 编程语言的核心知识与实战技巧。内容涵盖 Python 基础语法、数据结构、函数与模块、常用标准库、简单算法思维,以及真实应用场景下的小项目实战。通过循序渐进的学习路径,帮助读者快速建立编程思维,掌握 Python 在数据处理、自动化脚本及日常开发中的实际应用能力,为后续深入学习 Web 开发、数据分析或人工智能打下坚实基础。

2

2026.01.05

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
HTML5/CSS3/JavaScript/ES6入门课程
HTML5/CSS3/JavaScript/ES6入门课程

共102课时 | 6.6万人学习

前端基础到实战(HTML5+CSS3+ES6+NPM)
前端基础到实战(HTML5+CSS3+ES6+NPM)

共162课时 | 18.5万人学习

第二十二期_前端开发
第二十二期_前端开发

共119课时 | 12.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号