Python Pandas怎么读取XML文件 pandas.read_xml-XML/RSS教程-PHP中文网

Python Pandas怎么读取XML文件 pandas.read_xml

月夜之吻

发布： 2025-12-21 09:03:07

原创

923人浏览过

pandas官方不提供read_xml()函数，需用xml.etree.ElementTree、第三方pandas-read-xml或lxml解析XML后转DataFrame；不推荐用BeautifulSoup处理纯XML。

python pandas怎么读取xml文件 pandas.read_xml

注意：pandas 本身不提供 pandas.read_xml() 函数。

截至 pandas 2.2.x（2024 年最新稳定版），pandas 官方并未内置 XML 解析功能，pandas.read_xml() 并不存在。你在网上看到的 read_xml 要么是误传，要么是混淆了其他库（比如第三方包 pandas-read-xml），或是误将 read_html() 或 read_json() 的用法套用到了 XML 上。

✅ 正确做法是：用标准 XML 解析器（如 xml.etree.ElementTree 或 lxml）解析 XML，再手动或借助辅助工具转为 DataFrame。

1. 使用标准库 xml.etree.ElementTree（推荐入门）

适合结构清晰、层级较扁平的 XML（如配置文件、简单数据列表）。

示例 XML（data.xml）：

立即学习“Python免费学习笔记（深入）”；

<root>
  <item><name>Apple</name><price>1.2</price></item>
  <item><name>Banana</name><price>0.8</price></item>
</root>

登录后复制

读取并转为 DataFrame：

```python import pandas as pd import xml.etree.ElementTree as ET

tree = ET.parse("data.xml") root = tree.getroot()

data = [] for item in root.findall("item"): row = { "name": item.find("name").text, "price": float(item.find("price").text) } data.append(row)

df = pd.DataFrame(data) print(df)

<p>输出：</p>
<pre class="brush:php;toolbar:false;">    name  price
0  Apple    1.2
1 Banana    0.8

登录后复制

---

2. 使用第三方库 pandas-read-xml（最接近“read_xml”体验）

这个社区维护的包提供了类似 `pd.read_xml()` 的接口，支持 XPath、属性提取、嵌套展开等。

安装：

萝卜简历

免费在线AI简历制作工具，帮助求职者轻松完成简历制作。

171

查看详情

```bash pip install pandas-read-xml

基本用法：

```python import pandas_read_xml as pdx

df = pdx.read_xml("data.xml", ["item"]) # 指定重复节点路径 print(df)

<p>支持更复杂场景，例如：</p>
<ul>
  <li>从属性读取：<code>pdx.read_xml("file.xml", ["item"], attr_prefix="@")</code></li>
  <li>处理多层嵌套：<code>pdx.read_xml("file.xml", ["root", "category", "product"])</code></li>
  <li>自动类型推断（含日期、数字）</li>
</ul>

⚠️ 注意：它不是 pandas 官方组件，需额外安装和维护；生产环境建议评估其更新活跃度与兼容性（当前 GitHub 主页为 <code>https://github.com/trevorstephens/pandas-read-xml</code>）。

---

<H3>3. 使用 lxml + xpath（高性能、灵活，适合复杂/大型 XML）</H3>
`lxml` 比标准库更快，XPath 表达式强大，适合 Web 抓取或企业级 XML（如 SOAP、Office Open XML）。

<p>安装：</p>
```bash
pip install lxml

登录后复制

示例（同上 XML）：

```python from lxml import etree import pandas as pd

tree = etree.parse("data.xml") items = tree.xpath("//item")

data = [ { "name": i.xpath("name/text()")[0], "price": float(i.xpath("price/text()")[0]) } for i in items ]

df = pd.DataFrame(data)


<p>优势：</p>
<ul>
  <li>支持命名空间、条件筛选（如 <code>//item[price > 1.0]</code>）、文本/属性混合提取</li>
  <li>可处理 GB 级 XML（配合迭代解析 <code>iterparse</code>）</li>
</ul>

---

<H3>4. 不推荐的方式：用 BeautifulSoup 解析 XML</H3>
虽然 `bs4` 支持 XML 解析器（需装 `lxml` 或 `xml`），但它设计初衷是 HTML 容错解析，对规范 XML 效率低、语义弱，且无原生 DataFrame 转换逻辑，属于“能跑但不优雅”。

<p>简言之：除非你已在用 bs4 处理混合 HTML/XML，否则不用专为 XML 引入它。</p>

不复杂但容易忽略

登录后复制

以上就是Python Pandas怎么读取XML文件 pandas.read_xml的详细内容，更多请关注php中文网其它相关文章！