如何用Python从XML中提取所有链接

星降
发布: 2025-12-23 09:12:08
原创
259人浏览过
推荐使用xml.etree.ElementTree提取href/src/url属性链接,或lxml配合XPath精准匹配多类链接位置;需清洗空格、补全相对路径、过滤非HTTP协议并处理命名空间。

如何用python从xml中提取所有链接

用Python从XML中提取所有链接,核心是解析XML文档并定位含URL的元素(如<a href="https://www.php.cn/link/263b1243ca2dbeb358777ceabc4a2e4c"></a><link href="https://www.php.cn/link/263b1243ca2dbeb358777ceabc4a2e4c"><url>https://https://www.php.cn/link/263b1243ca2dbeb358777ceabc4a2e4c</url>等),再提取其属性值或文本内容。推荐使用内置的xml.etree.ElementTree(轻量、标准库、够用)或第三方库lxml(支持XPath、更灵活、解析HTML混合内容更强)。

用ElementTree提取href属性链接

适用于结构清晰、链接主要在hrefsrc等属性中的XML(如RSS、自定义配置XML):

  • 加载XML:用ET.parse()读文件,或ET.fromstring()读字符串
  • 查找所有带href属性的元素:用root.iter()遍历所有元素,检查elem.get("href")
  • 同样可扩展检查srcurlxlink:href等常见链接属性

示例代码:

Sora
Sora

Sora是OpenAI发布的一种文生视频AI大模型,可以根据文本指令创建现实和富有想象力的场景。

Sora 538
查看详情 Sora
import xml.etree.ElementTree as ET
<p>tree = ET.parse("example.xml")
root = tree.getroot()</p><p>links = []
for elem in root.iter():
href = elem.get("href") or elem.get("src") or elem.get("url")
if href and href.startswith(("http://", "https://")):
links.append(href)</p><p>print(links)
登录后复制

立即学习Python免费学习笔记(深入)”;

用XPath配合lxml精准提取(推荐进阶场景)

当XML较复杂、需匹配命名空间、或要提取<loc>https://https://www.php.cn/link/263b1243ca2dbeb358777ceabc4a2e4c</loc>这类文本型链接时,lxml + XPath更可靠:

  • 安装:pip install lxml
  • //a/@href | //link/@href | //url/text() | //loc/text()一次性匹配多类链接位置
  • 自动处理命名空间(如Atom/RSS常用xmlns:xhtml="http://www.w3.org/1999/xhtml"

示例代码:

from lxml import etree
<p>tree = etree.parse("feed.xml")</p><h1>提取所有href属性 + loc/url元素的文本</h1><p>expr = '//@href | //@src | //loc/text() | //url/text() | //xhtml:a/@href'
links = [link for link in tree.xpath(expr) if isinstance(link, str) and link.strip().startswith(("http://", "https://"))]</p><p>print(links)
登录后复制

立即学习Python免费学习笔记(深入)”;

注意链接格式与清洗

提取出的链接常含空格、换行、相对路径或无效前缀,建议统一后处理:

  • .strip()去首尾空白
  • urllib.parse.urljoin(base_url, rel_path)补全相对链接(需提供XML文档所在基础URL)
  • 过滤掉mailto:tel:javascript:等非HTTP链接(按需)
  • 去重可用list(set(links)),但注意保持顺序时改用dict.fromkeys(links)

处理带命名空间的XML(如RSS 2.0、Atom)

很多标准XML定义了默认或前缀命名空间,直接用find("link")会失败。正确做法是声明命名空间字典:

ns = {
    "rss": "http://purl.org/rss/1.0/",
    "atom": "http://www.w3.org/2005/Atom",
    "dc": "http://purl.org/dc/elements/1.1/"
}
<h1>查找Atom中的 <atom:link rel="alternate" href="https://www.php.cn/link/263b1243ca2dbeb358777ceabc4a2e4c"/></h1><p>for link in root.xpath("//atom:link[@rel='alternate']/@href", namespaces=ns):
print(link)
登录后复制

不复杂但容易忽略。

以上就是如何用Python从XML中提取所有链接的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号