从动态网页抓取数据：TfL自行车数据抓取教程

花韻仙語

发布时间：2025-08-15 17:44:01

361人浏览过

来源于php中文网

原创

从动态网页抓取数据：tfl自行车数据抓取教程

本文介绍了如何从使用 JavaScript 动态加载数据的网页中抓取数据，以伦敦交通局 (TfL) 自行车数据为例。我们将演示如何通过分析浏览器的开发者工具来查找 API 请求，并使用 Python 和 BeautifulSoup 库解析 XML 响应，提取所需的数据文件 URL。本教程适用于初学者，并提供清晰的代码示例和步骤说明。

动态网页数据抓取：寻找隐藏的API

许多现代网站使用 JavaScript 动态加载数据。这意味着当你访问网页时，最初看到的可能只是一个框架，而实际的数据是在后台通过 API 请求加载的。直接使用 requests 和 BeautifulSoup 抓取网页内容通常只能获取到初始的 HTML 代码，而无法获取到动态加载的数据。

在这种情况下，我们需要分析网页的网络请求，找到加载数据的 API 接口。常用的方法是使用浏览器的开发者工具。

步骤如下：

打开目标网页（例如：https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577d）。
打开浏览器的开发者工具（通常按 F12 键）。
切换到 "Network"（网络）选项卡。
刷新网页，观察网络请求。
筛选 "XHR" 或 "Fetch/XHR" 请求，查找包含数据的文件。

通过分析 TfL 自行车数据的网页，我们可以发现一个名为 https://s3-eu-west-1.amazonaws.com/cycling.data.tfl.gov.uk/?list-type=2&max-keys=1500 的 API 请求，它返回一个 XML 文件，其中包含了所有数据文件的 URL。

使用 BeautifulSoup 解析 XML 数据

找到 API 接口后，我们可以使用 requests 获取 XML 数据，然后使用 BeautifulSoup 解析 XML，提取所需的数据文件 URL。

Open Voice OS

OpenVoiceOS是一个社区驱动的开源语音AI平台

下载

以下是一个示例代码：

import requests
from bs4 import BeautifulSoup

soup=BeautifulSoup(requests.get('https://s3-eu-west-1.amazonaws.com/cycling.data.tfl.gov.uk/?list-type=2&max-keys=1500').text, 'xml')
for c in soup.select('contents key'):
    if c.text.startswith('usage-stats') and c.text.endswith('.csv'):
        print('https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577d'+c.text)

代码解释：

import requests: 导入 requests 库，用于发送 HTTP 请求。
from bs4 import BeautifulSoup: 导入 BeautifulSoup 库，用于解析 HTML 和 XML。
requests.get('https://s3-eu-west-1.amazonaws.com/cycling.data.tfl.gov.uk/?list-type=2&max-keys=1500').text: 发送 GET 请求到 API 接口，获取 XML 数据。
BeautifulSoup(..., 'xml'): 使用 BeautifulSoup 解析 XML 数据。注意这里需要指定解析器为 'xml'。
soup.select('contents key'): 使用 CSS 选择器 contents key 找到所有包含文件名的 XML 标签。
if c.text.startswith('usage-stats') and c.text.endswith('.csv'): 过滤文件名，只保留以 'usage-stats' 开头且以 '.csv' 结尾的文件。
print('https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577d'+c.text): 打印完整的 URL。

运行结果：

https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577dusage-stats/01aJourneyDataExtract10Jan16-23Jan16.csv
https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577dusage-stats/01b Journey Data Extract 24Jan16-06Feb16.csv
https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577dusage-stats/01bJourneyDataExtract24Jan16-06Feb16.csv
https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577dusage-stats/02aJourneyDataExtract07Fe16-20Feb2016.csv
https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577dusage-stats/02bJourneyDataExtract21Feb16-05Mar2016.csv
https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577dusage-stats/03JourneyDataExtract06Mar2016-31Mar2016.csv
...

总结

本教程介绍了如何从动态网页中抓取数据，关键在于找到加载数据的 API 接口，并使用合适的工具解析返回的数据。对于 XML 数据，可以使用 BeautifulSoup 配合 'xml' 解析器进行解析。掌握这些技巧可以帮助你从各种复杂的网页中提取所需的数据。

注意事项：

在抓取数据时，请遵守网站的 robots.txt 协议，并尊重网站的服务条款。
频繁的抓取可能会给网站带来负担，请合理控制抓取频率。
如果网站的反爬虫机制比较严格，可能需要使用代理 IP、设置请求头等方法来规避反爬虫策略。

Python表单自动填写_web驱动模拟操作技巧【指导】

Python自动化脚本项目中爬取网页数据的操作步骤【教程】

Python爬虫如何解析网页_BeautifulSoup实战讲解【指导】

从绝对定位Div布局到CSS Grid：构建表格化视图的现代方法

从CSS定位Div布局到HTML表格或Grid布局的转换策略

相关标签:

css python 浏览器工具 Python JavaScript css html beautifulsoup print if select xml 接口选择器 http https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：使用Python爬取动态加载的CSV数据：TfL自行车数据案例下一篇：Web Scraping动态加载数据：TFL自行车数据抓取教程

作者最新文章

标题：为什么显式指定客户端本地端口会导致 TCP 连接挂起 30 秒？

2026-01-14 12:44

iPhone 18 Pro已打样：灵动岛变小了史上首次

2026-01-14 12:47

动态禁用下拉菜单中与输入框内容匹配的选项（jQuery 实现）

2026-01-14 13:02

Go语言中 io/ioutil.NopCloser 的作用与使用详解

2026-01-14 13:03

Go 中的上下文感知变量：HTML 模板安全渲染的核心机制

2026-01-14 13:07

TCP客户端指定本地端口后出现30秒延迟的原因及解决方案

2026-01-14 13:08

任天堂2025年度回顾上线可追溯至2017年NS首发记录

2026-01-14 13:12

Go语言中 io/ioutil.NopCloser 的作用与实用场景详解

2026-01-14 13:13

如何使用 CSS Grid 实现 Flex 包裹后子项自适应高度分配

2026-01-14 13:21

影视大全怎么查看法律条款？-影视大全查看法律条款的方法

2026-01-14 13:23

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

754

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

636

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

758

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

618

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1262

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

707

2023.08.11

Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践，涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC（Unary/Server/Client/Bidirectional）、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例，帮助学习者掌握使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系，适用于微服务与内部系统通信场景。

2026.01.15

热门下载

网站特效

网站源码

网站素材

前端模板