通过API/JSON源高效获取网页数据与下载链接

花韻仙語

发布时间：2025-11-09 10:43:22

534人浏览过

来源于php中文网

原创

通过API/JSON源高效获取网页数据与下载链接

本教程旨在指导如何在不进行ui交互（如右键点击）的情况下，通过直接访问和解析web应用程序的底层json api，程序化地获取特定文件（如csv）的下载链接。该方法比传统的浏览器自动化（如rselenium）更为高效和稳定，适用于需要批量获取数据或避免直接触发文件下载的场景，并演示了如何使用r语言中的`httr2`和`tidyverse`包实现这一过程。

在进行网页数据抓取时，我们经常遇到需要获取文件下载链接但又不希望直接点击下载的情况。例如，某个链接点击后会立即触发文件下载，而不是跳转到可复制链接的页面。在这种场景下，传统的浏览器自动化工具（如RSelenium模拟右键操作）虽然可行，但往往效率较低且稳定性受限于页面渲染。更高效、更健壮的方法是直接与Web应用程序的后端API进行交互，通常这些API以JSON格式提供数据。

理解Web应用程序的数据来源

许多现代Web应用程序采用前后端分离的架构。这意味着网页上显示的数据通常不是直接嵌入在HTML中，而是通过JavaScript异步请求后端API获取的JSON数据动态渲染出来的。如果能直接访问这些JSON API，我们就可以绕过复杂的UI交互，直接获取所需的数据和链接。

对于本教程中的特定案例，目标是获取一个“CSV Summary”文件的下载链接。通过观察或利用浏览器开发者工具（Network tab），可以发现页面上的数据和链接可能来源于一个特定的JSON端点。

1. 识别并访问JSON数据源

假设我们已经通过分析发现，页面上的“CSV Summary”链接的信息实际上是从一个JSON文件（例如：https://services.healthtech.dtu.dk/services/BepiPred-2.0/tmp/630F1ABF0000500259861910/results.json）中获取的。我们可以使用R语言的httr2包来发起HTTP请求并获取这个JSON数据。

首先，确保你已经安装并加载了tidyverse和httr2包。

# 安装（如果尚未安装）
# install.packages("tidyverse")
# install.packages("httr2")

# 加载所需包
library(tidyverse)
library(httr2)

# 定义JSON数据源URL
json_url <- "https://services.healthtech.dtu.dk/services/BepiPred-2.0/tmp/630F1ABF0000500259861910/results.json"

# 发送请求并获取JSON响应
json_response <- json_url %>%
  request() %>%
  req_perform() %>%
  resp_body_json(simplifyVector = TRUE)

# 打印JSON数据结构以供查看
print(json_response)

resp_body_json(simplifyVector = TRUE) 参数会将JSON响应解析为R中的列表或数据框，并且尝试将嵌套的JSON对象简化为向量，这对于后续的数据提取非常方便。

Smart Picture

Smart Picture 智能高效的图片处理工具

下载

2. 从JSON数据中提取目标链接

检查json_response的结构，你会发现其中包含了各种数据字段。通常，文件下载链接会以一个特定的键值对形式存在。在本例中，CSV文件的相对路径存储在csv_summary字段中。

# 提取CSV文件的相对路径
csv_relative_path <- json_response$csv_summary

# 打印相对路径
print(csv_relative_path)

由于csv_relative_path通常是一个相对路径，我们需要将其与基础URL拼接起来，形成一个完整的下载链接。

# 构建完整的CSV下载链接
full_csv_link <- str_c("https://services.healthtech.dtu.dk", csv_relative_path)

# 打印完整的下载链接
print(full_csv_link)

现在，full_csv_link变量中存储的就是我们希望获取的CSV文件下载地址，而无需通过任何UI交互。

3. 程序化下载文件（可选）

一旦获取了完整的下载链接，你就可以使用R的download.file()函数来程序化地下载文件。这在自动化数据收集流程中非常有用。

# 定义文件保存路径和名称
dest_file_name <- "health_summary.csv"

# 下载文件
download.file(url = full_csv_link,
              destfile = dest_file_name,
              mode = "wb") # "wb" 模式适用于二进制文件，如CSV

message(paste("文件已下载到:", dest_file_name))

注意事项与最佳实践

API稳定性： 直接依赖API接口意味着如果API结构发生变化，你的代码可能需要更新。因此，定期检查API响应结构是一个好习惯。
请求频率与限制： 许多API有请求频率限制。请遵守网站的使用条款，避免发送过多请求导致IP被封禁。
身份验证： 某些API可能需要身份验证（如API Key、OAuth token）。在这种情况下，你需要在req_headers()或req_auth()中添加相应的认证信息。
错误处理： 在实际应用中，应添加错误处理机制，例如检查HTTP响应状态码（resp_status()）以确保请求成功，或者处理JSON解析失败的情况。
替代方案： 如果无法找到公开的JSON API，或者API需要复杂的认证，那么使用rvest进行HTML解析（如果链接在HTML中）或RSelenium进行浏览器自动化仍然是可行的方案。但对于数据提取，API通常是首选。

总结

通过直接与Web应用程序的JSON API交互，我们可以高效、稳定地获取所需的数据和文件下载链接，避免了复杂的UI自动化操作。这种方法不仅提高了数据抓取的效率，也使得代码更加健壮和易于维护。在进行任何数据抓取活动时，请务必遵守网站的服务条款和robots.txt协议。

如何在输入框右侧精准对齐下拉按钮（无需修改HTML结构）

HTML下拉框怎样设溢出_HTML下拉框调overflow控滚动【溢出】

如何在 HTML 表单的 onsubmit 内联事件处理器中正确获取事件对象

JavaScript 导航菜单点击失效的常见 CSS 选择器错误修复指南

如何使用 CSS Flexbox 将带有 active 类的列表项置顶显示

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：使用Outlook VBA在HTML邮件正文中正确拼接字符串变量下一篇：掌握Tailwind CSS多重盒阴影：自定义与应用

作者最新文章

标题：为什么显式指定客户端本地端口会导致 TCP 连接挂起 30 秒？

2026-01-14 12:44

iPhone 18 Pro已打样：灵动岛变小了史上首次

2026-01-14 12:47

动态禁用下拉菜单中与输入框内容匹配的选项（jQuery 实现）

2026-01-14 13:02

Go语言中 io/ioutil.NopCloser 的作用与使用详解

2026-01-14 13:03

Go 中的上下文感知变量：HTML 模板安全渲染的核心机制

2026-01-14 13:07

TCP客户端指定本地端口后出现30秒延迟的原因及解决方案

2026-01-14 13:08

任天堂2025年度回顾上线可追溯至2017年NS首发记录

2026-01-14 13:12

Go语言中 io/ioutil.NopCloser 的作用与实用场景详解

2026-01-14 13:13

如何使用 CSS Grid 实现 Flex 包裹后子项自适应高度分配

2026-01-14 13:21

影视大全怎么查看法律条款？-影视大全查看法律条款的方法

2026-01-14 13:23

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

js获取数组长度的方法

在js中，可以利用array对象的length属性来获取数组长度，该属性可设置或返回数组中元素的数目，只需要使用“array.length”语句即可返回表示数组对象的元素个数的数值，也就是长度值。php中文网还提供JavaScript数组的相关下载、相关课程等内容，供大家免费下载使用。

554

2023.06.20

js刷新当前页面

js刷新当前页面的方法：1、reload方法，该方法强迫浏览器刷新当前页面，语法为“location.reload([bForceGet]) ”；2、replace方法，该方法通过指定URL替换当前缓存在历史里（客户端）的项目，因此当使用replace方法之后，不能通过“前进”和“后退”来访问已经被替换的URL，语法为“location.replace(URL) ”。php中文网为大家带来了js刷新当前页面的相关知识、以及相关文章等内容

374

2023.07.04

js四舍五入

js四舍五入的方法：1、tofixed方法，可把 Number 四舍五入为指定小数位数的数字；2、round() 方法，可把一个数字舍入为最接近的整数。php中文网为大家带来了js四舍五入的相关知识、以及相关文章等内容

731

2023.07.04

js删除节点的方法

js删除节点的方法有：1、removeChild()方法，用于从父节点中移除指定的子节点，它需要两个参数，第一个参数是要删除的子节点，第二个参数是父节点；2、parentNode.removeChild()方法，可以直接通过父节点调用来删除子节点；3、remove()方法，可以直接删除节点，而无需指定父节点；4、innerHTML属性，用于删除节点的内容。

477

2023.09.01

JavaScript转义字符

JavaScript中的转义字符是反斜杠和引号，可以在字符串中表示特殊字符或改变字符的含义。本专题为大家提供转义字符相关的文章、下载、课程内容，供大家免费下载体验。

394

2023.09.04

js生成随机数的方法

js生成随机数的方法有：1、使用random函数生成0-1之间的随机数；2、使用random函数和特定范围来生成随机整数；3、使用random函数和round函数生成0-99之间的随机整数；4、使用random函数和其他函数生成更复杂的随机数；5、使用random函数和其他函数生成范围内的随机小数；6、使用random函数和其他函数生成范围内的随机整数或小数。

991

2023.09.04

如何启用JavaScript

JavaScript启用方法有内联脚本、内部脚本、外部脚本和异步加载。详细介绍：1、内联脚本是将JavaScript代码直接嵌入到HTML标签中；2、内部脚本是将JavaScript代码放置在HTML文件的`<script>`标签中；3、外部脚本是将JavaScript代码放置在一个独立的文件；4、外部脚本是将JavaScript代码放置在一个独立的文件。

656

2023.09.12

Js中Symbol类详解

javascript中的Symbol数据类型是一种基本数据类型，用于表示独一无二的值。Symbol的特点：1、独一无二，每个Symbol值都是唯一的，不会与其他任何值相等；2、不可变性，Symbol值一旦创建，就不能修改或者重新赋值；3、隐藏性，Symbol值不会被隐式转换为其他类型；4、无法枚举，Symbol值作为对象的属性名时，默认是不可枚举的。

551

2023.09.20