0

0

通过API/JSON源高效获取网页数据与下载链接

花韻仙語

花韻仙語

发布时间:2025-11-09 10:43:22

|

534人浏览过

|

来源于php中文网

原创

通过API/JSON源高效获取网页数据与下载链接

本教程旨在指导如何在不进行ui交互(如右键点击)的情况下,通过直接访问和解析web应用程序的底层json api,程序化地获取特定文件(如csv)的下载链接。该方法比传统的浏览器自动化(如rselenium)更为高效和稳定,适用于需要批量获取数据或避免直接触发文件下载的场景,并演示了如何使用r语言中的`httr2`和`tidyverse`包实现这一过程。

在进行网页数据抓取时,我们经常遇到需要获取文件下载链接但又不希望直接点击下载的情况。例如,某个链接点击后会立即触发文件下载,而不是跳转到可复制链接的页面。在这种场景下,传统的浏览器自动化工具(如RSelenium模拟右键操作)虽然可行,但往往效率较低且稳定性受限于页面渲染。更高效、更健壮的方法是直接与Web应用程序的后端API进行交互,通常这些API以JSON格式提供数据。

理解Web应用程序的数据来源

许多现代Web应用程序采用前后端分离的架构。这意味着网页上显示的数据通常不是直接嵌入在HTML中,而是通过JavaScript异步请求后端API获取的JSON数据动态渲染出来的。如果能直接访问这些JSON API,我们就可以绕过复杂的UI交互,直接获取所需的数据和链接。

对于本教程中的特定案例,目标是获取一个“CSV Summary”文件的下载链接。通过观察或利用浏览器开发者工具(Network tab),可以发现页面上的数据和链接可能来源于一个特定的JSON端点。

1. 识别并访问JSON数据源

假设我们已经通过分析发现,页面上的“CSV Summary”链接的信息实际上是从一个JSON文件(例如:https://services.healthtech.dtu.dk/services/BepiPred-2.0/tmp/630F1ABF0000500259861910/results.json)中获取的。我们可以使用R语言的httr2包来发起HTTP请求并获取这个JSON数据。

首先,确保你已经安装并加载了tidyverse和httr2包。

# 安装(如果尚未安装)
# install.packages("tidyverse")
# install.packages("httr2")

# 加载所需包
library(tidyverse)
library(httr2)

# 定义JSON数据源URL
json_url <- "https://services.healthtech.dtu.dk/services/BepiPred-2.0/tmp/630F1ABF0000500259861910/results.json"

# 发送请求并获取JSON响应
json_response <- json_url %>%
  request() %>%
  req_perform() %>%
  resp_body_json(simplifyVector = TRUE)

# 打印JSON数据结构以供查看
print(json_response)

resp_body_json(simplifyVector = TRUE) 参数会将JSON响应解析为R中的列表或数据框,并且尝试将嵌套的JSON对象简化为向量,这对于后续的数据提取非常方便。

Smart Picture
Smart Picture

Smart Picture 智能高效的图片处理工具

下载

2. 从JSON数据中提取目标链接

检查json_response的结构,你会发现其中包含了各种数据字段。通常,文件下载链接会以一个特定的键值对形式存在。在本例中,CSV文件的相对路径存储在csv_summary字段中。

# 提取CSV文件的相对路径
csv_relative_path <- json_response$csv_summary

# 打印相对路径
print(csv_relative_path)

由于csv_relative_path通常是一个相对路径,我们需要将其与基础URL拼接起来,形成一个完整的下载链接。

# 构建完整的CSV下载链接
full_csv_link <- str_c("https://services.healthtech.dtu.dk", csv_relative_path)

# 打印完整的下载链接
print(full_csv_link)

现在,full_csv_link变量中存储的就是我们希望获取的CSV文件下载地址,而无需通过任何UI交互。

3. 程序化下载文件(可选)

一旦获取了完整的下载链接,你就可以使用R的download.file()函数来程序化地下载文件。这在自动化数据收集流程中非常有用。

# 定义文件保存路径和名称
dest_file_name <- "health_summary.csv"

# 下载文件
download.file(url = full_csv_link,
              destfile = dest_file_name,
              mode = "wb") # "wb" 模式适用于二进制文件,如CSV

message(paste("文件已下载到:", dest_file_name))

注意事项与最佳实践

  1. API稳定性: 直接依赖API接口意味着如果API结构发生变化,你的代码可能需要更新。因此,定期检查API响应结构是一个好习惯。
  2. 请求频率与限制: 许多API有请求频率限制。请遵守网站的使用条款,避免发送过多请求导致IP被封禁。
  3. 身份验证: 某些API可能需要身份验证(如API Key、OAuth token)。在这种情况下,你需要在req_headers()或req_auth()中添加相应的认证信息。
  4. 错误处理: 在实际应用中,应添加错误处理机制,例如检查HTTP响应状态码(resp_status())以确保请求成功,或者处理JSON解析失败的情况。
  5. 替代方案: 如果无法找到公开的JSON API,或者API需要复杂的认证,那么使用rvest进行HTML解析(如果链接在HTML中)或RSelenium进行浏览器自动化仍然是可行的方案。但对于数据提取,API通常是首选。

总结

通过直接与Web应用程序的JSON API交互,我们可以高效、稳定地获取所需的数据和文件下载链接,避免了复杂的UI自动化操作。这种方法不仅提高了数据抓取的效率,也使得代码更加健壮和易于维护。在进行任何数据抓取活动时,请务必遵守网站的服务条款和robots.txt协议。

相关专题

更多
js获取数组长度的方法
js获取数组长度的方法

在js中,可以利用array对象的length属性来获取数组长度,该属性可设置或返回数组中元素的数目,只需要使用“array.length”语句即可返回表示数组对象的元素个数的数值,也就是长度值。php中文网还提供JavaScript数组的相关下载、相关课程等内容,供大家免费下载使用。

554

2023.06.20

js刷新当前页面
js刷新当前页面

js刷新当前页面的方法:1、reload方法,该方法强迫浏览器刷新当前页面,语法为“location.reload([bForceGet]) ”;2、replace方法,该方法通过指定URL替换当前缓存在历史里(客户端)的项目,因此当使用replace方法之后,不能通过“前进”和“后退”来访问已经被替换的URL,语法为“location.replace(URL) ”。php中文网为大家带来了js刷新当前页面的相关知识、以及相关文章等内容

374

2023.07.04

js四舍五入
js四舍五入

js四舍五入的方法:1、tofixed方法,可把 Number 四舍五入为指定小数位数的数字;2、round() 方法,可把一个数字舍入为最接近的整数。php中文网为大家带来了js四舍五入的相关知识、以及相关文章等内容

731

2023.07.04

js删除节点的方法
js删除节点的方法

js删除节点的方法有:1、removeChild()方法,用于从父节点中移除指定的子节点,它需要两个参数,第一个参数是要删除的子节点,第二个参数是父节点;2、parentNode.removeChild()方法,可以直接通过父节点调用来删除子节点;3、remove()方法,可以直接删除节点,而无需指定父节点;4、innerHTML属性,用于删除节点的内容。

477

2023.09.01

JavaScript转义字符
JavaScript转义字符

JavaScript中的转义字符是反斜杠和引号,可以在字符串中表示特殊字符或改变字符的含义。本专题为大家提供转义字符相关的文章、下载、课程内容,供大家免费下载体验。

394

2023.09.04

js生成随机数的方法
js生成随机数的方法

js生成随机数的方法有:1、使用random函数生成0-1之间的随机数;2、使用random函数和特定范围来生成随机整数;3、使用random函数和round函数生成0-99之间的随机整数;4、使用random函数和其他函数生成更复杂的随机数;5、使用random函数和其他函数生成范围内的随机小数;6、使用random函数和其他函数生成范围内的随机整数或小数。

991

2023.09.04

如何启用JavaScript
如何启用JavaScript

JavaScript启用方法有内联脚本、内部脚本、外部脚本和异步加载。详细介绍:1、内联脚本是将JavaScript代码直接嵌入到HTML标签中;2、内部脚本是将JavaScript代码放置在HTML文件的`<script>`标签中;3、外部脚本是将JavaScript代码放置在一个独立的文件;4、外部脚本是将JavaScript代码放置在一个独立的文件。

656

2023.09.12

Js中Symbol类详解
Js中Symbol类详解

javascript中的Symbol数据类型是一种基本数据类型,用于表示独一无二的值。Symbol的特点:1、独一无二,每个Symbol值都是唯一的,不会与其他任何值相等;2、不可变性,Symbol值一旦创建,就不能修改或者重新赋值;3、隐藏性,Symbol值不会被隐式转换为其他类型;4、无法枚举,Symbol值作为对象的属性名时,默认是不可枚举的。

551

2023.09.20

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

0

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 3.7万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.2万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 2.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号