0

0

如何使用rvest和xml2从网页中提取所有嵌套URL?

DDD

DDD

发布时间:2025-08-27 20:23:19

|

520人浏览过

|

来源于php中文网

原创

如何使用rvest和xml2从网页中提取所有嵌套url?

本教程旨在指导读者如何使用R语言中的rvest和xml2包从网页中提取嵌套的URL。由于某些网页的内容是通过JavaScript动态加载的,直接使用read_html可能无法获取所有URL。本文将介绍如何通过分析网页的API请求,获取包含URL的JSON数据,并使用R进行解析和提取。通过学习本文,读者可以掌握处理动态加载网页URL提取的有效方法。

当尝试使用rvest和xml2从网页中提取嵌套URL时,可能会遇到一些问题,尤其是在网页内容通过JavaScript动态加载的情况下。直接使用read_html函数可能无法获取所有期望的URL,因为这些URL可能不是直接嵌入在初始HTML文档中,而是通过JavaScript代码在浏览器中运行时动态添加的。

理解动态加载的内容

现代网页通常使用JavaScript来增强用户体验,这意味着某些内容,包括URL,可能不是在服务器最初发送的HTML文档中,而是在浏览器执行JavaScript代码后才添加到页面中的。

解决方案:分析API请求并解析JSON数据

要提取这些动态加载的URL,一种有效的方法是分析网页的网络请求,找到包含这些URL的API端点,并直接从这些API端点获取数据。以下是详细步骤:

  1. 检查网页的网络请求: 使用浏览器的开发者工具(通常按F12键打开),切换到“Network”选项卡。刷新网页,观察所有发出的请求。查找那些返回JSON数据的请求,这些数据可能包含你需要的URL。
  2. 找到API端点: 找到包含产品信息的JSON数据的API端点。通常,这些API端点的URL会包含类似“api”或“json”的字样。
  3. 使用httr包获取JSON数据: 使用R中的httr包向API端点发送GET请求,并获取返回的JSON数据。
  4. 解析JSON数据并提取URL: 使用content()函数将响应内容解析为R列表,然后使用lapply()和bind_rows()等函数提取所需的URL,并将它们整理成一个数据框。

示例代码

ArrowMancer
ArrowMancer

手机上的宇宙动作RPG,游戏角色和元素均为AI生成

下载

以下代码演示了如何从Thrive Market网站提取产品URL:

library(httr)
library(dplyr)

# 构造API URL
url <- paste0("https://thrivemarket.com/api/v1/products",
              "?page_size=60&multifilter=1&cur_page=1")

# 发送GET请求并解析JSON数据
products <- content(GET(url))$products

# 提取产品名称和URL
product_data <- lapply(products, function(x) data.frame(product = x$title, url = x$url))

# 将数据整理成数据框
product_df <- bind_rows(product_data) %>%
  as_tibble()

# 打印结果
print(product_df)

代码解释:

  • library(httr) 和 library(dplyr): 导入所需的R包。httr 用于发送HTTP请求,dplyr 用于数据操作。
  • url
  • content(GET(url))$products: 使用httr包的GET()函数发送请求,然后使用content()函数将响应内容解析为R列表。$products 访问包含产品信息的列表。
  • lapply(products, function(x) ...): 对每个产品信息应用一个匿名函数,提取产品名称和URL,并将它们整理成一个数据框。
  • bind_rows(product_data) %>% as_tibble(): 将所有产品的数据框合并成一个大的数据框,并转换为tibble格式。
  • print(product_df): 打印结果数据框,其中包含产品名称和对应的URL。

注意事项:

  • API端点可能会改变: 网站可能会更改API端点或数据结构,因此需要定期检查代码是否仍然有效。
  • 分页处理: 如果需要提取所有页面的URL,需要处理分页逻辑,循环请求不同的页面。
  • 爬虫机制: 网站可能会采取反爬虫措施,例如限制请求频率或验证用户身份。需要遵守网站的使用条款,并采取适当的措施来避免被封禁。例如,可以设置请求之间的延迟,或者使用代理IP。
  • 数据清洗: 从API获取的数据可能需要进行清洗和转换,以满足分析需求。

总结

通过分析网页的网络请求并直接从API端点获取JSON数据,可以有效地提取动态加载的URL。这种方法比直接解析HTML文档更加可靠,并且可以处理更复杂的网页结构。请记住,在进行网络爬取时,务必遵守网站的使用条款,并采取适当的措施来避免对网站造成不必要的负担。

相关专题

更多
js获取数组长度的方法
js获取数组长度的方法

在js中,可以利用array对象的length属性来获取数组长度,该属性可设置或返回数组中元素的数目,只需要使用“array.length”语句即可返回表示数组对象的元素个数的数值,也就是长度值。php中文网还提供JavaScript数组的相关下载、相关课程等内容,供大家免费下载使用。

557

2023.06.20

js刷新当前页面
js刷新当前页面

js刷新当前页面的方法:1、reload方法,该方法强迫浏览器刷新当前页面,语法为“location.reload([bForceGet]) ”;2、replace方法,该方法通过指定URL替换当前缓存在历史里(客户端)的项目,因此当使用replace方法之后,不能通过“前进”和“后退”来访问已经被替换的URL,语法为“location.replace(URL) ”。php中文网为大家带来了js刷新当前页面的相关知识、以及相关文章等内容

374

2023.07.04

js四舍五入
js四舍五入

js四舍五入的方法:1、tofixed方法,可把 Number 四舍五入为指定小数位数的数字;2、round() 方法,可把一个数字舍入为最接近的整数。php中文网为大家带来了js四舍五入的相关知识、以及相关文章等内容

754

2023.07.04

js删除节点的方法
js删除节点的方法

js删除节点的方法有:1、removeChild()方法,用于从父节点中移除指定的子节点,它需要两个参数,第一个参数是要删除的子节点,第二个参数是父节点;2、parentNode.removeChild()方法,可以直接通过父节点调用来删除子节点;3、remove()方法,可以直接删除节点,而无需指定父节点;4、innerHTML属性,用于删除节点的内容。

478

2023.09.01

JavaScript转义字符
JavaScript转义字符

JavaScript中的转义字符是反斜杠和引号,可以在字符串中表示特殊字符或改变字符的含义。本专题为大家提供转义字符相关的文章、下载、课程内容,供大家免费下载体验。

454

2023.09.04

js生成随机数的方法
js生成随机数的方法

js生成随机数的方法有:1、使用random函数生成0-1之间的随机数;2、使用random函数和特定范围来生成随机整数;3、使用random函数和round函数生成0-99之间的随机整数;4、使用random函数和其他函数生成更复杂的随机数;5、使用random函数和其他函数生成范围内的随机小数;6、使用random函数和其他函数生成范围内的随机整数或小数。

1031

2023.09.04

如何启用JavaScript
如何启用JavaScript

JavaScript启用方法有内联脚本、内部脚本、外部脚本和异步加载。详细介绍:1、内联脚本是将JavaScript代码直接嵌入到HTML标签中;2、内部脚本是将JavaScript代码放置在HTML文件的`<script>`标签中;3、外部脚本是将JavaScript代码放置在一个独立的文件;4、外部脚本是将JavaScript代码放置在一个独立的文件。

658

2023.09.12

Js中Symbol类详解
Js中Symbol类详解

javascript中的Symbol数据类型是一种基本数据类型,用于表示独一无二的值。Symbol的特点:1、独一无二,每个Symbol值都是唯一的,不会与其他任何值相等;2、不可变性,Symbol值一旦创建,就不能修改或者重新赋值;3、隐藏性,Symbol值不会被隐式转换为其他类型;4、无法枚举,Symbol值作为对象的属性名时,默认是不可枚举的。

553

2023.09.20

AO3中文版入口地址大全
AO3中文版入口地址大全

本专题整合了AO3中文版入口地址大全,阅读专题下面的的文章了解更多详细内容。

1

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 3.9万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.3万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 2.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号