0

0

无XHR请求时提取JavaScript动态生成内容的教程

霞舞

霞舞

发布时间:2025-10-26 08:38:14

|

299人浏览过

|

来源于php中文网

原创

无XHR请求时提取JavaScript动态生成内容的教程

本教程探讨了在爬取网页时,当目标内容由javascript动态生成且无明显xhr请求时的数据提取策略。我们将揭示数据可能已内嵌于初始htmljs代码中,并演示如何通过检查页面源代码、识别关键标识符来定位并提取这些隐藏的json格式数据,从而实现高效的网页内容抓取。

挑战:JavaScript动态内容与XHR请求缺失

在进行网页数据抓取时,我们经常会遇到内容由JavaScript动态生成的情况。传统的爬虫通常通过解析服务器返回的原始HTML来提取数据,例如使用XPath或CSS选择器。然而,当页面内容在浏览器端通过JavaScript执行后才呈现,且在网络请求中观察不到明显的XHR(XMLHttpRequest)或Fetch API请求来获取这些数据时,传统的静态解析方法便会失效。这给爬虫开发者带来了挑战,因为这意味着数据并非通过异步请求独立加载,而是以某种方式“隐藏”在初始页面加载中。

例如,对于以下HTML结构,如果其内容 Darkmoon Faire 是由JavaScript动态填充的:

@@##@@Darkmoon Faire

直接使用XPath查询如 //*[contains(@id, "EU-group-holiday-line")] 可能无法获取到完整或最新的内容,因为在爬虫获取原始HTML时,JavaScript尚未执行。

核心洞察:数据内嵌于初始加载

当网站使用JavaScript生成内容但没有发起额外的XHR请求时,一个关键的推断是:所需数据很可能已经包含在最初加载的HTML文档或内联/外部JavaScript文件中。这意味着数据在页面加载时就已经存在于代码中,只是在DOM构建完成并执行JavaScript后才被“激活”或渲染到用户界面上。

立即学习Java免费学习笔记(深入)”;

实践步骤:定位内嵌数据

要提取这类数据,我们需要改变思路,不再仅仅关注渲染后的DOM结构,而是深入检查页面的原始源代码。

轩宇淘宝客系统
轩宇淘宝客系统

轩宇淘宝客是一款适用于淘宝客打折单品推广的程序,无论老手或新手都能短时间内赚取大量佣金的淘宝客网站程序,不同于现在广泛的淘宝客推广网站。本程序可手动添加商品,同时也配置强大的多功能采集插件,可采集评论,也可自定义采集规则,全自动无人值守采集更新网站,无需人工维护。默认提供精美的页面设计模版,超好的用户访问体验,超高转化率。对搜索引擎收录友好,整站伪静态技术,访问速度快,无需等待漫长的生成HTML页

下载
  1. 查看页面源代码: 使用浏览器(如Chrome、Firefox)打开目标网页,然后通过“查看页面源代码”(通常是 Ctrl+U 或右键菜单)来获取未经JavaScript处理的原始HTML内容。

  2. 利用特征字符串搜索: 在原始源代码中,搜索那些在渲染页面上可见的、具有唯一性的关键词或模式。例如,如果渲染后的链接中包含 event=479 或 event=643 这样的标识符,那么在源代码中搜索这些字符串,很可能会定位到包含这些数据的JavaScript变量、JSON字符串或HTML注释。

    示例分析: 以 https://www.wowhead.com/today-in-wow 为例,如果我们要提取类似 event=479/darkmoon-faire 的事件信息,在原始页面源代码中搜索 event=643 (一个类似的事件ID),我们可能会发现以下JSON格式的子字符串:

    {
       "icon": "calendar_weekendmistsofpandariastart",
       "name": "Timewalking Dungeon Event",
       "side": "both",
       "url": "/event=643/timewalking-dungeon-event"
    },

    这个发现证实了我们的推断:所需数据以JSON格式直接嵌入在页面的初始加载内容中。

数据提取方法

一旦定位到内嵌的数据,我们可以采用以下方法进行提取:

  1. 正则表达式与JSON解析: 对于像上面示例中发现的JSON格式数据,我们可以使用正则表达式从原始HTML字符串中匹配并提取出完整的JSON字符串。

    Python 示例:

    import requests
    import re
    import json
    
    url = "https://www.wowhead.com/today-in-wow"
    response = requests.get(url)
    html_content = response.text
    
    # 使用正则表达式匹配包含事件数据的JSON结构
    # 这里的正则表达式需要根据实际情况调整,以精确匹配目标JSON块
    # 假设我们知道数据在一个特定的JavaScript变量赋值或特定模式中
    # 这是一个简化示例,实际可能需要更复杂的匹配逻辑
    match = re.search(r'\[\s*\{[^}]*"url":\s*"/event=643/[^}]*\}\s*(?:,\s*\{[^}]*\})*\s*\]', html_content)
    
    if match:
        json_str = match.group(0)
        try:
            # 有时匹配到的可能不是一个完整的JSON数组,而是一个对象列表的一部分
            # 需要根据实际情况判断是否需要手动补齐或调整匹配
            # 假设我们匹配到的是一个完整的JSON数组或其一部分
            data = json.loads(json_str)
            for item in data:
                if item.get("url") == "/event=643/timewalking-dungeon-event":
                    print("找到目标事件:")
                    print(f"名称: {item.get('name')}")
                    print(f"URL: {item.get('url')}")
                    print(f"图标: {item.get('icon')}")
        except json.JSONDecodeError as e:
            print(f"JSON解析错误: {e}")
            print(f"匹配到的字符串: {json_str[:200]}...") # 打印部分字符串帮助调试
    else:
        print("未找到匹配的JSON数据。")
    

    注意: 上述正则表达式是一个示意,实际应用中需要根据目标网站的HTML结构和JavaScript代码,编写更精确和鲁棒的正则表达式来捕获完整的JSON字符串或包含数据的JavaScript变量赋值。

  2. 无头浏览器(备选方案): 如果数据确实是在JavaScript执行后才完全构建到DOM中,并且无法在原始源代码中找到易于解析的JSON或变量,那么使用无头浏览器(如Selenium或Puppeteer)仍然是一个选择。无头浏览器可以模拟真实浏览器环境,执行JavaScript并等待页面完全渲染,然后通过其提供的API(如 page.evaluate() 或 driver.find_element_by_xpath())来提取数据。然而,对于本教程探讨的场景(数据已内嵌但无XHR),直接解析源代码通常更高效、资源消耗更低。

注意事项与总结

  • 网站特异性: 这种数据内嵌的方法高度依赖于目标网站的实现方式。每次抓取前都需要对目标页面进行详细的源代码分析。
  • 正则表达式的脆弱性: 使用正则表达式匹配HTML或JavaScript代码中的数据可能不够健壮。如果网站的HTML结构或JavaScript代码发生微小变化,正则表达式可能失效。因此,需要定期检查和更新爬虫逻辑。
  • 维护成本: 相比于解析结构化的API响应,从原始HTML/JS中提取数据通常需要更高的维护成本。
  • 遵守规则: 在进行网页抓取时,务必遵守网站的 robots.txt 协议、使用条款,并注意抓取频率,避免对网站造成不必要的负担。

通过理解“无XHR请求时JavaScript生成内容”的本质,即数据很可能已内嵌于初始加载中,我们可以通过检查源代码和运用字符串匹配、JSON解析等技术,有效地提取这些看似难以获取的数据。这种方法提供了一种在传统爬虫和无头浏览器之间,更高效、更轻量级的解决方案。

无XHR请求时提取JavaScript动态生成内容的教程

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

725

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

630

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

746

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

617

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1236

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

575

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

702

2023.08.11

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

150

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.7万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 2.7万人学习

CSS教程
CSS教程

共754课时 | 17.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号