Python爬取NBA选秀体测数据：高效获取动态加载内容的教程-Python教程-PHP中文网

Python爬取NBA选秀体测数据：高效获取动态加载内容的教程

聖光之護

发布： 2025-11-01 10:32:39

原创

930人浏览过

Python爬取NBA选秀体测数据：高效获取动态加载内容的教程

本教程将指导您如何使用python高效爬取nba官方网站上动态加载的选秀体测数据。针对传统网页抓取工具难以处理javascript动态渲染内容的问题，我们将演示如何通过分析网络请求，直接调用其背后的api接口，并利用`requests`库和`pandas`库解析json响应，最终将数据结构化为易于分析的dataframe，从而绕过复杂的页面渲染过程，实现精确且高效的数据获取。

在现代网页开发中，许多网站为了提升用户体验，会采用JavaScript动态加载数据。这意味着，当您使用像BeautifulSoup这样的库直接解析初始HTML时，那些由JavaScript后续加载的表格或内容可能并不会出现在原始的HTML源代码中。例如，NBA官方网站上的选秀体测数据页面，其表格内容就是通过异步请求（AJAX）从后端API获取并动态渲染到页面上的。对于这类场景，直接抓取数据源的API接口是最高效且稳定的方法。

识别动态数据源

当传统方法（如requests结合BeautifulSoup查找

标签）无法获取到目标数据时，通常意味着数据是通过API接口动态加载的。识别这些API接口的关键在于使用浏览器的开发者工具：

打开目标网页： 访问您想要抓取数据的页面，例如NBA选秀体测数据页面。
打开开发者工具： 在浏览器中按F12（或右键点击页面选择“检查”）。
切换到“网络”（Network）选项卡： 此选项卡会显示页面加载过程中所有的网络请求。
过滤XHR/Fetch请求： 通常，动态加载的数据请求会显示为XHR（XMLHttpRequest）或Fetch类型。
刷新页面或观察交互： 刷新页面，或者进行一些交互（如切换赛季年份），观察新的请求。找到与数据加载相关的请求，通常其响应类型为JSON。

通过分析NBA选秀体测数据页面，我们可以发现数据并非直接嵌入在HTML中，而是通过一个特定的API端点获取：https://stats.nba.com/stats/draftcombineplayeranthro。

构建API请求

一旦识别出API端点，下一步就是使用Python的requests库来模拟浏览器行为，向该API发送请求。这通常涉及设置请求参数（params）和请求头（headers）。

立即学习“Python免费学习笔记（深入）”；

1. API端点和参数

API端点是数据请求的目标URL。对于NBA选秀体测数据，它是： https://stats.nba.com/stats/draftcombineplayeranthro

该API接受以下关键参数来过滤数据：

LeagueID: 联盟ID，例如"00"代表NBA。
SeasonYear: 赛季年份，例如"2022-23"。

我们将这些参数组织成一个字典：

SONIFY.io

设计和开发音频优先的产品和数据驱动的解决方案

查看详情

payload = {
    "LeagueID": "00",
    "SeasonYear": "2022-23"
}

登录后复制

2. 设置请求头

为了让API服务器认为我们的请求是来自一个合法的浏览器，而不是一个爬虫，我们需要设置一些HTTP请求头。其中最重要的是Referer和User-Agent：

Referer: 指示请求是从哪个页面发出的，通常是原始网页的URL。
User-Agent: 标识客户端的类型和版本，模拟一个真实的浏览器。

headers = {
    "Referer": "https://www.nba.com/", # 模拟请求来源
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36" # 模拟浏览器用户代理
}

登录后复制

注意： User-Agent字符串可以从您自己浏览器的开发者工具中获取，以确保其最新和有效。

发送请求与处理JSON响应

使用requests.get()方法发送GET请求，并将params和headers传递进去。API通常会返回JSON格式的数据，我们可以使用.json()方法将其解析为Python字典。

import requests
import pandas as pd

url = "https://stats.nba.com/stats/draftcombineplayeranthro"

payload = {
    "LeagueID": "00",
    "SeasonYear": "2022-23"
}

headers = {
    "Referer": "https://www.nba.com/",
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36"
}

# 发送GET请求
response = requests.get(url, params=payload, headers=headers)
response.raise_for_status() # 检查请求是否成功（状态码200）

# 解析JSON响应
data = response.json()

# 提取数据和列名
# NBA API的JSON结构通常包含一个'resultSets'列表，其中每个元素代表一个数据集
# 'rowSet'包含实际的数据行，'headers'包含列名
df = pd.DataFrame(data["resultSets"][0]["rowSet"],
                  columns=data["resultSets"][0]["headers"])

print(df.head())

登录后复制

上述代码将返回一个包含NBA选秀体测数据的pandas.DataFrame，其输出示例如下：

   TEMP_PLAYER_ID  PLAYER_ID FIRST_NAME  ... BODY_FAT_PCT HAND_LENGTH HAND_WIDTH
0         1630534    1630534      Ochai  ...         5.40        8.75       9.50
1         1631116    1631116    Patrick  ...         8.90        8.75       9.50
2         1631094    1631094      Paolo  ...          NaN         NaN        NaN
3         1631109    1631109       Mark  ...         5.40        9.00       9.75
4         1630592    1630592      Jalen  ...          NaN         NaN        NaN

[5 rows x 18 columns]

登录后复制

注意事项

API调用频率： 大多数API都有调用频率限制（Rate Limit）。频繁或过快的请求可能会导致IP被暂时或永久封禁。请合理设置请求间隔，或遵循API文档中规定的限制。
错误处理： 在实际应用中，建议添加try-except块来处理可能出现的网络错误（如连接超时）、HTTP错误状态码（如403 Forbidden, 404 Not Found）或JSON解析失败等情况，增强代码的健壮性。
API结构变化： API的JSON响应结构可能会随时间变化。如果您的代码突然无法正常工作，请检查API响应的最新结构。
合法性与道德： 在抓取任何网站数据时，请务必遵守该网站的使用条款和robots.txt文件。虽然直接调用API通常比解析HTML更稳定，但仍需确保您的行为符合法律法规和道德规范。
参数化赛季年份： 代码中的SeasonYear参数可以灵活修改，以获取不同赛季的数据，甚至可以编写循环来批量获取。