首先使用requests和BeautifulSoup解析静态网页表格,定位table、tr、td标签后查找a标签提取href属性,若遇动态内容则采用Selenium加载页面再解析。

抓取网页表格中的链接是Python爬虫常见的需求,比如从政府网站、数据平台或电商页面提取带超链接的表格数据。实现这一功能的核心是解析HTML结构并定位表格内的a标签。下面介绍具体方法。
BeautifulSoup是Python中处理HTML内容的强大工具,配合requests库可以轻松提取表格中的超链接。
基本步骤如下:
示例代码:
立即学习“Python免费学习笔记(深入)”;
import requests
from bs4 import BeautifulSoup
<p>url = "<a href="https://www.php.cn/link/1741c0f8d90a180b893a1776ae281820">https://www.php.cn/link/1741c0f8d90a180b893a1776ae281820</a>"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')</p><h1>查找第一个表格</h1><p>table = soup.find('table')
for row in table.find_all('tr')[1:]: # 跳过表头
cells = row.find_all('td')
for cell in cells:
link = cell.find('a', href=True)
if link:
print(link['href'], link.get_text())</p>有些网页使用嵌套表格或动态加载内容,直接解析可能失败。这时需要更精确的选择器。
可以使用CSS选择器或正则表达式提高定位准确性:
注意:部分链接可能是相对路径,需用urljoin补全:
from urllib.parse import urljoin absolute_url = urljoin(base_url, relative_href)
如果表格由JavaScript动态生成,requests无法获取完整HTML。此时应使用Selenium或Playwright。
Selenium模拟真实浏览器操作,能加载完整DOM:
示例片段:
from selenium import webdriver
<p>driver = webdriver.Chrome()
driver.get("<a href="https://www.php.cn/link/8edc69aa76b7aac408ba3c248aa8d7d4">https://www.php.cn/link/8edc69aa76b7aac408ba3c248aa8d7d4</a>")
soup = BeautifulSoup(driver.page_source, 'html.parser')</p><h1>后续解析同上</h1>基本上就这些。根据网页实际情况选择合适的工具组合,静态页面用requests+BeautifulSoup足够,动态内容则上Selenium。关键是要准确识别表格结构和链接位置。
以上就是Python爬虫如何抓取表格中的链接_Python爬虫提取网页表格内超链接的实现方法的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号