使用 Python 递归提取网站所有链接

心靈之曲
发布: 2025-10-31 14:27:01
原创
862人浏览过

使用 python 递归提取网站所有链接

本文将介绍如何使用 Python 的 `requests` 和 `re` 模块递归地提取网站上的所有链接。通过改进原始代码,解决了无限循环的问题,并添加了最大深度限制,确保程序能够有效地抓取链接,避免陷入死循环。同时,代码进行了优化,提高了可读性和可维护性。

递归爬取网站链接

网络爬虫是一种自动浏览互联网并提取信息的程序。递归爬虫通过不断访问链接来发现新的链接,直到达到预定的深度或满足特定条件。在 Python 中,我们可以使用 requests 库来获取网页内容,re 库来提取链接。

代码实现

以下是一个改进后的 Python 脚本,用于递归提取网站上的所有链接:

网易天音
网易天音

网易出品!一站式音乐创作工具!零基础写歌!

网易天音76
查看详情 网易天音
import requests
import re
from urllib.parse import urljoin, urlparse

def extract_links_from(url):
    """
    从给定的 URL 中提取所有 href 链接。
    """
    try:
        response = requests.get(url, timeout=5) # 添加超时时间
        if response.status_code != 200:
            print(f"Error: Status code {response.status_code} for {url}")
            return []
        content = str(response.content, 'utf-8', errors='ignore') # 指定编码,忽略错误
        links = re.findall(r'(?:href=")(.*?)"', content, re.MULTILINE)
        return links
    except requests.exceptions.RequestException as e:
        print(f"Error fetching {url}: {e}")
        return []


def crawl(url, domain, visited=set(), max_depth=5):
    """
    递归地爬取网站链接。

    Args:
        url: 起始 URL。
        domain: 网站域名,用于过滤外部链接。
        visited: 已经访问过的 URL 集合,防止重复访问。
        max_depth: 最大递归深度。

    Returns:
        所有提取到的链接列表。
    """
    if max_depth == 0 or url in visited:
        return []

    visited.add(url)
    href_links = extract_links_from(url)
    links_list = []

    for link in href_links:
        link = urljoin(url, link.split("#")[0])  # 处理锚点链接
        parsed_link = urlparse(link)
        if parsed_link.netloc == domain and link not in visited:
            links_list.append(link)
            links_list.extend(crawl(link, domain, visited, max_depth - 1))
    return links_list

# 示例用法
target_url = "https://www.free-power-point-templates.com/"
parsed_url = urlparse(target_url)
domain = parsed_url.netloc

result = crawl(target_url, domain)
# 去重
result = list(set(result))
print(result)
登录后复制

代码详解

  1. extract_links_from(url) 函数:
    • 使用 requests.get(url) 获取网页内容。添加了 timeout 参数,防止请求超时。
    • 检查 HTTP 状态码,如果不是 200,则返回空列表,避免处理错误页面。
    • 使用 re.findall() 和正则表达式 r'(?:href=")(.*?)"' 提取所有 href 属性的值。
    • 对网页内容进行解码,指定编码为'utf-8',并忽略解码错误,防止因编码问题导致程序崩溃。
  2. crawl(url, domain, visited=set(), max_depth=5) 函数:
    • 递归终止条件: 当达到最大深度 max_depth 或 URL 已经访问过时,停止递归。
    • 使用 visited 集合来跟踪已经访问过的 URL,防止无限循环。
    • 使用 urljoin() 函数将相对 URL 转换为绝对 URL。
    • 使用 urlparse() 函数解析 URL,获取域名,用于过滤外部链接。
    • 递归调用 crawl() 函数,并将 max_depth 减 1。

注意事项

  • robots.txt: 在抓取网站之前,请务必查看网站的 robots.txt 文件,了解网站的爬取规则。
  • 频率限制: 不要过于频繁地访问网站,以免给服务器带来过大的压力。可以添加延时,例如 time.sleep(1)。
  • 异常处理: 增加异常处理机制,例如处理 requests.exceptions.RequestException 异常。
  • 编码问题: 确保正确处理网页的编码,避免出现乱码。
  • 最大深度: 设置合适的 max_depth,避免爬虫陷入过深的链接中。
  • 去重: 递归爬取后,结果中可能存在重复链接,可以使用 set() 进行去重。

总结

本文介绍了如何使用 Python 的 requests 和 re 模块递归地提取网站上的所有链接。通过添加终止条件、使用 visited 集合、处理异常和设置最大深度,可以有效地解决无限循环的问题,并确保程序能够正确地抓取链接。在实际应用中,请务必遵守网站的爬取规则,并合理设置爬取频率,以免给服务器带来不必要的负担。

立即学习Python免费学习笔记(深入)”;

以上就是使用 Python 递归提取网站所有链接的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号