如何使用 Python 爬取电商网站首页的所有商品 URL？-Python教程-PHP中文网

如何使用 Python 爬取电商网站首页的所有商品 URL？

聖光之護

发布： 2024-10-25 12:50:25

原创

923人浏览过

如何使用 python 爬取电商网站首页的所有商品 url？

从电商网站首页提取所有商品 url

问题：

如何在 python 中获取一个电商网站上所有商品的 url？

回答：

立即学习“Python免费学习笔记（深入）”；

获取一个网站的所有 url 不现实，因为网站中的 url 数量可能会非常庞大。

Fotor AI Image Upscaler

Fotor推出的AI图片放大工具

查看详情

解决方案：

采用逐步获取 url 的方法：

从首页获取少量 url（例如 100 个）。
使用获取的 url 访问对应的页面，再从中获取其他 url（例如每个页面上 10 个）。
继续重复此过程，直到无法获取更多 url。

通过这种方法，我们可以逐步建立一个网站 url 的集合，尽管无法获取所有 url，但可以覆盖网站的大部分内容。

代码示例：

import requests
from bs4 import BeautifulSoup

def get_urls(url):
    # 从指定的 URL 中提取 URL
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    urls = [link.get('href') for link in soup.find_all('a')]
    return urls

def crawl_urls(base_url, depth=3):
    # 指定起始 URL 和爬取深度
    # 建议深度不要过高，以免访问过多页面
    visited_urls = set()
    frontier = [base_url]

    # 逐步获取 URL
    for i in range(depth):
        new_frontier = []
        for url in frontier:
            if url not in visited_urls:
                visited_urls.add(url)
                urls = get_urls(url)
                new_frontier.extend(urls)
        frontier = new_frontier

    return visited_urls

# 使用示例
base_url = 'https://example.com/products'
urls = crawl_urls(base_url)
print('所有提取的 URL：', urls)

登录后复制

注意：