使用Selenium从Google地图提取商家评分与评论数量的实战教程

花韻仙語
发布: 2025-07-16 20:02:02
原创
260人浏览过

使用selenium从google地图提取商家评分与评论数量的实战教程

本教程详细介绍了如何利用Python和Selenium库从Google地图抓取商家(如花园)的评分和评论数量。文章将涵盖Selenium环境配置、搜索查询、处理无限滚动加载以及最关键的动态网页元素定位策略,特别是针对Google地图中评分和评论等信息的正确XPath定位方法,以克服常见的抓取挑战,并提供完整的示例代码和实践建议。

1. 环境准备与Selenium基础配置

在开始之前,请确保您的Python环境中已安装Selenium库,并下载与您的Chrome浏览器版本兼容的ChromeDriver。

pip install selenium
登录后复制

然后,我们需要初始化WebDriver并配置一些基本选项,例如保持浏览器开启状态(detach=True)以便观察自动化过程,并设置显式等待(WebDriverWait)以提高脚本的健壮性。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver import ActionChains
from selenium.webdriver.support.ui import WebDriverWait
import time

# 配置Chrome选项,保持浏览器开启
chrome_options = Options()
chrome_options.add_experimental_option("detach", True)

# 初始化WebDriver
driver = webdriver.Chrome(options=chrome_options)
# 初始化ActionChains用于模拟用户操作,如滚动
actionChains = ActionChains(driver)
# 初始化WebDriverWait用于显式等待元素
wait = WebDriverWait(driver, 20)
登录后复制

2. 导航与搜索操作

首先,我们需要导航到Google地图并执行搜索。为了确保页面加载完全,我们会在关键步骤后加入适当的延时或显式等待。

# 访问Google主页并接受cookie(如果出现)
driver.get("https://www.google.com/")
try:
    # 尝试点击接受cookie按钮,可能因页面语言或版本不同而异
    wait.until(EC.element_to_be_clickable((By.ID, "L2AGLb"))).click()
except:
    pass # 如果没有找到按钮或不需要点击,则跳过

# 访问Google地图
driver.get("https://www.google.com/maps")

# 等待搜索框加载并输入查询
time.sleep(3) # 简单等待,可以替换为更健壮的显式等待
search_box = wait.until(EC.presence_of_element_located((By.ID, "searchboxinput")))
search_box.send_keys("jardins in toulouse")
search_box.send_keys(Keys.RETURN)

# 等待搜索结果加载
time.sleep(5) # 简单等待,可以替换为显式等待特定元素出现
登录后复制

3. 处理无限滚动加载

Google地图的搜索结果通常采用无限滚动加载机制。为了获取尽可能多的结果,我们需要模拟用户滚动操作,直到无法加载更多内容为止。这里采用了一种巧妙的策略:滚动到列表底部元素,然后通过模拟键盘向下箭头键来触发更多加载,并判断最后一个元素是否变化来决定是否停止。

AGI-Eval评测社区
AGI-Eval评测社区

AI大模型评测社区

AGI-Eval评测社区 63
查看详情 AGI-Eval评测社区
# 定义一个辅助函数,用于等待元素位置稳定
# 这对于处理动态加载或动画效果的元素非常有用,确保元素在操作前不再移动
def wait_for_element_location_to_be_stable(element):
    initial_location = element.location
    previous_location = initial_location
    start_time = time.time()
    while time.time() - start_time < 1: # 在1秒内位置没有变化则认为稳定
        current_location = element.location
        if current_location != previous_location:
            previous_location = current_location
            start_time = time.time() # 位置变化,重置计时器
        time.sleep(0.4) # 短暂等待,避免CPU空转

# 定位搜索结果列表中的所有商家链接元素
# 这些元素通常具有相同的class属性,如'hfpxzc'
results = wait.until(EC.presence_of_all_elements_located((By.XPATH, "//a[@class='hfpxzc']")))

break_condition = False
# 定位一个可以接收键盘焦点的元素,通常是搜索框或某个输入框
focus_element = driver.find_element(By.ID, 'searchboxinput') # 使用searchboxinput作为焦点元素

while not break_condition:
    # 记录当前列表的最后一个元素,用于判断是否加载了新内容
    temp = results[-1]

    # 滚动到当前列表的最后一个元素,确保其可见
    actionChains.scroll_to_element(results[-1]).perform()

    # 将焦点移到某个元素(如搜索框)并点击,确保后续的键盘操作生效
    actionChains.move_to_element(focus_element).click().perform()

    # 模拟按下几次向下箭头键,触发页面滚动和新内容加载
    for i in range(3):
        actionChains.send_keys(Keys.ARROW_DOWN).perform()
        time.sleep(0.5) # 短暂等待,给页面加载时间

    # 等待最后一个元素的位置稳定,确保页面渲染完成
    wait_for_element_location_to_be_stable(temp)

    # 重新获取所有商家链接元素,检查是否有新元素加载
    results = wait.until(EC.presence_of_all_elements_located((By.XPATH, "//a[@class='hfpxzc']")))

    # 如果重新获取的列表的最后一个元素与之前的最后一个元素相同,
    # 说明没有新的内容加载,可以停止滚动
    if results[-1] == temp:
        break_condition = True
登录后复制

4. 准确提取评分和评论数量

这是本教程的核心部分,也是原问题中遇到的主要挑战。最初的代码尝试使用绝对XPath来定位评分,但这种方法在动态网页中极易失效,因为它依赖于元素在DOM中的精确位置,而这个位置可能会随着页面加载或内容变化而改变。

正确的做法是使用相对XPath,并从当前结果元素的上下文(即每个商家链接<a>元素)出发去查找其关联的评分和评论信息。通过分析Google地图的DOM结构,我们发现评分信息通常位于商家链接元素的父级容器中,并且具有特定的类名。

  • 问题分析: 原始的`rating_xpath = "/

以上就是使用Selenium从Google地图提取商家评分与评论数量的实战教程的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号