
在开始之前,请确保您的Python环境中已安装Selenium库,并下载与您的Chrome浏览器版本兼容的ChromeDriver。
pip install selenium
然后,我们需要初始化WebDriver并配置一些基本选项,例如保持浏览器开启状态(detach=True)以便观察自动化过程,并设置显式等待(WebDriverWait)以提高脚本的健壮性。
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver import ActionChains
from selenium.webdriver.support.ui import WebDriverWait
import time
# 配置Chrome选项,保持浏览器开启
chrome_options = Options()
chrome_options.add_experimental_option("detach", True)
# 初始化WebDriver
driver = webdriver.Chrome(options=chrome_options)
# 初始化ActionChains用于模拟用户操作,如滚动
actionChains = ActionChains(driver)
# 初始化WebDriverWait用于显式等待元素
wait = WebDriverWait(driver, 20)首先,我们需要导航到Google地图并执行搜索。为了确保页面加载完全,我们会在关键步骤后加入适当的延时或显式等待。
# 访问Google主页并接受cookie(如果出现)
driver.get("https://www.google.com/")
try:
# 尝试点击接受cookie按钮,可能因页面语言或版本不同而异
wait.until(EC.element_to_be_clickable((By.ID, "L2AGLb"))).click()
except:
pass # 如果没有找到按钮或不需要点击,则跳过
# 访问Google地图
driver.get("https://www.google.com/maps")
# 等待搜索框加载并输入查询
time.sleep(3) # 简单等待,可以替换为更健壮的显式等待
search_box = wait.until(EC.presence_of_element_located((By.ID, "searchboxinput")))
search_box.send_keys("jardins in toulouse")
search_box.send_keys(Keys.RETURN)
# 等待搜索结果加载
time.sleep(5) # 简单等待,可以替换为显式等待特定元素出现Google地图的搜索结果通常采用无限滚动加载机制。为了获取尽可能多的结果,我们需要模拟用户滚动操作,直到无法加载更多内容为止。这里采用了一种巧妙的策略:滚动到列表底部元素,然后通过模拟键盘向下箭头键来触发更多加载,并判断最后一个元素是否变化来决定是否停止。
# 定义一个辅助函数,用于等待元素位置稳定
# 这对于处理动态加载或动画效果的元素非常有用,确保元素在操作前不再移动
def wait_for_element_location_to_be_stable(element):
initial_location = element.location
previous_location = initial_location
start_time = time.time()
while time.time() - start_time < 1: # 在1秒内位置没有变化则认为稳定
current_location = element.location
if current_location != previous_location:
previous_location = current_location
start_time = time.time() # 位置变化,重置计时器
time.sleep(0.4) # 短暂等待,避免CPU空转
# 定位搜索结果列表中的所有商家链接元素
# 这些元素通常具有相同的class属性,如'hfpxzc'
results = wait.until(EC.presence_of_all_elements_located((By.XPATH, "//a[@class='hfpxzc']")))
break_condition = False
# 定位一个可以接收键盘焦点的元素,通常是搜索框或某个输入框
focus_element = driver.find_element(By.ID, 'searchboxinput') # 使用searchboxinput作为焦点元素
while not break_condition:
# 记录当前列表的最后一个元素,用于判断是否加载了新内容
temp = results[-1]
# 滚动到当前列表的最后一个元素,确保其可见
actionChains.scroll_to_element(results[-1]).perform()
# 将焦点移到某个元素(如搜索框)并点击,确保后续的键盘操作生效
actionChains.move_to_element(focus_element).click().perform()
# 模拟按下几次向下箭头键,触发页面滚动和新内容加载
for i in range(3):
actionChains.send_keys(Keys.ARROW_DOWN).perform()
time.sleep(0.5) # 短暂等待,给页面加载时间
# 等待最后一个元素的位置稳定,确保页面渲染完成
wait_for_element_location_to_be_stable(temp)
# 重新获取所有商家链接元素,检查是否有新元素加载
results = wait.until(EC.presence_of_all_elements_located((By.XPATH, "//a[@class='hfpxzc']")))
# 如果重新获取的列表的最后一个元素与之前的最后一个元素相同,
# 说明没有新的内容加载,可以停止滚动
if results[-1] == temp:
break_condition = True这是本教程的核心部分,也是原问题中遇到的主要挑战。最初的代码尝试使用绝对XPath来定位评分,但这种方法在动态网页中极易失效,因为它依赖于元素在DOM中的精确位置,而这个位置可能会随着页面加载或内容变化而改变。
正确的做法是使用相对XPath,并从当前结果元素的上下文(即每个商家链接<a>元素)出发去查找其关联的评分和评论信息。通过分析Google地图的DOM结构,我们发现评分信息通常位于商家链接元素的父级容器中,并且具有特定的类名。
以上就是使用Selenium从Google地图提取商家评分与评论数量的实战教程的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号