随着互联网的发展,爬虫已成为了获取数据的主要手段之一。而在众多的爬虫语言中,php和selenium的组合也成为了一个备受关注的方案。这篇文章将为大家介绍如何使用php和selenium打造一个可靠、高效的网络爬虫。
一、Selenium简介
Selenium是一个web自动化测试框架,可以模拟浏览器操作,提供了多种语言实现(如Java、Python、PHP等),其中PHP版本称为php-webdriver。Selenium的主要作用是自动化测试,但也可以用于网络爬虫。相比于传统的爬虫库(如requests、Scrapy等),Selenium可以更好地处理javascript和动态网页,从而提高爬虫效率和稳定性。
二、Selenium的安装
1.安装Selenium WebDriver
立即学习“PHP免费学习笔记(深入)”;
首先需要安装Selenium WebDriver,可以访问Selenium官网http://www.seleniumhq.org/download/下载对应的驱动,这里以chrome为例。
下载后需要将驱动文件放到系统路径下。
2.安装php-webdriver
可以使用Composer安装php-webdriver,执行以下命令:
composer require facebook/webdriver
3.简单示例
安装完成后,可以使用php-webdriver进行简单的操作,例如打开网站并获取网页标题:
<?php
require_once('vendor/autoload.php');
use FacebookWebDriverRemoteRemoteWebDriver;
$host = 'http://localhost:9515'; // 默认Chrome浏览器启动地址
$driver = RemoteWebDriver::create($host, DesiredCapabilities::chrome());
$driver->get('http://github.com');
echo "网页标题:" . $driver->getTitle() . PHP_EOL;
$driver->quit();三、爬虫实现
1.登录网站
有些网站需要登录才能获取到数据,这里以Github为例。首先需要在浏览器中手动登录,并保留会话。然后在爬虫中使用该会话进行操作:
<?php
require_once('vendor/autoload.php');
use FacebookWebDriverRemoteRemoteWebDriver;
use FacebookWebDriverRemoteDesiredCapabilities;
// 替换以下参数为自己的github账户和密码
$username = 'yourusername';
$password = 'yourpassword';
// 启动浏览器并登录
$host = 'http://localhost:9515'; // 默认Chrome浏览器启动地址
$driver = RemoteWebDriver::create($host, DesiredCapabilities::chrome());
$driver->get('http://github.com/login');
$driver->findElement(FacebookWebDriverWebDriverBy::cssSelector('input[name="login"]'))->sendKeys($username);
$driver->findElement(FacebookWebDriverWebDriverBy::cssSelector('input[name="password"]'))->sendKeys($password);
$driver->findElement(FacebookWebDriverWebDriverBy::cssSelector('input[type="submit"]'))->click();
// 检查是否登录成功
$cookies = $driver->manage()->getCookies();
if (count($cookies) == 0) {
echo "登录失败" . PHP_EOL;
exit;
}
echo "登录成功" . PHP_EOL;2.获取数据
通过登录后,并进入相应页面,可以通过CSS选择器或XPath选择器获取相应的元素,例如获取某仓库的star数目:
<?php
// 获取某仓库star数目
$driver->get('https://github.com/twbs/bootstrap');
$starText = $driver->findElement(FacebookWebDriverWebDriverBy::cssSelector('.js-social-count'))->getText();
$starCount = (int)str_replace(',', '', $starText);
echo "star数目:" . $starCount . PHP_EOL;如果需要获取多个元素,则可以使用findElements方法,返回的是一个WebDriverElement数组:
<?php
// 获取某用户的star数目
$driver->get('https://github.com/yourusername?tab=stars');
$stars = $driver->findElements(FacebookWebDriverWebDriverBy::cssSelector('.col-12.d-inline-block>a'));
echo "star数目:" . count($stars) . PHP_EOL;3.翻页操作
如果数据分页显示,可能需要进行翻页操作。可以先获取当前页码,然后通过模拟点击下一页按钮进行翻页:
<?php
// Github starred仓库分页
$driver->get('https://github.com/yourusername?tab=stars');
$pageNum = 1;
while (true) {
echo "第{$pageNum}页:" . PHP_EOL;
$pageStars = $driver->findElements(FacebookWebDriverWebDriverBy::cssSelector('.col-12.d-inline-block>a'));
foreach ($pageStars as $star) {
echo $star->getText() . PHP_EOL;
}
$nextPageBtn = $driver->findElement(FacebookWebDriverWebDriverBy::cssSelector('.pagination>button:last-child'));
if ($nextPageBtn->getAttribute('disabled') == 'true') {
break;
}
$nextPageBtn->click();
$pageNum++;
}四、总结
通过PHP和Selenium的组合,可以更好地处理javascript和动态网页,从而提高爬虫效率和稳定性。同时,Selenium也提供了丰富的API,可以便捷地实现诸如登录、翻页等操作。当然,Selenium也有一定缺点,如资源消耗大、速度相对较慢等。需要根据具体需求来选择使用哪种方案。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号