如何使用PHP和Selenium快速构建自己的网络爬虫系统

王林

发布时间：2023-06-15 22:54:09

2021人浏览过

来源于php中文网

原创

近年来，随着互联网的普及，网络爬虫逐渐成为了信息采集的主要手段之一，然而，常规的爬虫技术不稳定、难以维护，市面上的纯web网页爬虫也只能在静态页面上进行操作。而php结合selenium可达到动态爬虫的效果，具有稳定性高、数据采集全面等优点，被广泛应用于爬虫开发中。本文将介绍如何使用php和selenium快速构建自己的网络爬虫系统。

一、Selenium和ChromeDriver的安装

Selenium是一个自动化测试工具，可以对Web应用程序进行自动化测试，其中将浏览器与操作系统分离式地处理，无强制插入代码实现页面渲染。ChromeDriver则是Selenium中调用Chrome浏览器的驱动程序，可以使Selenium直接操作Chrome，从而实现动态页面的爬取。

首先需要在本地安装Chrome浏览器和PHP环境。接着，我们需要安装相应版本的Selenium和ChromeDriver，在命令行中输入以下代码即可安装：

composer require facebook/webdriver

然后将ChromeDriver二进制文件（根据自己的本地Chrome版本下载相应版本的ChromeDrive）置于系统Path变量环境中，代码如下：

立即学习“PHP免费学习笔记（深入）”；

$webdriver = FacebookWebDriverRemoteRemoteWebDriver::create(
    'http://localhost:9515', FacebookWebDriverChromeChromeOptions::class
);

二、构建Selenium和ChromeDriver的封装类

Selenium封装类主要用来维护Selenium和ChromeDriver，避免重复创建、销毁，代码如下：

class Selenium
{
    private static $driver;
    private static $selenium;

    public static function getInstance()
    {
        if (null === self::$selenium) {
            $options = new ChromeOptions();
            $options->addArguments(['--no-sandbox','--disable-extensions','--headless','--disable-gpu']);
            self::$driver = RemoteWebDriver::create(
                'http://localhost:9515',
                DesiredCapabilities::chrome()->setCapability(
                    ChromeOptions::CAPABILITY,
                    $options
                )
            );
            self::$selenium = new self();
        }

        return self::$selenium;
    }

    public function __destruct()
    {
        self::$driver->quit();
        self::$selenium = null;
    }

    public function getDriver()
    {
        return self::$driver;
    }
}

注意，参数中的ChromeOptions主要是为了在无GUI（图形化界面）下仍能稳定运行，--no-sandbox参数是为了防止在linux系统下运行时报错。

三、创建网页源码解析类

爬虫系统的核心在于解析非静态页面，这里需要创建源码解析类，使用正则表达式或XPath表达式来定位和获取目标节点信息。

网商宝商城管理系统

网商宝开源版商城系统是一款免费的通用电子商务平台构建软件，使用她您可以非常方便的开一个网上商店，在网上开展自己的生意。网商宝商城管理系统有如下特点：1、功能的 AJAX 化完美结合ASP.NET的AJAX技术，大幅减少了网络数据传输量，加快了页面操作的响应速度，减少了服务器负担，且用户操作体验更加美好，安全性更高，易用性更强。2、基于规则的权限控制权限管理模块提供强大的权限控制，支持多用户操作

下载

class PageParser
{
    private $pageSource;

    public function __construct(string $pageSource)
    {
        $this->pageSource = $pageSource;
    }

    public function parse(string $expression, $list = false)
    {
        if ($list) {
            return $this->parseList($expression);
        }
        return $this->parseSingle($expression);
    }

    private function parseList(string $expression)
    {
        $domXpath = new DOMXPath(@DOMDocument::loadHTML($this->pageSource));
        $items = $domXpath->query($expression);
        $result = [];
        foreach ($items as $item) {
            array_push($result,trim($item->nodeValue));
        }
        return $result;
    }

    private function parseSingle(string $expression)
    {
        $domXpath = new DOMXPath(@DOMDocument::loadHTML($this->pageSource));
        $item = $domXpath->query($expression)->item(0);
        if ($item) {
            return trim($item->nodeValue);
        }
        return '';
    }
}

这里主要用到了DOMXPath类和DOMDocument类来解析页面中的HTML节点，分别通过parseList和parseSingle方法来定位和获取多个和一个目标节点的内容。

四、创建爬虫类

最后，我们需要构建一个专门爬取页面内容的爬虫类，代码如下：

class Spider
{
    private $selenium;
    private $url;

    public function __construct($url)
    {
        $this->selenium = Selenium::getInstance();
        $this->url = $url;
        $this->selenium->getDriver()->get($url);
        sleep(1);
    }

    public function __destruct()
    {
        $this->selenium->getDriver()->close();
        $this->selenium = null;
    }

    public function getContent($expression, $list = false)
    {
        $pageSource = $this->selenium->getDriver()->getPageSource();
        $parser = new PageParser($pageSource);
        return $parser->parse($expression, $list);
    }
}

该类的getContent方法接收两个参数，一个是目标节点的XPath表达式，另一个是是否获取多个内容。 getModelContent函数请求URL并解析节点来获取所需内容，该函数获取结束后关闭浏览器进程。

五、使用示例

最后，我们使用实际例子来说明如何使用这个爬虫类。假设我们需要从一个拥有多个a标签的网页上，爬取a标签中的href属性和文本信息。我们可以通过以下代码来实现：

$spider = new Spider('https://www.example.com');
$aTags = $spider->getContent('//a', true);
foreach ($aTags as $a) {
    $href = $a->getAttribute('href');
    $text = $a->nodeValue;
    echo "$href -> $text
";
}

在以上代码中，首先使用Spider类获取页面源码，然后通过XPath表达式获取多个a标签的节点信息，最后通过getAttribute和nodeValue方法获取每个a标签的href属性和文本。

六、总结

综上所述，本文通过介绍如何使用PHP和Selenium构建网页爬虫系统，并通过实际示例说明如何获取页面中的节点信息，该爬虫具有稳定性高、数据采集全面等优点，具有一定的应用价值。但同时需要注意的是，爬取数据时需要注意合法性和道德性，并遵守相关法律法规。

初学者学php逻辑运算符咋用_初学者学php逻辑运算符用法【实践】

PHP本地环境如何配置SMTP发信_PHP本地环境配SMTP发信方法【配置】

如何正确使用 require_once 的相对路径与最佳实践

如何在 PHP 中使用 MySQL 查询匹配特定前缀的所有表名

初学者学php错误怎么调试_初学者学php错误调试技巧【排错】

PHP速学教程(入门到精通)

PHP怎么学习？PHP怎么入门？PHP在哪学？PHP怎么学才快？不用担心，这里为大家提供了PHP速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

php文件怎么打开

打开php文件步骤：1、选择文本编辑器；2、在选择的文本编辑器中，创建一个新的文件，并将其保存为.php文件；3、在创建的PHP文件中，编写PHP代码；4、要在本地计算机上运行PHP文件，需要设置一个服务器环境；5、安装服务器环境后，需要将PHP文件放入服务器目录中；6、一旦将PHP文件放入服务器目录中，就可以通过浏览器来运行它。

2645

2023.09.01