PHP抓取网页的方法有哪些

王林
发布: 2021-09-02 15:43:14
原创
6401人浏览过
PHP抓取网页的方法有:1、file()函数;2、file_get_contents()函数;3、fopen()->fread()->fclose模式;4、curl方式;5、fsockopen()函数。

PHP抓取网页的方法有哪些

本文操作环境:windows10系统、php 7.1、thinkpad t480电脑。

我们在进行开发工作的时候通常会需要抓取一些网页文件,通常情况下我们都是使用PHP模拟浏览器的访问,通过http请求访问url地址, 然后得到html源代码或者xml数据。但是我们在拿到数据后并不能直接输出,往往需要对内容进行提取,然后再进行格式化,以更加友好的方式将数据显现出来。

下面我们简单说一下php抓取页面的几种方法及原理:

一、 PHP抓取页面的主要方法:

立即学习PHP免费学习笔记(深入)”;

1. file()函数    

2. file_get_contents()函数  

3. fopen()->fread()->fclose()模式  

4.curl方式  

5. fsockopen()函数 socket模式  

二、PHP解析html或xml代码主要方式:

有道翻译AI助手
有道翻译AI助手

有道翻译提供即时免费的中文、英语、日语、韩语、法语、德语、俄语、西班牙语、葡萄牙语、越南语、印尼语、意大利语、荷兰语、泰语全文翻译、网页翻译、文档翻译、PDF翻

有道翻译AI助手 63
查看详情 有道翻译AI助手

1、file()函数

<?php
//定义url
$url='http://t.qq.com';
//fiel函数读取内容数组
$lines_array=file($url);
//拆分数组为字符串
$lines_string=implode('',$lines_array);
//输出内容,嘿嘿,大家也可以保存在自己的服务器上
echo $lines_string;
登录后复制

2、file_get_contents()函数

使用file_get_contents和fopen必须空间开启allow_url_fopen。方法:编辑php.ini,设置 allow_url_fopen = On,allow_url_fopen关闭时fopen和file_get_contents都不能打开远程文件。

<?php
//定义url
$url='http://t.qq.com';
 //file_get_contents函数远程读取数据
$lines_string=file_get_contents($url);
 //输出内容,嘿嘿,大家也可以保存在自己的服务器上
echo htmlspecialchars($lines_string);
登录后复制

3、fopen()->fread()->fclose()模式

<?php
//定义url
$url='http://t.qq.com';
 //fopen以二进制方式打开
$handle=fopen($url,"rb");
//变量初始化
$lines_string="";
//循环读取数据
do{
    $data=fread($handle,1024);
    if(strlen($data)==0) {
        break;
    }
$lines_string.=$data;
}while(true);
//关闭fopen句柄,释放资源
fclose($handle);
 //输出内容,嘿嘿,大家也可以保存在自己的服务器上
echo $lines_string;
登录后复制

4、curl方式

使用curl必须空间开启curl。方法:windows下修改php.ini,将extension=php_curl.dll前面的分号去掉,而且需 要拷贝ssleay32.dll和libeay32.dll到C:\WINDOWS\system32下;Linux下要安装curl扩展。

<?php
// 创建一个新cURL资源
$url='http://t.qq.com';
$ch=curl_init();
$timeout=5;
// 设置URL和相应的选项
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
// 抓取URL
$lines_string=curl_exec($ch);
// 关闭cURL资源,并且释放系统资源
curl_close($ch);
//输出内容,嘿嘿,大家也可以保存在自己的服务器上
echo $lines_string;
登录后复制

5、fsockopen()函数 socket模式

socket模式能否正确执行,也跟服务器的设置有关系,具体可以通过phpinfo查看服务器开启了哪些通信协议。

<?php
$fp = fsockopen("t.qq.com", 80, $errno, $errstr, 30);
if (!$fp) {
    echo "$errstr ($errno)<br />\n";
} else {
    $out = "GET / HTTP/1.1\r\n";
    $out .= "Host: t.qq.com\r\n";
    $out .= "Connection: Close\r\n\r\n";
    fwrite($fp, $out);
    while (!feof($fp)) {
        echo fgets($fp, 128);
    }
    fclose($fp);
}
登录后复制

PHP中文网17期线上班正式开班了(php培训)!热爱PHP编程的小伙伴们赶紧报名参加吧!

以上就是PHP抓取网页的方法有哪些的详细内容,更多请关注php中文网其它相关文章!

相关标签:
php
PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号