讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

使用curl和正则表达式抓取网页数据

php中文网

php中文网

发布时间：2016-07-25 08:48:28

|

1633人浏览过

|

来源于php中文网

原创

利用curl和正则表达式做的一个针对磨铁中文网非vip章节的小说抓取器，支持输入小说ID下载小说。
依赖项：curl
可以简单的看下，里面用到了curl ,正则表达式，ajax等技术，适合新手看看。在本地测试，必须保证联网并且确保php开启curl的mode.

session_start();
//封装成类开启这些自动抓取文章
#header("Refresh:30;http://www.test.com:8080");
class SpiderTools{
//////////////////////////////////////////////////////////////////////////////////////////////////////////
/*传入文章ID 解析出文章标题*/
//////////////////////////////////////////////////////////////////////////////////////////////////////////
public function getBookNameById($aid){
//初始化curl
$ch= curl_init();
//url
$url='http://www.motie.com/book/'.$aid;
if(is_numeric($aid)){
//正则表达式匹配
$ru="/
\s*(.*)\s*\s*/";
}

else{

//丧尸爆发之全家求生路_第一章丧尸爆发　为吾友爱乐儿更新~_磨铁

$ru="/(.*)/";<li> }</li> <li> //设置选项，包括URL</li> <li> curl_setopt($ch, CURLOPT_URL, $url);</li> <li> curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//不自动输出内容</li> <li> curl_setopt($ch, CURLOPT_HEADER, 0);//不返回头部信息</li> <li> curl_setopt($ch, CURLOPT_CONNECTTIMEOUT_MS, 0); </li> <li> //执行curl</li> <li> $output = curl_exec($ch);</li> <li> //错误提示</li> <li> if(curl_exec($ch) === false){</li> <li> die(curl_error($ch));</li> <li> }</li> <li> // 检查是否有错误发生</li> <li> if(curl_errno($ch)){</li> <li> echo 'Curl error: ' . curl_error($ch);</li> <li> }</li> <li> //释放curl句柄</li> <li> curl_close($ch);</li> <li> $arr=array();</li> <li> preg_match_all($ru,$output,$arr);</li> <li> return $arr[1][0];</li> <li> }</li> <li> ////////////////////////////////////////////////////////////////////////////////////////////////////////// </li> <li> /*传入文章ID 解析文章内容*/</li> <li> //////////////////////////////////////////////////////////////////////////////////////////////////////////</li> <li> public function getBookContextById($aid){</li> <li> //开始解析文章</li> <li> $ids=array();</li> <li> $ids=explode("_",$aid);</li> <li> $titleId=trim($ids[0]);</li> <li> $aticleId=trim($ids[1]);</li> <li> $ch= curl_init();</li> <li> $ru="/<div class='\"page-content\"'>[\s\S]*<pre ondragstart='\"return' false oncopy='\"return' oncut='\"return' oncontextmenu='\"return' class='\"note\"' id='\"html_content_\d*\"'>[\s\S]*(.*)<img src="%5C%22%5C/ajax%5C/chapter%5C/%24titleId%5C/%24aticleId%5C%22" class='\"hidden\"' alt="使用curl和正则表达式抓取网页数据 " >/ui"; </pre> <li> $url='http://www.motie.com/book/'.$aid;</li> <li> //正则表达式匹配</li> <li> <li> //设置选项，包括URL</li> <li> curl_setopt($ch, CURLOPT_URL, $url);</li> <li> curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//不自动输出内容</li> <li> curl_setopt($ch, CURLOPT_HEADER, 0);//不返回头部信息</li> <li> curl_setopt($ch, CURLOPT_CONNECTTIMEOUT_MS, 0); </li> <li> //执行curl</li> <li> $output = curl_exec($ch);</li> <li> //错误提示</li> <li> if(curl_exec($ch) === false){</li> <li> die(curl_error($ch));</li> <li> }</li> <li> // 检查是否有错误发生</li> <li> if(curl_errno($ch)){</li> <li> echo 'Curl error: ' . curl_error($ch);</li> <li> }</li> <li> $arr=array();</li> <li> $arr2=array();</li> <li> preg_match_all($ru,$output,$arr);</li> <li> curl_close($ch);</li> <li> #var_dump($arr);</li> <li> $s=$arr[0][0];</li> <li> $s=substr($s,180);</li> <li> $arr2=explode("<img alt="使用curl和正则表达式抓取网页数据 " > return trim($arr2[0]);</li> <li> }</li> <li> <li> ////////////////////////////////////////////////////////////////////////////////////////////////////////// </li> <li> /*静态方法 @生成小说文件可以直接调用 */</li> <li> //////////////////////////////////////////////////////////////////////////////////////////////////////////</li> <li> public static function createBookById($id){</li> <li> </li> <li> if(!is_numeric($id)){</li> <li> <li> echo "<br>INIT BEGIN START WRITE!";</li> <li> $st=new self();</li> <li> $cons=$st->getBookContextById($id);</li> <li> $title=$st->getBookNameById($id);</li> <li> $cons=trim($cons);</li> <li> $t=explode(" ",$title);</li> <li> //构造目录</li> <li> $dir=array();</li> <li> $dir=explode("_",$t[0]);</li> <li> $wzdir=$dir[0]; //书名称作为目录名称</li> <li> $wzchapter=$dir[1]; //第几章</li> <li> //创建目录</li> <li> $wzdir2=iconv("UTF-8", "GBK", $wzdir);//目录编码注意这里保留对$wzdir字符串的引用，用来构造文件名，不能用此处，防止二次编码</li> <li> if(!file_exists($wzdir2)){</li> <li> mkdir($wzdir2); //创建目录</li> <li> }</li> <li> //构造文件名</li> <li> $wztitle="./".$wzdir."/"."$t[0]".".txt";</li> <li> //保证保存的文件名称不是乱码</li> <li> $wztitle=iconv("UTF-8", "GBK", $wztitle);</li> <li> $f=fopen($wztitle,"w+");</li> <li> fwrite($f,$cons);</li> <li> echo "<font color="green">$wzdir </font>".$wzchapter."<font color="red">写入成功</font>";</li> <li> fclose($f); </li> <li> </li> <li> } </li> <li> else{</li> <li> $ids=self::getBookIdsById($id); </li> <li> </li> <li> //这里服务器可能会掉线，所以最好用session记录循环</li> <li> #for($i=$_SESSION["$id"."_fid"];$i </li> <li> #self::createBookById($id."_".$ids[$_SESSION["$id"."_fid"]++]);//构造id</li> <li> #}</li> <li> </li> <li> for($i=$_SESSION["$id"."_fid"];$i </li> <li> self::createBookById($id."_".$ids[$i]);//构造id</li> <li> }</li> <li> </li> <li> #echo "<hr> <hr> <br><h1>写入工作全部完成</h1>";</li> <li> #echo $id."_".$ids[0]."<br>"; </li> <li> #var_dump($ids);</li> <li> </li> <li> }</li> <li> <li> }</li> <li> /*</li> <li> 获取小说的所有ID</li> <li> @param $id 文章ID</li> <li> @return array;</li> <li> */</li> <li> public static function getBookIdsById($aid){ </li> <li> $ch= curl_init();</li> <li> $url='http://www.motie.com/book/'.$aid."/chapter";</li> <li> //注意这里的?可以获取最少匹配项</li> <li> $ru='/[\s\S]*?</li> <li class='\"\"' createdate='\"\d{4}\-\d{2}\-\d{2}'>[\s\S]*?<a href="%5C%22%5C/book%5C/'.%24aid.'_(%5Cd*?)%5C%22%5Cs%E7%A8%8B%E5%BA%8F%E7%8C%BF%E7%AC%91%E8%AF%9D">.*?.*?/u';//正则表达式匹配<li> //设置选项，包括URL</li> <li> curl_setopt($ch, CURLOPT_URL, $url);</li> <li> curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//不自动输出内容</li> <li> curl_setopt($ch, CURLOPT_HEADER, 0);//不返回头部信息</li> <li> curl_setopt($ch, CURLOPT_CONNECTTIMEOUT_MS, 0); </li> <li> //执行curl</li> <li> $output = curl_exec($ch);</li> <li> // 检查是否有错误发生</li> <li> if(curl_errno($ch)){</li> <li> echo 'Curl error: ' . curl_error($ch);</li> <li> }</li> <li> //释放curl句柄</li> <li> curl_close($ch);</li> <li> $arr=array();</li> <li> preg_match_all($ru,$output,$arr,PREG_PATTERN_ORDER);</li> <li> return $arr[1];</li> <li> }</li> <li> }</li> <li> <li> <li> </li> <li> </li> <li> </li> <li> </li> <li> </li> <li> </li> <li>?></li></a> </li> </div> <em onclick="copycode($('code_Sfk'));">复制代码</em> </li>

session_start();
require_once("SpiderTools.class.php");
if($_REQUEST["bid"]){
if(is_numeric($_REQUEST["bid"])){
SpiderTools::createBookById(trim($_REQUEST["bid"]));
}
else{
echo "
请输入正确的文章ID
";
}
}
?>

复制代码

下载小说啦
输入磨铁中文网你想看到的小说ID号就可以下载小说啦

复制代码

相关文章

PHP URL路径片段提取：获取倒数第二个元素的高效方法

掌握产品代码正则表达式：避免常见陷阱与精确匹配

php数据整理怎么对数组元素去标签化_php去除html或特殊标记与strip_tags应用

在PHP中处理带逗号的小数：使用正则表达式提取价格

PHP中根据匹配前缀提取分隔符后的数据

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：基于Jquery的瀑布流下一篇：PHP 根据年月获取季度

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

Word 字间距调整方法汇总

Word 字间距调整方法汇总

本专题整合了Word字间距调整方法，阅读下面的文章了解更详细操作。

2

2025.12.24

任务管理器教程

任务管理器教程

本专题整合了任务管理器相关教程，阅读下面的文章了解更多详细操作。

2

2025.12.24

AppleID格式

AppleID格式

本专题整合了AppleID相关内容，阅读专题下面的文章了解更多详细教程。

0

2025.12.24

csgo视频观看入口合集

csgo视频观看入口合集

本专题整合了csgo观看入口合集，阅读下面的文章了知道更多入口地址。

29

2025.12.24

yandex外贸入口合集

yandex外贸入口合集

本专题汇总了yandex外贸入口地址，阅读下面的文章了解更多内容。

58

2025.12.24

添加脚注通用方法

添加脚注通用方法

本专题整合了添加脚注方法合集，阅读专题下面的文章了解更多内容。

1

2025.12.24

重启电脑教程汇总

重启电脑教程汇总

本专题整合了重启电脑操作教程，阅读下面的文章了解更多详细教程。

3

2025.12.24

纸张尺寸汇总

纸张尺寸汇总

本专题整合了纸张尺寸相关内容，阅读专题下面的文章了解更多内容。

5

2025.12.24

Java Spring Boot 微服务实战

Java Spring Boot 微服务实战

本专题深入讲解 Java Spring Boot 在微服务架构中的应用，内容涵盖服务注册与发现、REST API开发、配置中心、负载均衡、熔断与限流、日志与监控。通过实际项目案例（如电商订单系统），帮助开发者掌握从单体应用迁移到高可用微服务系统的完整流程与实战能力。

1

2025.12.24

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

Swoft2.x速学之http api篇课程

Swoft2.x速学之http api篇课程

共16课时 | 0.9万人学习

最新文章

更多

php静态网页设计怎么实现多列布局_php静态网页设计多列布局CSS写法【教程】

网页嵌入php链接失败怎么解决_网页嵌入php链接失败排查方法【技巧】

PHP怎么模拟POST请求测试_PHP模拟POST请求测试技巧【curl】

PHP怎么创建测试文件_PHP创建测试文件技巧【模板】

PhpStorm怎么开启代码自动补全_PhpStorm补全设置与智能提示【步骤】

苹果支付PHP凭证怎么解析_苹果支付凭证PHP解析方法【教程】

字符串处理如何触发php代码执行_字符串处理触发php代码执行方法【指南】

RSC和PHP移动端适配能力一样吗_跨端表现【移动】

用phpstudy怎么打开php文件_PHPStudy打开php文件方法【攻略】

怎么让php在浏览器输出数组_php数组输出方法【技巧】

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部