讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

如何用PHP和CURL高效采集新闻列表及详情？

碧海醫心

发布时间：2025-03-12 10:40:39

|

877人浏览过

|

来源于php中文网

原创

如何用php和curl高效采集新闻列表及详情？

本文将阐述如何利用PHP和cURL高效抓取目标网站的新闻列表和新闻详情，并展示最终结果。关键在于高效运用cURL获取数据，处理相对路径并提取所需信息。

首先，解决第一个挑战：从列表页（例如，页面1）提取新闻标题和完整URL。代码示例如下：

https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c<\/a>/i', $html, $matches);

$newslist = [];
foreach ($matches[1] as $key => $href) {
    $title = $matches[2][$key];
    // 处理相对路径
    $completeurl = 'http://www.xx.com' . $href; // 将相对路径转换为完整路径
    $newslist[] = ['title' => $title, 'url' => $completeurl];
}

// 打印新闻列表
print_r($newslist);
?>

这段代码首先使用cURL获取列表页的HTML内容。然后，运用正则表达式/\https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c/i 提取标签中的href属性（链接）和文本内容（标题）。关键在于将提取到的相对路径与网站根域名拼接成完整的URL。

接下来，解决第二个挑战：对每个新闻链接进行二次抓取，提取新闻内容。我们可以改进上述代码：

OneAI

OneAI

将生成式AI技术打包为API，整合到企业产品和服务中

下载

立即学习“PHP免费学习笔记（深入）”；

(.*?)<\/div>/is', $detailHtml, $contentMatch);
    $content = isset($contentMatch[1]) ? strip_tags($contentMatch[1]) : ''; // 处理内容可能不存在的情况，并去除HTML标签

    // 展示结果
    echo "标题: " . $news['title'] . "

";
    echo "链接: " . $news['url'] . "

";
    echo "内容: " . $content . "


";
}
?>

这段代码遍历$newslist，对每个新闻链接再次使用cURL获取详情页HTML，并使用正则表达式/\

(.*?)/is 提取新闻内容（请根据目标网站的实际HTML结构调整正则表达式）。isset($contentMatch[1]) ? strip_tags($contentMatch[1]) : '' 确保即使没有匹配到内容也不会报错，并且使用strip_tags()函数去除HTML标签，只保留文本内容。 最后，代码将标题、链接和内容打印出来。
请注意，http://www.xx.com/news 需要替换为实际的列表页URL，并且正则表达式需要根据目标网站的HTML结构进行调整。  为了提高效率和健壮性，建议使用更高级的HTML解析库，例如DOMDocument。

相关文章

PHP探针如何查看磁盘使用情况_PHP探针查看磁盘使用法【说明】

PHP本地环境怎样配置session保存路径_PHP本地环境配session路径指引【配置】

PHP如何设置默认时区环境_PHP设置默认时区环境方法【参数】

Phpstorm怎么切换PHP版本_Phpstorm切换PHP版本路径【方法】

PhpDesigner如何调整字体大小_PhpDesigner调字号法【视图】

PHP速学教程(入门到精通)

PHP速学教程(入门到精通)

PHP怎么学习？PHP怎么入门？PHP在哪学？PHP怎么学才快？不用担心，这里为大家提供了PHP速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

windows ai php 正则表达式 html cURL href http

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：PHP闭包函数：显式参数传递和隐式变量捕获有何区别？下一篇：PHP foreach循环中&&运算符的妙用：如何利用短路求值避免JSON解码错误？

作者最新文章

如何在URL中动态拼接多个商品ID与数量参数

2026-01-18 15:34

如何在 Go 项目中正确构建可执行二进制文件

2026-01-18 15:42

Notepad如何设置UTF

2026-01-18 15:43

OctoberCMS 静态页面不显示在后台的解决方法

2026-01-18 15:48

vegas pro如何创建子剪辑

2026-01-18 15:53

不再挤牙膏！Intel Ultra 9 290HX Plus跑分性能曝光：x86单核之王秒杀桌面

2026-01-18 16:00

Bandizip怎么修改解压文件存放路径

2026-01-18 16:07

使用 AmpPHP 在 Magento 中实现并行处理的正确实践

2026-01-18 16:08

哇叽壁纸如何下载到本地

2026-01-18 16:08

如何下载安装腾讯手游助手

2026-01-18 16:08

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

php文件怎么打开

php文件怎么打开

打开php文件步骤：1、选择文本编辑器；2、在选择的文本编辑器中，创建一个新的文件，并将其保存为.php文件；3、在创建的PHP文件中，编写PHP代码；4、要在本地计算机上运行PHP文件，需要设置一个服务器环境；5、安装服务器环境后，需要将PHP文件放入服务器目录中；6、一旦将PHP文件放入服务器目录中，就可以通过浏览器来运行它。

2650

2023.09.01

php怎么取出数组的前几个元素

php怎么取出数组的前几个元素

取出php数组的前几个元素的方法有使用array_slice()函数、使用array_splice()函数、使用循环遍历、使用array_slice()函数和array_values()函数等。本专题为大家提供php数组相关的文章、下载、课程内容，供大家免费下载体验。

1658

2023.10.11

php反序列化失败怎么办

php反序列化失败怎么办

php反序列化失败的解决办法检查序列化数据。检查类定义、检查错误日志、更新PHP版本和应用安全措施等。本专题为大家提供php反序列化相关的文章、下载、课程内容，供大家免费下载体验。

1515

2023.10.11

php怎么连接mssql数据库

php怎么连接mssql数据库

连接方法：1、通过mssql_系列函数；2、通过sqlsrv_系列函数；3、通过odbc方式连接；4、通过PDO方式；5、通过COM方式连接。想了解php怎么连接mssql数据库的详细内容，可以访问下面的文章。

952

2023.10.23

php连接mssql数据库的方法

php连接mssql数据库的方法

php连接mssql数据库的方法有使用PHP的MSSQL扩展、使用PDO等。想了解更多php连接mssql数据库相关内容，可以阅读本专题下面的文章。

1418

2023.10.23

html怎么上传

html怎么上传

html通过使用HTML表单、JavaScript和PHP上传。更多关于html的问题详细请看本专题下面的文章。php中文网欢迎大家前来学习。

1234

2023.11.03

PHP出现乱码怎么解决

PHP出现乱码怎么解决

PHP出现乱码可以通过修改PHP文件头部的字符编码设置、检查PHP文件的编码格式、检查数据库连接设置和检查HTML页面的字符编码设置来解决。更多关于php乱码的问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

1468

2023.11.09

php文件怎么在手机上打开

php文件怎么在手机上打开

php文件在手机上打开需要在手机上搭建一个能够运行php的服务器环境，并将php文件上传到服务器上。再在手机上的浏览器中输入服务器的IP地址或域名，加上php文件的路径，即可打开php文件并查看其内容。更多关于php相关问题，详情请看本专题下面的文章。php中文网欢迎大家前来学习。

1306

2023.11.13

高德地图升级方法汇总

高德地图升级方法汇总

本专题整合了高德地图升级相关教程，阅读专题下面的文章了解更多详细内容。

72

2026.01.16

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

PostgreSQL 教程

PostgreSQL 教程

共48课时 | 7.4万人学习

Excel 教程

Excel 教程

共162课时 | 12.3万人学习

PHP基础入门课程

PHP基础入门课程

共33课时 | 1.9万人学习

最新文章

更多

PHP 中按 deviceMacAddress 去重并智能合并最新非空字段值

Laravel 中如何获取认证用户所属社区的最新主题列表

如何在 PHPMailer 中安全地使用配置变量替代硬编码参数

如何在 PHPMailer 中安全地使用全局配置变量

如何在 PHPMailer 中安全使用配置变量（分离 SMTP 设置）

如何在 macOS Monterey 上为 PHP 8 重新安装 Xdebug

如何在 macOS Monterey 上为 PHP 8 正确安装 Xdebug

PHP 中按 deviceMacAddress 去重并合并最新非空字段值

如何使用 PHP 按分隔符拆分 XML 子节点为多个独立子元素

PHP文件名替换怎么弄_替换后更新缓存怎么操作【缓存】

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部