
本文将阐述如何利用PHP和cURL高效抓取目标网站的新闻列表和新闻详情,并展示最终结果。 关键在于高效运用cURL获取数据,处理相对路径并提取所需信息。
首先,解决第一个挑战:从列表页(例如,页面1)提取新闻标题和完整URL。 代码示例如下:
https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c<\/a>/i', $html, $matches);
$newslist = [];
foreach ($matches[1] as $key => $href) {
$title = $matches[2][$key];
// 处理相对路径
$completeurl = 'http://www.xx.com' . $href; // 将相对路径转换为完整路径
$newslist[] = ['title' => $title, 'url' => $completeurl];
}
// 打印新闻列表
print_r($newslist);
?>
这段代码首先使用cURL获取列表页的HTML内容。然后,运用正则表达式/\https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c/i 提取标签中的href属性(链接)和文本内容(标题)。 关键在于将提取到的相对路径与网站根域名拼接成完整的URL。
接下来,解决第二个挑战:对每个新闻链接进行二次抓取,提取新闻内容。 我们可以改进上述代码:
立即学习“PHP免费学习笔记(深入)”;
(.*?)<\/div>/is', $detailHtml, $contentMatch);
$content = isset($contentMatch[1]) ? strip_tags($contentMatch[1]) : ''; // 处理内容可能不存在的情况,并去除HTML标签
// 展示结果
echo "标题: " . $news['title'] . "
";
echo "链接: " . $news['url'] . "
";
echo "内容: " . $content . "
";
}
?>
这段代码遍历 请注意,$newslist,对每个新闻链接再次使用cURL获取详情页HTML,并使用正则表达式/\isset($contentMatch[1]) ? strip_tags($contentMatch[1]) : '' 确保即使没有匹配到内容也不会报错,并且使用strip_tags()函数去除HTML标签,只保留文本内容。 最后,代码将标题、链接和内容打印出来。
http://www.xx.com/news 需要替换为实际的列表页URL,并且正则表达式需要根据目标网站的HTML结构进行调整。 为了提高效率和健壮性,建议使用更高级的HTML解析库,例如DOMDocument。











