file_get_contents()无法批量还原短链接,因其默认跟随重定向且不返回响应头,导致无法获取Location字段;串行调用效率极低。应使用cURL多路复用,禁用自动跳转、只取响应头、提取Location,并处理3xx状态码、超时及反爬限制(如Referer、UA、DNS缓存等)。

为什么 file_get_contents() 不能直接批量还原短链接
短链接还原本质是发起 HTTP 请求并读取重定向目标(Location 响应头),而 file_get_contents() 默认不返回响应头,且无法控制跟随重定向的深度和行为。直接用它会拿到跳转后的页面内容,而非原始长 URL;更严重的是,串行调用会极慢,100 个链接可能耗时几十秒甚至分钟。
用 cURL + curl_multi_exec() 实现真正并发请求
PHP 原生支持多路复用 cURL 句柄,比开进程/线程更轻量、更可控。关键点在于:禁用自动跳转、只取响应头、提取 Location 字段,并正确处理 3xx 状态码和空/无效重定向。
- 必须设置
CURLOPT_FOLLOWLOCATION = false,否则拿不到原始响应头 - 必须启用
CURLOPT_HEADER = true,但注意响应体和头混在一起,需手动分离 - 对返回状态码非 3xx 的链接(如已失效、404、被拦截),应返回原短链或空值,避免误判
- 建议加
CURLOPT_TIMEOUT = 5防止单个请求拖垮整批任务
$urls = ['https://t.co/abc123', 'https://bit.ly/xyz789'];
$mh = curl_multi_init();
$chs = [];
foreach ($urls as $i => $url) {
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_NOBODY, true);
curl_setopt($ch, CURLOPT_HEADER, true);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, false);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_TIMEOUT, 5);
curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0');
curl_multi_add_handle($mh, $ch);
$chs[$i] = $ch;
}
$running = null;
do {
curl_multi_exec($mh, $running);
} while ($running > 0);
$results = [];
foreach ($urls as $i => $url) {
$header = curl_multi_getcontent($chs[$i]);
$redirect = '';
if (preg_match('/^Location:\s*(.+)$/mi', $header, $m)) {
$redirect = trim($m[1]);
}
$results[] = ['short' => $url, 'long' => $redirect];
curl_multi_remove_handle($mh, $chs[$i]);
curl_close($chs[$i]);
}
curl_multi_close($mh);
var_dump($results);
遇到 302 但 Location 为空?检查 Referer 和 UA 限制
很多短链服务(如微博、微信)会校验 Referer 或拒绝非常规 User-Agent,导致返回 302 却不带 Location,或直接返回 403。这不是代码问题,而是反爬策略。
- 加上
CURLOPT_REFERER(例如设为https://www.google.com)可绕过部分检测 -
CURLOPT_USERAGENT必须设为真实浏览器标识,不能留空或用默认值 - 某些平台(如
dwz.cn)还要求携带Cookie或额外 Header,需抓包确认
别忽略 DNS 和连接复用开销
批量还原上百个不同域名的短链时,DNS 解析和 TCP 连接建立本身就会成为瓶颈。cURL 多路复用虽共享 event loop,但默认不复用 DNS 缓存和连接池。
立即学习“PHP免费学习笔记(深入)”;
- 加
CURLOPT_DNS_CACHE_TIMEOUT = 300避免重复查 DNS - 加
CURLOPT_TCP_KEEPALIVE = 1和CURLOPT_FORBID_REUSE = false提升复用率 - 如果目标域名高度集中(如全是
t.co),效果更明显;若分散在 50+ 不同根域,仍建议分组限速(如每批 ≤20 个)
真正卡住的地方往往不是 PHP 逻辑,而是网络层响应质量——超时、丢包、WAF 拦截,这些没法靠“加线程”解决。











