
php simple html dom 是一个纯 php 编写的轻量级 html 解析库,但它无法执行 javascript,因此无法获取由 ajax 或前端框架(如 react、vue)动态注入的 dom 元素——这是导致 “undefined variable” 报错的根本原因。
当你使用如下代码尝试抓取 Digikala 商品页的颜色信息时:
$html = file_get_html('https://www.digikala.com/product/dkp-7475119/');
foreach ($html->find('p.color-900') as $e) {
$color = $e->outertext;
echo $color;
break;
}程序会报 Notice: Undefined variable: color(或更底层的 Trying to get property of non-object),根本原因并非变量未声明,而是 $html->find('p.color-900') 返回空数组——因为目标
并不存在于服务器返回的初始 HTML 中。
? 验证方法:
打开浏览器,访问 view-source:https://www.digikala.com/product/dkp-7475119/,搜索 color-900 或
标签,你会发现该类名在源码中并不存在。Digikala 使用现代前端框架(React)渲染商品详情,关键信息(如颜色、规格、价格)均由 JavaScript 在客户端异步加载,file_get_html() 只能获取原始静态 HTML,无法等待或执行 JS。
✅ 正确解决方案有两类:
立即学习“PHP免费学习笔记(深入)”;
1. 改用支持 JavaScript 渲染的工具(推荐)
使用 Headless 浏览器,例如:
- Puppeteer + PHP(通过 Node.js bridge)
- Symfony Panther(基于 ChromeDriver 的 PHP 端到端测试/爬虫库)
- 或直接调用 curl + chrome --headless(需服务端环境支持)
示例(Panther 快速上手):
composer require symfony/panther
use Symfony\Component\Panther\Client;
$client = Client::createChromeClient();
$crawler = $client->request('GET', 'https://www.digikala.com/product/dkp-7475119/');
$client->waitFor('.color-900'); // 等待动态元素出现
$colorNode = $crawler->filter('p.color-900')->first();
if ($colorNode) {
echo $colorNode->text();
} else {
echo "Element not found after JS rendering.";
}
$client->quit();2. 绕过前端,直连 API(高效且稳定)
Digikala 提供公开的 RESTful 接口。观察其 Network 面板,商品数据实际来自:
https://api.digikala.com/v2/product/dkp-7475119/
使用 cURL 即可获取结构化 JSON:
$url = 'https://api.digikala.com/v2/product/dkp-7475119/';
$json = file_get_contents($url);
$data = json_decode($json, true);
if (isset($data['data']['product']['attributes'])) {
foreach ($data['data']['product']['attributes'] as $attr) {
if ($attr['key'] === 'color') {
echo "Color: " . $attr['value'];
break;
}
}
}⚠️ 注意事项:
- Simple HTML DOM 已多年未维护(最后更新:2019),不兼容 PHP 8.1+ 的部分严格模式,且存在内存泄漏风险;
- 直接请求 API 更快、更可靠,但需注意 Referer、User-Agent 及频率限制(建议添加随机延迟与合法 UA);
- 若必须用静态 HTML 解析,请先确认目标元素是否存在于 view-source 中——否则所有 find() 调用均会返回空,进而导致后续变量未定义或对象访问失败。
? 总结:"Undefined variable" 在此场景中是“症状”,真正病因是 HTML 解析器与前端渲染机制不匹配。选择合适的技术栈(API > Headless Browser > Static Parser)才是解决之道。











