QueryList递归采集结果异常:文档示例与实际结果为何不一致?

花韻仙語
发布: 2025-03-26 08:58:19
原创
752人浏览过

querylist递归采集结果异常:文档示例与实际结果为何不一致?

QueryList递归采集:预期结果与实际结果差异分析及解决方案

在使用QueryList进行多层级数据抓取时,开发者常常遇到文档示例与实际运行结果不一致的情况。本文将通过一个案例,深入分析问题根源并提供有效的解决方案。

问题描述:

目标是从HTML结构中提取标题和列表信息。HTML结构如下:

<div id="demo">
    <ul><li>
          <h3>xxx</h3>
          <div class="list">
            <div class="item">item1</div>
            <div class="item">item2</div>
          </div>
        </li>
         <li>
          <h3>xxx2</h3>
          <div class="list">
            <div class="item">item12</div>
            <div class="item">item22</div>
          </div>
        </li>
    </ul></div>
登录后复制

使用QueryList代码进行数据提取:

// ... (代码片段缺失,无法完整分析) ...
登录后复制

预期结果是分别提取每个<li>下的<h3></h3>标题和item内容。但实际结果却是item内容合并:

<code>Array ( 
    [0] => Array ( [title] => xxx [list] => Array ( [item] => item1item2 ) ) 
    [1] => Array ( [title] => xxx2 [list] => Array ( [item] => item12item22 ) ) 
)</code>
登录后复制

问题分析:

BibiGPT-哔哔终结者
BibiGPT-哔哔终结者

B站视频总结器-一键总结 音视频内容

BibiGPT-哔哔终结者 28
查看详情 BibiGPT-哔哔终结者

问题在于内层QueryList对象继承了外层QueryList对象的range参数。range('')并没有真正重置选择器,导致其仍然使用外层range('#demo li')的选择器,从而导致item内容合并。 这可能是由于QueryList内部机制或代码中其他问题导致的。range('') 并非总是能正确重置范围,需要更深入的分析。

解决方案:

为了解决这个问题,需要确保内层QueryList对象独立于外层对象工作。 单纯的range('')可能无效,我们需要更可靠的方法。以下几种方案可以尝试:

    <li> 使用更精确的选择器: 避免使用range(),直接在rules中使用更精确的CSS选择器,例如:
$data = querylist::html($html)
    ->rules([
        'title' => ['h3', 'text'],
        'list' => ['.list .item', 'text'] // 直接选择所有.item元素
    ])
    ->range('#demo li')
    ->query(); //  注意这里直接使用query(),不再需要querydata()的递归
dump($data);
登录后复制

此方法直接提取所有.item元素的文本内容,避免了递归带来的问题。

    <li> 手动循环处理: 放弃QueryList的递归功能,手动循环处理每个<li>元素:
$lis = querylist::html($html)->find('#demo li');
$data = [];
foreach ($lis as $li) {
    $item = [];
    $item['title'] = querylist::html($li)->find('h3')->text();
    $items = querylist::html($li)->find('.list .item')->map(function($item){return $item->text();})->all();
    $item['list'] = $items;
    $data[] = $item;
}
dump($data);
登录后复制

这种方法更清晰,更容易理解和调试。

    <li> 深入检查QueryList源码和文档: 如果以上方法无效,则需要深入研究QueryList的源码和文档,查找range()方法的具体行为和潜在问题,并尝试其他QueryList提供的功能来解决这个问题。 可能需要检查QueryList版本和PHP版本兼容性。

选择哪种方案取决于具体需求和对QueryList的熟悉程度。 建议优先尝试方法1,因为它简洁高效。如果方法1无法满足需求,再考虑方法2。 方法3是最后的选择,需要更深入的编程知识。 记住始终检查QueryList的官方文档和示例代码,以确保正确使用其功能。

以上就是QueryList递归采集结果异常:文档示例与实际结果为何不一致?的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号