总结
豆包 AI 助手文章总结

QueryList递归采集时,Range方法如何避免数据合并?

心靈之曲
发布: 2025-03-08 08:02:10
原创
919人浏览过

querylist递归采集时,range方法避免数据合并详解

使用QueryList进行多级数据采集时,递归调用querydata函数容易导致range()方法出现数据合并问题。本文通过一个案例分析range()方法在递归调用中的作用,并解释文档示例与实际运行结果的差异。

问题描述:

以下代码尝试从HTML结构中提取标题(h3)和列表(.list)信息,列表中包含多个子项(.item)。递归调用querydata函数提取子项时,item字段数据却合并了,而非预期的独立列表。

代码示例:

$html = <<<str
- ### xxx
    <div class="list"><div class="item">item1</div><div class="item">item2</div> </div>
- ### xxx2
    <div class="list"><div class="item">item12</div><div class="item">item22</div> </div>
str;

$data = querylist::html($html)
    ->rules([
        'title' => ['h3', 'text'],
        'list' => ['.list', 'html']
    ])
    ->range('#demo li') // 这里假设存在<ul id="demo"><li>...</li></ul>结构,否则range无效
    ->querydata(function ($item) {
        $item['list'] = querylist::html($item['list'])
            ->rules([
                'item' => ['.item', 'text']
            ])
            ->range('') // 清空range,避免继承外部range
            ->querydata();
        return $item;
    });
dump($data);
登录后复制

运行结果(预期与实际结果差异):

如果代码中range('')被省略,则item字段内容会合并:

Array ( 
    [0] => Array ( [title] => xxx [list] => Array ( [item] => item1item2 ) ) 
    [1] => Array ( [title] => xxx2 [list] => Array ( [item] => item12item22 ) ) 
)
登录后复制

添加range('')后,结果将正确地显示为独立列表:

Array ( 
    [0] => Array ( [title] => xxx [list] => Array ( [0] => Array ( [item] => item1 ) [1] => Array ( [item] => item2 ) ) ) 
    [1] => Array ( [title] => xxx2 [list] => Array ( [0] => Array ( [item] => item12 ) [1] => Array ( [item] => item22 ) ) ) 
)
登录后复制

问题分析:

range('#demo li') 指定了外层循环选择#demo下的li元素。 如果内部querydata函数忽略range(''),内部querylist对象会继承外层range('#demo li')设置。这导致内部循环仍然作用于所有li元素,而非当前li元素下的.item元素,从而造成item字段内容合并。range('')清空范围选择,确保内部循环只处理传入的$item['list'] HTML片段。

解决方法:

在内部querydata函数中使用range('')重置范围选择,强制querylist对象仅处理当前$item['list'] HTML片段,避免范围继承问题。

结论:

理解range()方法在QueryList递归调用中的作用至关重要。 在递归调用中,务必在每个querydata函数中根据实际需求设置或重置range()参数,以避免数据合并或其他意外结果。 本例中,range('')的运用有效地解决了数据合并问题,确保了递归采集的准确性。 需要注意的是,示例代码中的range('#demo li')需要对应的HTML结构存在,否则该range将无效。 QueryList递归采集时,Range方法如何避免数据合并?

以上就是QueryList递归采集时,Range方法如何避免数据合并?的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
相关标签:
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
豆包 AI 助手文章总结
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号