首先启用URL黑白名单功能,在“采集”选项卡中开启URL过滤并选择优先级;接着添加白名单规则,输入如example.com/article等匹配模式以限定抓取范围;然后配置黑名单规则,逐行添加需屏蔽的URL特征,如bbs/或含特定参数的链接;再设置高级过滤条件,包括URL长度、重复参数、子目录层级及参数过滤;最后通过测试工具验证规则有效性,确保目标页面被正确放行或拦截,确认无误后保存设置。

如果您在使用LocoySpider采集数据时,希望控制哪些URL被允许或禁止抓取,可以通过设置URL黑白名单来实现精准过滤。以下是配置黑白名单及过滤规则的具体步骤:
在LocoySpider中,黑白名单功能用于决定任务中哪些链接可以进入队列进行抓取,哪些需要被排除。开启该功能后,系统会自动对发现的URL进行匹配判断。
1、进入任务设置界面,找到“采集”选项卡下的“URL过滤”模块。
2、勾选启用URL黑白名单过滤复选框以激活此功能。
3、根据需求选择是否优先执行白名单或黑名单规则,默认情况下黑名单优先级高于白名单。
白名单用于指定仅允许抓取的特定URL模式,只有符合白名单规则的链接才会被加入采集队列。
1、点击“白名单”编辑框右侧的“添加”按钮。
2、输入目标URL的匹配规则,支持通配符和正则表达式两种模式。
3、例如输入*example.com/article*可匹配所有包含该路径的页面。
4、确保每条规则单独一行,并检查是否启用正则匹配选项以决定解析方式。
黑名单用于排除不需要抓取的URL,常用于跳过登录页、广告页或无关分类页面。
1、在“黑名单”输入区域逐行添加需屏蔽的URL特征。
2、可使用通配符*代表任意字符,如*?reply=*可屏蔽带评论参数的链接。
3、若需精确屏蔽某个目录,可添加类似/bbs/*的规则。
4、启用忽略大小写匹配可提升黑名单覆盖范围。
除了基础的黑白名单外,LocoySpider还支持基于参数、长度、重复度等维度的附加过滤规则。
1、展开“高级过滤”设置面板,勾选按URL长度过滤并设定最小与最大字符限制。
2、启用“过滤重复参数URL”,防止因参数顺序不同生成大量冗余请求。
3、设置“最大子目录层级”,例如限定为3层,则超过/a/b/c/d/的链接将被自动丢弃。
4、添加参数过滤规则,如排除含有share=或utm_source=的跟踪参数链接。
在正式运行任务前,建议通过内置测试工具验证黑白名单的有效性,避免误拦或漏拦目标页面。
1、点击“测试URL过滤效果”按钮,打开测试窗口。
2、输入几个典型的目标URL和非目标URL进行模拟匹配。
3、查看每条URL的匹配结果,确认其被正确放行或拦截。
4、调整规则直至所有测试用例符合预期,最后点击“保存设置”应用到当前任务。
以上就是LocoySpider如何设置URL黑白名单_LocoySpider名单设置的过滤规则的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号