Linux如何使用Wget递归下载_Linux下整站爬取与断点续传技巧【指南】

裘德小鎮的故事

发布时间：2026-01-04 13:59:02

452人浏览过

来源于php中文网

原创

要完整镜像网站并支持断点续传，需组合使用wget的递归（-r）、断点续传（-c）、依赖下载（-p）、链接本地化（-k）、深度限制（-l 3）等参数，并配合robots忽略、User-Agent伪装、文件类型过滤及日志记录。

linux如何使用wget递归下载_linux下整站爬取与断点续传技巧【指南】

如果您需要在Linux系统中使用Wget工具对网站进行完整镜像下载，或在中断后继续未完成的下载任务，则需掌握其递归抓取与断点续传的核心参数组合。以下是实现该目标的具体操作步骤：

一、基础递归下载整站内容

Wget默认不启用递归模式，必须显式指定-r参数才能遍历目录结构并下载链接资源。同时需限制递归深度与文件类型，避免无限制爬取导致磁盘溢出或违反网站robots.txt规则。

1、执行基本递归下载命令：wget -r -l 3 -p -k -E -nH --no-parent https://example.com/

2、其中-l 3表示最大递归深度为3层，-p下载页面所需所有图片、CSS、JS等依赖文件，-k重写HTML链接为本地可浏览格式，-E自动添加.html扩展名，-nH禁用主机名子目录，--no-parent禁止向上级目录跳转。

3、添加--restrict-file-names=windows可确保生成的文件名兼容Windows系统，避免冒号、问号等非法字符。

二、启用断点续传与失败重试机制

网络不稳定或服务器限流可能导致下载中断，Wget支持基于HTTP Range请求的断点续传功能，前提是目标服务器支持字节范围请求（Accept-Ranges: bytes）。

1、在原有递归命令基础上增加-c参数启动断点续传：wget -c -r -l 3 -p -k -E -nH --no-parent https://example.com/

2、添加--tries=10设定单个文件最多重试10次，--retry-connrefused允许在连接被拒绝时也尝试重连。

3、使用--wait=1 --random-wait控制请求间隔，防止因访问过于频繁被服务器封禁IP。

三、配合robots.txt策略与用户代理伪装

Wget默认遵守robots.txt协议，若目标站点禁止爬虫访问，则需手动覆盖该行为；同时部分网站会根据User-Agent字段屏蔽默认的Wget标识，需模拟常见浏览器身份。

1、忽略robots.txt限制：在命令中加入-e robots=off参数。

妙笔工坊

妙笔工坊是一个集短剧解说，AI视频生成，口播数字人，小说推文生成的ai智能工具

下载

2、设置浏览器风格User-Agent：--user-agent="Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36"

3、完整组合示例：wget -e robots=off --user-agent="Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36" -c -r -l 3 -p -k -E -nH --no-parent https://example.com/

四、限制下载范围与排除冗余路径

整站下载常伴随大量无用资源（如后台接口、动态脚本、重复图片），可通过正则匹配方式排除特定URL模式，缩小存储占用并提升效率。

1、使用--reject参数过滤文件类型：--reject="cgi,php,asp,aspx,jsp"

2、利用--exclude-directories跳过指定目录：--exclude-directories="/admin,/wp-admin,/cgi-bin"

3、结合--accept白名单机制，仅下载HTML、CSS、JS、PNG、JPEG等静态资源：--accept="html,htm,css,js,png,jpg,jpeg,gif"

五、保存会话状态与日志追踪

长时间运行的下载任务需记录过程信息以便排查问题，Wget提供详细日志输出与进度保存功能，支持中断后恢复上下文。

1、将完整执行日志写入文件：-o wget-log.txt

2、启用进度显示并保存当前下载状态：--progress=bar:force --save-cookies cookies.txt

3、若需暂停任务，直接按Ctrl+C即可安全终止；再次运行相同命令时，Wget将自动检测已存在文件并跳过或续传。

LINUX如何批量重命名文件_LINUX批量文件重命名命令教程

如何在Linux系统中安装和配置Zabbix监控？实现服务器监控的详细步骤

云服务器 Linux 手动 DD 安装第三方 Linux 发行版：原理与实战

Linux中ThinkPHP性能怎样优化

ThinkPHP在Linux能运行吗

相关标签:

php css linux html js windows cookie 浏览器 app 字节工具 ai win php css html 递归 restrict 接口 CGI JS windows http https linux jsp

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Linux如何查看内存使用情况_Linux下free命令详解与缓存清理【教程】下一篇：Linux怎么安装Git版本控制_Linux代码仓库初始化与SSH密钥配置【步骤】

作者最新文章

苹果手机怎么设置紧急联系人苹果手机SOS紧急联络功能设置【保命】

2026-01-13 10:16

真棒猫是什么意思萝卜纸巾猫咪为啥爆火【解析】

2026-01-13 10:28

MAC如何合并PDF文档页面_MAC预览功能PDF导出与顺序调整【教程】

2026-01-13 10:30

萝卜纸巾猫模仿挑战是什么全网3000万人参与的梗咋玩【教程+背景】

2026-01-13 10:32

汽车之家app如何快速找到指定车型的论坛？汽车之家app论坛搜索技巧【指南】

2026-01-13 11:09

c++ string如何转int c++ stoi和stringstream方法【汇总】

2026-01-13 11:19

手机双扬声器有什么好处双扬声器和单扬声器听感区别【介绍】

2026-01-13 11:23

聚水潭云ERP登录入口聚水潭官方平台网址

2026-01-13 11:27

知乎网页版入口手机登录知乎网页版扫码登录教程

2026-01-13 11:28

Windows Defender防火墙如何设置？（允许或阻止应用通过）

2026-01-13 11:29

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

php文件怎么打开

打开php文件步骤：1、选择文本编辑器；2、在选择的文本编辑器中，创建一个新的文件，并将其保存为.php文件；3、在创建的PHP文件中，编写PHP代码；4、要在本地计算机上运行PHP文件，需要设置一个服务器环境；5、安装服务器环境后，需要将PHP文件放入服务器目录中；6、一旦将PHP文件放入服务器目录中，就可以通过浏览器来运行它。

2481

2023.09.01