如何使用Golang实现并发网络爬虫_Golang goroutine与HTTP请求技巧

P粉602998670

发布时间：2026-01-21 11:24:58

819人浏览过

来源于php中文网

原创

Go并发爬虫关键在于控并发、防崩、防封；需用带缓冲channel实现信号量限流，归一化URL并用sync.Map去重，限制响应体大小并确保resp.Body.Close()。

如何使用golang实现并发网络爬虫_golang goroutine与http请求技巧

Go 语言实现并发爬虫的关键不在“能不能并发”，而在于“怎么控并发、怎么防崩、怎么不被封”。盲目开成百上千个 goroutine 发 http.Get，大概率触发连接耗尽、DNS 超时、服务端限流或本地文件描述符不足（too many open files）。

用 `semaphore` 控制并发请求数量

别靠 time.Sleep 或空 for 循环压节奏。标准做法是用带缓冲的 channel 模拟信号量，限制同时活跃的 HTTP 请求数量。

常见错误：直接对每个 URL 启一个 go fetch(url)，没节制 —— 1000 个 URL 就起 1000 个 goroutine，底层 TCP 连接、DNS 查询、TLS 握手全堆在一起，系统先扛不住。

设一个 sem := make(chan struct{}, 10)，表示最多 10 个并发请求
每次发请求前写入：sem
请求结束（无论成功失败）后必须释放：
这个 channel 不要 close，也不用 defer —— 它是长期复用的资源

`http.Client` 必须复用并配置超时

每个 http.Client 实例自带连接池；反复 new http.Client 会导致连接泄漏、TIME_WAIT 爆满、DNS 缓存失效。

立即学习“go语言免费学习笔记（深入）”；

默认的 http.DefaultClient 虽可用，但超时为 0（无限等待），极易卡死整个 goroutine。

虎课网

虎课网是超过1800万用户信赖的自学平台，拥有海量设计、绘画、摄影、办公软件、职业技能等优质的高清教程视频，用户可以根据行业和兴趣爱好，自主选择学习内容，每天免费学习一个...

下载

定义全局或包级变量：var client = &http.Client{Timeout: 10 * time.Second}

设置 Transport 复用连接：

client.Transport = &http.Transport{
    MaxIdleConns:        100,
    MaxIdleConnsPerHost: 100,
    IdleConnTimeout:     30 * time.Second,
}

不要在 handler 或循环里反复 new http.Client，哪怕只改 Timeout

解析 HTML 前先检查 `resp.StatusCode` 和 `Content-Type`

很多爬虫一拿到 *http.Response 就直接丢给 golang.org/x/net/html 解析，结果遇到 404 页面、JSON 接口、重定向响应、二进制文件（PDF/图片），轻则 panic（invalid character），重则静默跳过关键错误。

务必检查：if resp.StatusCode = 300
检查 Content-Type 是否含 text/html 或 application/xhtml+xml，否则跳过解析
用 io.LimitReader(resp.Body, 1024*1024) 防止下载超大响应体（如视频页面嵌了 100MB 日志文件）
记得 resp.Body.Close() —— 不关会泄漏连接，尤其在复用 client 时

URL 去重与避免重复抓取要用 `sync.Map` + 归一化

原始 URL 可能带不同 query 参数（?utm_source=xx）、大小写路径、末尾斜杠差异，直接字符串比较会导致重复抓取或漏抓。

并发环境下用普通 map[string]bool 会 panic，必须线程安全。

用 var visited = sync.Map{} 存已抓 URL（key 是归一化后的字符串）
归一化至少做三件事：转小写、移除 fragment（# 后内容）、标准化 query（按 key 排序再拼）
判断是否已访问：if _, ok := visited.Load(normalizedURL); ok { continue }
成功解析后存入：visited.Store(normalizedURL, struct{}{})

真正难的不是并发本身，而是当 50 个 goroutine 同时在解析、去重、写磁盘、重试 429 响应时，哪条路径没加锁、哪个 error 被忽略、哪个 body 忘了 close —— 这些细节才决定爬虫跑一天后是稳如磐石，还是凌晨三点开始疯狂报 dial tcp: lookup xxx: no such host。

Go语言测试覆盖率怎么查看_测试覆盖率统计方法

Go模板文件路径解析失败的解决方案

Go模板文件路径解析错误：正确设置HTML模板文件路径的方法

Golang如何在Web应用中使用模板安全机制

Golang html template如何防止XSS_模板安全机制说明

相关标签:

html go golang 网络爬虫 app 爬虫 dns 并发请求 golang html xhtml String if for xml Error continue 字符串 bool 循环堆 Struct 线程 var map 并发 channel http

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Golang Web服务如何记录访问日志_日志中间件实现思路下一篇：暂无

作者最新文章

ChatGPT生成的思维导图文字太拥挤_要求其使用缩进式的大纲结构以便后续导入软件

2026-01-21 10:25

在Java中如何实现对象数据持久化_Java序列化项目讲解

2026-01-21 10:26

如何在Golang中测试函数边界条件_Golang table-driven边界测试方法

2026-01-21 10:28

Golang配置中心如何支持动态更新_配置热更新实现方式

2026-01-21 10:28

铁路12306卧铺票怎么付尾款铁路12306尾款支付操作方法

2026-01-21 10:29

搜狗浏览器网页打不开怎么办搜狗浏览器访问异常排查

2026-01-21 10:32

如何将PDF转换成PPT？PDF转PPT操作方法

2026-01-21 10:33

mysql事务不提交会发生什么_mysql行为解析

2026-01-21 10:33

向日葵怎么注销账号_向日葵账户删除与注销流程

2026-01-21 10:34

如何在Golang中处理字符串格式化_Golang fmt包格式化技巧

2026-01-21 10:36

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

golang如何定义变量

golang定义变量的方法：1、声明变量并赋予初始值“var age int =值”；2、声明变量但不赋初始值“var age int”；3、使用短变量声明“age :=值”等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

180

2024.02.23

golang有哪些数据转换方法

golang数据转换方法：1、类型转换操作符；2、类型断言；3、字符串和数字之间的转换；4、JSON序列化和反序列化；5、使用标准库进行数据转换；6、使用第三方库进行数据转换；7、自定义数据转换函数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

228

2024.02.23

golang常用库有哪些

golang常用库有：1、标准库；2、字符串处理库；3、网络库；4、加密库；5、压缩库；6、xml和json解析库；7、日期和时间库；8、数据库操作库；9、文件操作库；10、图像处理库。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

340

2024.02.23

golang和python的区别是什么

golang和python的区别是：1、golang是一种编译型语言，而python是一种解释型语言；2、golang天生支持并发编程，而python对并发与并行的支持相对较弱等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

209

2024.03.05

golang是免费的吗

golang是免费的。golang是google开发的一种静态强类型、编译型、并发型，并具有垃圾回收功能的开源编程语言，采用bsd开源协议。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

393

2024.05.21

golang结构体相关大全

本专题整合了golang结构体相关大全，想了解更多内容，请阅读专题下面的文章。

197

2025.06.09

golang相关判断方法

本专题整合了golang相关判断方法，想了解更详细的相关内容，请阅读下面的文章。

191

2025.06.10

golang数组使用方法

本专题整合了golang数组用法，想了解更多的相关内容，请阅读专题下面的文章。

212

2025.06.17

Python GraphQL API 开发实战

本专题系统讲解 Python 在 GraphQL API 开发中的实际应用，涵盖 GraphQL 基础概念、Schema 设计、Query 与 Mutation 实现、权限控制、分页与性能优化，以及与现有 REST 服务和数据库的整合方式。通过完整示例，帮助学习者掌握使用 Python 构建高扩展性、前后端协作友好的 GraphQL 接口服务，适用于中大型应用与复杂数据查询场景。

2026.01.21

热门下载

网站特效

网站源码

网站素材

前端模板