使用Goroutine和sync.WaitGroup实现多协程爬虫,通过带缓冲channel控制并发数,结合goquery解析HTML并用channel收集结果,提升爬取效率且避免资源耗尽。

多协程爬虫在 Golang 中非常常见,得益于其轻量级的 goroutine 和高效的并发模型。使用多个协程可以显著提升爬取效率,同时保持代码简洁。下面介绍如何用 Golang 实现一个简单但实用的多协程爬虫。
Golang 的 goroutine 让并发变得简单。只需在函数调用前加上 go 关键字,就能启动一个新协程执行任务。
例如,我们有一组 URL 需要抓取:
urls := []string{
"https://httpbin.org/delay/1",
"https://httpbin.org/delay/2",
"https://httpbin.org/get",
}
可以用协程并发请求:
立即学习“go语言免费学习笔记(深入)”;
for _, url := range urls {
go fetch(url)
}
但这样会立即返回,主程序可能在协程完成前退出。需要使用 sync.WaitGroup 控制等待。
如果 URL 很多,直接为每个都开协程会导致内存暴涨或被目标网站封禁。应使用信号量机制控制最大并发数。
通过带缓冲的 channel 模拟信号量:
semaphore := make(chan struct{}, 10) // 最大 10 个并发
var wg sync.WaitGroup
<p>for _, url := range urls {
wg.Add(1)
go func(u string) {
defer wg.Done()
semaphore <- struct{}{} // 获取令牌
defer func() { <-semaphore }() // 释放令牌</p><pre class='brush:php;toolbar:false;'> fetch(u)
}(url)} wg.Wait() // 等待所有任务完成
这种方式既能并发,又能限制同时运行的协程数量。
爬取页面后通常需要解析 HTML 提取数据。可使用 goquery 库(类似 jQuery)来操作 DOM。
安装:
go get github.com/PuerkitoBio/goquery
示例:提取标题
func parseTitle(body io.Reader) string {
doc, _ := goquery.NewDocumentFromReader(body)
return doc.Find("title").Text()
}
将结果通过 channel 收集,避免竞态条件:
results := make(chan string, len(urls))
// 在协程中:
title := parseTitle(resp.Body)
results <- fmt.Sprintf("%s: %s", url, title)
网络请求可能失败,需加入错误判断和简单重试。
func fetchWithRetry(url string, maxRetries int) error {
var err error
for i := 0; i < maxRetries; i++ {
resp, err := http.Get(url)
if err == nil && resp.StatusCode == 200 {
// 处理成功
return nil
}
time.Sleep(time.Second << uint(i)) // 指数退避
}
return err
}
配合 context 可实现超时控制:
ctx, cancel := context.WithTimeout(context.Background(), 10*time.Second) req, _ := http.NewRequestWithContext(ctx, "GET", url, nil) client.Do(req)
基本上就这些。Golang 多协程爬虫的核心是合理利用 goroutine、channel 和 WaitGroup,控制并发规模,安全提取数据。不复杂但容易忽略细节,比如限流和错误处理。写好之后性能通常远超单线程爬虫。
以上就是Golang如何实现多协程爬虫_Golang 多协程爬虫实践的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号