首页 > 后端开发 > Golang > 正文

Golang如何实现多协程爬虫_Golang 多协程爬虫实践

P粉602998670
发布: 2025-11-19 08:41:54
原创
232人浏览过
使用Goroutine和sync.WaitGroup实现多协程爬虫,通过带缓冲channel控制并发数,结合goquery解析HTML并用channel收集结果,提升爬取效率且避免资源耗尽。

golang如何实现多协程爬虫_golang 多协程爬虫实践

多协程爬虫在 Golang 中非常常见,得益于其轻量级的 goroutine 和高效的并发模型。使用多个协程可以显著提升爬取效率,同时保持代码简洁。下面介绍如何用 Golang 实现一个简单但实用的多协程爬虫。

1. 使用 Goroutine 发起并发请求

Golang 的 goroutine 让并发变得简单。只需在函数调用前加上 go 关键字,就能启动一个新协程执行任务。

例如,我们有一组 URL 需要抓取:

urls := []string{
    "https://httpbin.org/delay/1",
    "https://httpbin.org/delay/2",
    "https://httpbin.org/get",
}
登录后复制

可以用协程并发请求:

立即学习go语言免费学习笔记(深入)”;

for _, url := range urls {
    go fetch(url)
}
登录后复制

但这样会立即返回,主程序可能在协程完成前退出。需要使用 sync.WaitGroup 控制等待。

2. 控制协程数量:避免资源耗尽

如果 URL 很多,直接为每个都开协程会导致内存暴涨或被目标网站封禁。应使用信号量机制控制最大并发数。

通过带缓冲的 channel 模拟信号量:

semaphore := make(chan struct{}, 10) // 最大 10 个并发
var wg sync.WaitGroup
<p>for _, url := range urls {
wg.Add(1)
go func(u string) {
defer wg.Done()
semaphore <- struct{}{} // 获取令牌
defer func() { <-semaphore }() // 释放令牌</p><pre class='brush:php;toolbar:false;'>    fetch(u)
}(url)
登录后复制

} wg.Wait() // 等待所有任务完成

这种方式既能并发,又能限制同时运行的协程数量。

Softr Studio
Softr Studio

最简单的无代码web开发平台

Softr Studio 55
查看详情 Softr Studio

3. 数据提取与结果收集

爬取页面后通常需要解析 HTML 提取数据。可使用 goquery 库(类似 jQuery)来操作 DOM。

安装:

go get github.com/PuerkitoBio/goquery
登录后复制

示例:提取标题

func parseTitle(body io.Reader) string {
    doc, _ := goquery.NewDocumentFromReader(body)
    return doc.Find("title").Text()
}
登录后复制

将结果通过 channel 收集,避免竞态条件:

results := make(chan string, len(urls))
// 在协程中:
title := parseTitle(resp.Body)
results <- fmt.Sprintf("%s: %s", url, title)
登录后复制

4. 错误处理与重试机制

网络请求可能失败,需加入错误判断和简单重试。

func fetchWithRetry(url string, maxRetries int) error {
    var err error
    for i := 0; i < maxRetries; i++ {
        resp, err := http.Get(url)
        if err == nil && resp.StatusCode == 200 {
            // 处理成功
            return nil
        }
        time.Sleep(time.Second << uint(i)) // 指数退避
    }
    return err
}
登录后复制

配合 context 可实现超时控制:

ctx, cancel := context.WithTimeout(context.Background(), 10*time.Second)
req, _ := http.NewRequestWithContext(ctx, "GET", url, nil)
client.Do(req)
登录后复制

基本上就这些。Golang 多协程爬虫的核心是合理利用 goroutine、channel 和 WaitGroup,控制并发规模,安全提取数据。不复杂但容易忽略细节,比如限流和错误处理。写好之后性能通常远超单线程爬虫。

以上就是Golang如何实现多协程爬虫_Golang 多协程爬虫实践的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号