0

0

Go 并发爬虫中如何正确判断任务完成并安全终止?

心靈之曲

心靈之曲

发布时间:2026-01-07 15:41:24

|

265人浏览过

|

来源于php中文网

原创

Go 并发爬虫中如何正确判断任务完成并安全终止?

go 并发爬虫中,不能依赖 channel 长度或手动关闭 channel 来判断任务结束;应使用 sync.waitgroup 精确跟踪 goroutine 生命周期,确保所有爬取任务完成后再退出主程序。

实现一个健壮的并发 Web 爬虫,关键在于任务生命周期管理——既要避免重复抓取,又要准确感知“所有工作已完成”这一状态。原始代码试图通过检查 stor.Queue 的长度来决定是否关闭 channel,这是典型误区:channel 长度仅反映当前缓冲区数据量,无法反映尚未启动但已入队的任务,更无法感知 goroutine 是否仍在运行,最终导致 range 永不结束、程序死锁。

✅ 正确解法是采用 sync.WaitGroup ——它专为“等待一组 goroutine 完成”而设计:

  • wg.Add(n) 在启动新 goroutine 前调用,声明将有 n 个任务需等待;
  • defer wg.Done() 在每个 goroutine 结束时调用,标记该任务完成;
  • wg.Wait() 在主线程中阻塞,直到所有 Add 对应的 Done 被调用。

下面是一个精简、线程安全的完整实现(已移除冗余 channel 和共享 Stor 结构体,改用包级变量+互斥控制):

CreBee
CreBee

短视频矩阵运营工具,跨平台多账号一站式管理

下载
package main

import (
    "fmt"
    "sync"
)

var (
    visited = make(map[string]int)
    mu      sync.RWMutex // 读写锁保护 shared map
    wg      sync.WaitGroup
)

type Result struct {
    Url   string
    Depth int
}

type Fetcher interface {
    Fetch(url string) (body string, urls []string, err error)
}

func Crawl(res Result, fetcher Fetcher) {
    defer wg.Done() // 标记当前 goroutine 完成

    if res.Depth <= 0 {
        return
    }

    url := res.Url

    // 安全检查是否已访问(读操作)
    mu.RLock()
    if visited[url] > 0 {
        mu.RUnlock()
        fmt.Println("skip:", url)
        return
    }
    mu.RUnlock()

    // 标记为已访问(写操作)
    mu.Lock()
    visited[url]++
    mu.Unlock()

    body, urls, err := fetcher.Fetch(url)
    if err != nil {
        fmt.Println("fetch error:", err)
        return
    }
    fmt.Printf("found: %s %q\n", url, body)

    // 为每个子 URL 启动新 goroutine
    for _, u := range urls {
        wg.Add(1) // 关键:提前声明子任务数
        go Crawl(Result{u, res.Depth - 1}, fetcher)
    }
}

func main() {
    wg.Add(1)           // 主任务计入 WaitGroup
    Crawl(Result{"http://golang.org/", 4}, fetcher)
    wg.Wait()           // 阻塞直至所有 goroutine 完成
    fmt.Println("Crawling finished.")
}

⚠️ 注意事项:

  • 不要共享可变状态而不加锁:visited 是全局 map,多 goroutine 并发读写必须用 sync.RWMutex(读多写少场景推荐);
  • wg.Add() 必须在 go 语句之前调用,否则可能因竞态导致 wg.Wait() 提前返回;
  • 避免 channel + range 组合用于任务协调:本题本质是“树形任务分发”,而非生产者-消费者流水线,WaitGroup 更直接、无死锁风险;
  • 若后续需扩展为带限速/超时/错误统计的工业级爬虫,建议引入 context.Context 和结构化错误处理,但核心终止逻辑仍由 WaitGroup 承担。

总结:判断“不再有新数据”不等于“channel 为空”,而是“所有派生任务均已结束”。sync.WaitGroup 是 Go 中表达这一语义最清晰、最可靠的方式。

相关专题

更多
golang结构体相关大全
golang结构体相关大全

本专题整合了golang结构体相关大全,想了解更多内容,请阅读专题下面的文章。

194

2025.06.09

golang结构体方法
golang结构体方法

本专题整合了golang结构体相关内容,请阅读专题下面的文章了解更多。

186

2025.07.04

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

476

2023.08.10

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

476

2023.08.10

golang map内存释放
golang map内存释放

本专题整合了golang map内存相关教程,阅读专题下面的文章了解更多相关内容。

73

2025.09.05

golang map相关教程
golang map相关教程

本专题整合了golang map相关教程,阅读专题下面的文章了解更多详细内容。

28

2025.11.16

golang map原理
golang map原理

本专题整合了golang map相关内容,阅读专题下面的文章了解更多详细内容。

57

2025.11.17

java判断map相关教程
java判断map相关教程

本专题整合了java判断map相关教程,阅读专题下面的文章了解更多详细内容。

34

2025.11.27

c++主流开发框架汇总
c++主流开发框架汇总

本专题整合了c++开发框架推荐,阅读专题下面的文章了解更多详细内容。

2

2026.01.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Go 教程
Go 教程

共32课时 | 3.5万人学习

Go语言实战之 GraphQL
Go语言实战之 GraphQL

共10课时 | 0.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号