讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

Go 并发爬虫中如何正确判断任务完成并安全终止？

心靈之曲

发布时间：2026-01-07 15:41:24

|

265人浏览过

|

来源于php中文网

原创

Go 并发爬虫中如何正确判断任务完成并安全终止？

在 go 并发爬虫中，不能依赖 channel 长度或手动关闭 channel 来判断任务结束；应使用 sync.waitgroup 精确跟踪 goroutine 生命周期，确保所有爬取任务完成后再退出主程序。

实现一个健壮的并发 Web 爬虫，关键在于任务生命周期管理——既要避免重复抓取，又要准确感知“所有工作已完成”这一状态。原始代码试图通过检查 stor.Queue 的长度来决定是否关闭 channel，这是典型误区：channel 长度仅反映当前缓冲区数据量，无法反映尚未启动但已入队的任务，更无法感知 goroutine 是否仍在运行，最终导致 range 永不结束、程序死锁。

✅ 正确解法是采用 sync.WaitGroup ——它专为“等待一组 goroutine 完成”而设计：

wg.Add(n) 在启动新 goroutine 前调用，声明将有 n 个任务需等待；
defer wg.Done() 在每个 goroutine 结束时调用，标记该任务完成；
wg.Wait() 在主线程中阻塞，直到所有 Add 对应的 Done 被调用。

下面是一个精简、线程安全的完整实现（已移除冗余 channel 和共享 Stor 结构体，改用包级变量+互斥控制）：

CreBee

CreBee

短视频矩阵运营工具，跨平台多账号一站式管理

下载

package main

import (
    "fmt"
    "sync"
)

var (
    visited = make(map[string]int)
    mu      sync.RWMutex // 读写锁保护 shared map
    wg      sync.WaitGroup
)

type Result struct {
    Url   string
    Depth int
}

type Fetcher interface {
    Fetch(url string) (body string, urls []string, err error)
}

func Crawl(res Result, fetcher Fetcher) {
    defer wg.Done() // 标记当前 goroutine 完成

    if res.Depth <= 0 {
        return
    }

    url := res.Url

    // 安全检查是否已访问（读操作）
    mu.RLock()
    if visited[url] > 0 {
        mu.RUnlock()
        fmt.Println("skip:", url)
        return
    }
    mu.RUnlock()

    // 标记为已访问（写操作）
    mu.Lock()
    visited[url]++
    mu.Unlock()

    body, urls, err := fetcher.Fetch(url)
    if err != nil {
        fmt.Println("fetch error:", err)
        return
    }
    fmt.Printf("found: %s %q\n", url, body)

    // 为每个子 URL 启动新 goroutine
    for _, u := range urls {
        wg.Add(1) // 关键：提前声明子任务数
        go Crawl(Result{u, res.Depth - 1}, fetcher)
    }
}

func main() {
    wg.Add(1)           // 主任务计入 WaitGroup
    Crawl(Result{"http://golang.org/", 4}, fetcher)
    wg.Wait()           // 阻塞直至所有 goroutine 完成
    fmt.Println("Crawling finished.")
}

⚠️ 注意事项：

不要共享可变状态而不加锁：visited 是全局 map，多 goroutine 并发读写必须用 sync.RWMutex（读多写少场景推荐）；
wg.Add() 必须在 go 语句之前调用，否则可能因竞态导致 wg.Wait() 提前返回；
避免 channel + range 组合用于任务协调：本题本质是“树形任务分发”，而非生产者-消费者流水线，WaitGroup 更直接、无死锁风险；
若后续需扩展为带限速/超时/错误统计的工业级爬虫，建议引入 context.Context 和结构化错误处理，但核心终止逻辑仍由 WaitGroup 承担。

总结：判断“不再有新数据”不等于“channel 为空”，而是“所有派生任务均已结束”。sync.WaitGroup 是 Go 中表达这一语义最清晰、最可靠的方式。

相关文章

如何在Golang中实现TCP服务器_Golang net TCP服务器方法

如何使用Golang实现函数接收指针_修改外部变量值的技巧

Go语言中如何正确编译和运行多文件程序

如何在Golang中实现协程池_限制并发数量提高效率

Golang环境搭建在ARM架构下的注意事项

相关标签:

go golang ai 爬虫 red 结构体线程主线程 map 并发 channel

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Golang实现Web表单数据的接收与验证下一篇：如何在Golang中使用replace替换模块_Golanggo mod replace使用技巧

作者最新文章

Chart.js 动态切换图表类型（Line/Bar/Pie）的完整解决方案

2026-01-08 10:59

如何分析视频号话题数据？话题数据怎么删除？

2026-01-08 11:00

P&ID图终极指南：掌握工艺流程图的绘制与解读

2026-01-08 11:02

小米玄戒o1是自研的吗

2026-01-08 11:04

抖音来客企业号是什么？如何申请抖音来客企业号？

2026-01-08 11:06

AI 销售助手演示：提升客户互动和业务增长

2026-01-08 11:10

Zapier Agents终极指南：AI自动化工作流程，提升效率

2026-01-08 11:15

《尖叫皇后》：ASMR沙龙背后的美发师，当心“枕边人”！

2026-01-08 11:17

Tempo.new + Supabase：AI驱动的快速应用开发指南

2026-01-08 11:21

剪映如何将画面定格

2026-01-08 11:28

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

golang结构体相关大全

golang结构体相关大全

本专题整合了golang结构体相关大全，想了解更多内容，请阅读专题下面的文章。

194

2025.06.09

golang结构体方法

golang结构体方法

本专题整合了golang结构体相关内容，请阅读专题下面的文章了解更多。

186

2025.07.04

线程和进程的区别

线程和进程的区别

线程和进程的区别：线程是进程的一部分，用于实现并发和并行操作，而线程共享进程的资源，通信更方便快捷，切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

476

2023.08.10

线程和进程的区别

线程和进程的区别

线程和进程的区别：线程是进程的一部分，用于实现并发和并行操作，而线程共享进程的资源，通信更方便快捷，切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

476

2023.08.10

golang map内存释放

golang map内存释放

本专题整合了golang map内存相关教程，阅读专题下面的文章了解更多相关内容。

73

2025.09.05

golang map相关教程

golang map相关教程

本专题整合了golang map相关教程，阅读专题下面的文章了解更多详细内容。

28

2025.11.16

golang map原理

golang map原理

本专题整合了golang map相关内容，阅读专题下面的文章了解更多详细内容。

57

2025.11.17

java判断map相关教程

java判断map相关教程

本专题整合了java判断map相关教程，阅读专题下面的文章了解更多详细内容。

34

2025.11.27

c++主流开发框架汇总

c++主流开发框架汇总

本专题整合了c++开发框架推荐，阅读专题下面的文章了解更多详细内容。

2

2026.01.09

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

Go 教程

Go 教程

共32课时 | 3.5万人学习

Go语言实战之 GraphQL

Go语言实战之 GraphQL

共10课时 | 0.8万人学习

Go语言实战-Gin+WebSocket构建IM即时聊天Demo

Go语言实战-Gin+WebSocket构建IM即时聊天Demo

共8课时 | 0.4万人学习

最新文章

更多

Go语言中select循环无法退出的原因及解决方案

如何解决 Go 编译器因 PATH 冲突导致的 GOPATH 识别失败问题

如何在 Go 中正确返回格式化的时间字符串

如何在 Go 的 html/template 中正确传递并引用基础类型变量

如何解决 Go 项目中外部包更新后函数未被识别的问题

Go语言静态类型解析：使用go/types实现AST标识符类型推断

Go语言中远程包导入失败的解决方法

如何在 Go 中正确编写和运行 net/http 相关的单元测试

Go 中如何正确通过指针参数初始化结构体指针变量

Go 中识别包内所有方法可能返回的错误类型：自动化解析与分类实践

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部