如何用Golang开发简易爬虫程序使用colly框架入门实战

P粉602998670

发布时间：2025-07-19 10:00:04

1144人浏览过

来源于php中文网

原创

用golang写爬虫不难，尤其使用colly框架时上手快。1. 安装colly并创建基础爬虫：执行go get github.com/gocolly/colly/v2，编写代码创建collector实例、设置回调函数、访问目标url提取页面标题；2. 抓取列表页中的链接：通过c.onhtml配合css选择器如.post-list a[href]提取详情链接，并可复用collector访问这些链接；3. 存储抓取数据：定义结构体如article保存标题和url，将结果存入变量后续导出为json或数据库；4. 防止重复抓取可通过withdomain限制域名，设置user-agent避免被屏蔽，控制并发和延迟提升大规模抓取效率，动态内容需结合chromedp等工具处理。掌握这些要点即可快速入门colly爬虫开发。

如何用Golang开发简易爬虫程序使用colly框架入门实战

用Golang写爬虫其实不难，尤其当你使用colly这个框架时，上手非常快。Colly是Go语言中最受欢迎的爬虫库之一，结构清晰、性能好，适合做数据抓取类的小项目。如果你刚接触Go和网络爬虫，这篇文章可以帮你快速入门。

安装Colly并创建一个基础爬虫

首先你得确保Go环境已经配好，然后安装colly：

go get github.com/gocolly/colly/v2

接下来是最简单的例子：访问一个网页并打印页面标题。

立即学习“go语言免费学习笔记（深入）”；

package main

import (
    "fmt"
    "github.com/gocolly/colly/v2"
)

func main() {
    // 创建一个新的Collector实例
    c := colly.NewCollector()

    // 在每次抓取页面时触发
    c.OnHTML("html", func(e *colly.HTMLElement) {
        title := e.ChildText("title")
        fmt.Println("页面标题是：", title)
    })

    // 开始请求目标URL
    c.Visit("https://example.com")
}

这段代码会访问example.com，提取它的标签内容并输出。看起来简单，但已经包含了colly的基本结构：创建collector → 设置回调函数 → 发起请求。

抓取列表页中的链接

实际开发中，我们经常需要从一个列表页里抓取多个条目的详情链接。比如新闻网站的首页，每条新闻都是一个链接。

假设你想抓取某个博客首页的所有文章链接，可以这样做：

c.OnHTML(".post-list a[href]", func(e *colly.HTMLElement) {
    link := e.Attr("href")
    fmt.Println("发现文章链接：", link)
})

这里的关键点在于选择器要准确，.post-list a[href]表示在class为post-list的容器内找所有带href属性的a标签。你可以根据实际页面结构调整选择器。

如果想进一步访问这些链接，可以用另一个collector去处理详情页，或者复用当前collector，加上限制域名等设置。

ChartAI

AI驱动的图表生成工具

下载

存储抓取到的数据

光打印出来不够实用，一般我们会把数据保存下来，比如JSON文件或数据库。

最简单的做法是定义一个结构体，把抓取结果存进去：

type Article struct {
    Title string
    URL   string
}

var articles []Article

c.OnHTML(".post-list a[href]", func(e *colly.HTMLElement) {
    link := e.Attr("href")
    title := e.Text

    articles = append(articles, Article{
        Title: title,
        URL:   link,
    })
})

之后你可以把这些数据导出成JSON，或者插入到SQLite、MySQL这样的数据库里。这部分就不展开讲了，重点还是放在爬虫本身逻辑上。

一些常见问题和建议

防止重复抓取：可以用colly.WithDomain("example.com")限制域名，避免进入无关页面。
设置User-Agent：有些网站会屏蔽默认的Go User-Agent，可以在初始化collector后加上：
```
c.UserAgent = "Mozilla/5.0 (compatible; ExampleBot/1.0; +http://example.com/bot)"
```
控制并发和限速：对于大规模抓取，可以设置最大并发数和延迟：
```
c.Limit(&colly.LimitRule{DomainGlob: "*", Parallelism: 2, Delay: 1 * time.Second})
```
处理JavaScript渲染页面：Colly本身只能抓静态HTML，无法执行JS。如果目标页面是动态加载的内容，就得考虑用其他工具配合，比如chromedp或selenium。

基本上就这些。用colly写个简易爬虫并不复杂，关键是熟悉HTML结构和CSS选择器的写法。多练几个小项目，就能掌握常见的抓取套路了。

如何在 Go 语言中使用 CSS 选择器解析 HTML 页面并提取指定元素值

如何在 Go 语言中使用 CSS 选择器解析 HTML 并提取指定元素的文本值

如何在 Go 语言中使用 CSS 选择器解析 HTML 页面并提取指定元素内容

如何在 Go 语言中使用 CSS 选择器解析 HTML 并提取指定元素内容

使用 goquery 精确匹配包含多个类名的 HTML 元素

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Golang如何实现依赖注入使用wire代码生成器最佳实践下一篇：Golang的go.sum文件有何意义理解Golang依赖校验文件的作用

作者最新文章

Win11怎么关闭防火墙_Windows Defender防火墙关闭教程

2026-01-18 19:29

抖音网页版入口_抖音电脑网页端在线访问

2026-01-18 19:30

王者荣耀怎么获得金牌银牌标志_对局评分与牌子获取标准

2026-01-18 19:30

漫蛙漫画怎么安全访问漫蛙稳定官网访问链接入口

2026-01-18 19:31

网页交互式图表怎么实现_前端图表库ECharts与D3.js教程

2026-01-18 19:32

学习通网页版入口地址汇总_学习通账号在线登录说明

2026-01-18 19:32

Windows10系统怎么查看开机记录_Win10事件查看器系统日志ID 6005

2026-01-18 19:54

Win11怎么开启自动字幕功能_Windows11辅助功能实时字幕

2026-01-18 20:02

百度浏览器网页加载图片不全怎么办百度浏览器图片加载修复

2026-01-18 20:14

悟空浏览器网页缩放比例异常怎么办悟空浏览器比例调整

2026-01-18 20:35

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

js获取数组长度的方法

在js中，可以利用array对象的length属性来获取数组长度，该属性可设置或返回数组中元素的数目，只需要使用“array.length”语句即可返回表示数组对象的元素个数的数值，也就是长度值。php中文网还提供JavaScript数组的相关下载、相关课程等内容，供大家免费下载使用。

556

2023.06.20

js刷新当前页面

js刷新当前页面的方法：1、reload方法，该方法强迫浏览器刷新当前页面，语法为“location.reload([bForceGet]) ”；2、replace方法，该方法通过指定URL替换当前缓存在历史里（客户端）的项目，因此当使用replace方法之后，不能通过“前进”和“后退”来访问已经被替换的URL，语法为“location.replace(URL) ”。php中文网为大家带来了js刷新当前页面的相关知识、以及相关文章等内容

374

2023.07.04

js四舍五入

js四舍五入的方法：1、tofixed方法，可把 Number 四舍五入为指定小数位数的数字；2、round() 方法，可把一个数字舍入为最接近的整数。php中文网为大家带来了js四舍五入的相关知识、以及相关文章等内容

732

2023.07.04

js删除节点的方法

js删除节点的方法有：1、removeChild()方法，用于从父节点中移除指定的子节点，它需要两个参数，第一个参数是要删除的子节点，第二个参数是父节点；2、parentNode.removeChild()方法，可以直接通过父节点调用来删除子节点；3、remove()方法，可以直接删除节点，而无需指定父节点；4、innerHTML属性，用于删除节点的内容。

477

2023.09.01

JavaScript转义字符

JavaScript中的转义字符是反斜杠和引号，可以在字符串中表示特殊字符或改变字符的含义。本专题为大家提供转义字符相关的文章、下载、课程内容，供大家免费下载体验。

414

2023.09.04

js生成随机数的方法

js生成随机数的方法有：1、使用random函数生成0-1之间的随机数；2、使用random函数和特定范围来生成随机整数；3、使用random函数和round函数生成0-99之间的随机整数；4、使用random函数和其他函数生成更复杂的随机数；5、使用random函数和其他函数生成范围内的随机小数；6、使用random函数和其他函数生成范围内的随机整数或小数。

991

2023.09.04

如何启用JavaScript

JavaScript启用方法有内联脚本、内部脚本、外部脚本和异步加载。详细介绍：1、内联脚本是将JavaScript代码直接嵌入到HTML标签中；2、内部脚本是将JavaScript代码放置在HTML文件的`<script>`标签中；3、外部脚本是将JavaScript代码放置在一个独立的文件；4、外部脚本是将JavaScript代码放置在一个独立的文件。

658

2023.09.12

Js中Symbol类详解

javascript中的Symbol数据类型是一种基本数据类型，用于表示独一无二的值。Symbol的特点：1、独一无二，每个Symbol值都是唯一的，不会与其他任何值相等；2、不可变性，Symbol值一旦创建，就不能修改或者重新赋值；3、隐藏性，Symbol值不会被隐式转换为其他类型；4、无法枚举，Symbol值作为对象的属性名时，默认是不可枚举的。

552

2023.09.20