0

0

如何使用Golang实现URL抓取工具_获取网页内容并解析

P粉602998670

P粉602998670

发布时间:2025-12-24 18:25:02

|

947人浏览过

|

来源于php中文网

原创

Go URL抓取工具使用net/http发起带超时、User-Agent和重试的HTTP请求,配合goquery解析HTML,支持CSS选择器提取标题与链接,自动处理重定向和编码。

如何使用golang实现url抓取工具_获取网页内容并解析

用 Golang 写一个 URL 抓取工具,核心是发起 HTTP 请求、读取响应体、解析 HTML 结构。它不依赖外部浏览器,轻量高效,适合批量采集、监控或数据预处理。

发送 HTTP 请求获取网页内容

Go 标准库 net/http 足够完成基础抓取。注意设置超时、User-Agent 和重试逻辑,避免被目标站拦截或阻塞。

  • 使用 http.Client 并配置 Timeout(如 10 秒),防止请求卡死
  • 通过 req.Header.Set("User-Agent", "...") 模拟常见浏览器标识,提升通过率
  • 对 4xx/5xx 响应或连接错误做简单重试(例如最多 2 次),但避免高频重试触发风控

解析 HTML 提取结构化数据

推荐使用开源库 github.com/PuerkitoBio/goquery(jQuery 风格 API),比原生 html 包更直观易用。

  • goquery.NewDocumentFromReader 加载响应 Body,跳过保存临时文件步骤
  • 支持 CSS 选择器:如 doc.Find("title").Text() 获取标题,doc.Find("a[href]").Each(...) 遍历所有链接
  • 提取文本时注意调用 .CleanString() 或手动 TrimSpace,去除多余换行和空白符

处理编码与重定向

中文网页常存在编码识别问题;部分站点会返回 301/302 重定向,需显式控制是否跟随。

Symanto Text Insights
Symanto Text Insights

基于心理语言学分析的数据分析和用户洞察

下载

立即学习go语言免费学习笔记(深入)”;

  • 启用自动重定向:默认 http.Client 会跟随,如需禁用,设 CheckRedirect 返回 error
  • 检测响应头 Content-Type 中的 charset(如 charset=utf-8),或用 golang.org/x/net/html/charset 自动识别 HTML 内声明的编码
  • 若页面乱码,可先用 charset.NewReaderLabel 转换 Reader,再传给 goquery

简单示例:抓取标题和外链

以下代码片段可直接运行,完成一次抓取 + 解析:

package main
import (
  "fmt"
  "log"
  "net/http"
  "time"
  "github.com/PuerkitoBio/goquery"
)
func main() {
  client := &http.Client{Timeout: 10 * time.Second}
  req, _ := http.NewRequest("GET", "https://example.com", nil)
  req.Header.Set("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) GoFetcher/1.0")
  resp, err := client.Do(req)
  if err != nil { log.Fatal(err) }
  defer resp.Body.Close()
  if resp.StatusCode != 200 { log.Fatalf("HTTP %d", resp.StatusCode) }
  doc, err := goquery.NewDocumentFromReader(resp.Body)
  if err != nil { log.Fatal(err) }
  title := doc.Find("title").Text()
  fmt.Println("Title:", title)
  doc.Find("a[href]").Each(func(i int, s *goquery.Selection) {
    href, _ := s.Attr("href")
    fmt.Printf("Link %d: %s\n", i+1, href)
  })
}

相关专题

更多
golang如何定义变量
golang如何定义变量

golang定义变量的方法:1、声明变量并赋予初始值“var age int =值”;2、声明变量但不赋初始值“var age int”;3、使用短变量声明“age :=值”等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

173

2024.02.23

golang有哪些数据转换方法
golang有哪些数据转换方法

golang数据转换方法:1、类型转换操作符;2、类型断言;3、字符串和数字之间的转换;4、JSON序列化和反序列化;5、使用标准库进行数据转换;6、使用第三方库进行数据转换;7、自定义数据转换函数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

224

2024.02.23

golang常用库有哪些
golang常用库有哪些

golang常用库有:1、标准库;2、字符串处理库;3、网络库;4、加密库;5、压缩库;6、xml和json解析库;7、日期和时间库;8、数据库操作库;9、文件操作库;10、图像处理库。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

334

2024.02.23

golang和python的区别是什么
golang和python的区别是什么

golang和python的区别是:1、golang是一种编译型语言,而python是一种解释型语言;2、golang天生支持并发编程,而python对并发与并行的支持相对较弱等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

204

2024.03.05

golang是免费的吗
golang是免费的吗

golang是免费的。golang是google开发的一种静态强类型、编译型、并发型,并具有垃圾回收功能的开源编程语言,采用bsd开源协议。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

387

2024.05.21

golang结构体相关大全
golang结构体相关大全

本专题整合了golang结构体相关大全,想了解更多内容,请阅读专题下面的文章。

193

2025.06.09

golang相关判断方法
golang相关判断方法

本专题整合了golang相关判断方法,想了解更详细的相关内容,请阅读下面的文章。

184

2025.06.10

golang数组使用方法
golang数组使用方法

本专题整合了golang数组用法,想了解更多的相关内容,请阅读专题下面的文章。

191

2025.06.17

苹果官网入口直接访问
苹果官网入口直接访问

苹果官网直接访问入口是https://www.apple.com/cn/,该页面具备0.8秒首屏渲染、HTTP/3与Brotli加速、WebP+AVIF双格式图片、免登录浏览全参数等特性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

10

2025.12.24

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.7万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 2.6万人学习

CSS教程
CSS教程

共754课时 | 16.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号