如何使用Golang实现URL抓取工具_获取网页内容并解析

P粉602998670

发布时间：2025-12-24 18:25:02

947人浏览过

来源于php中文网

原创

Go URL抓取工具使用net/http发起带超时、User-Agent和重试的HTTP请求，配合goquery解析HTML，支持CSS选择器提取标题与链接，自动处理重定向和编码。

如何使用golang实现url抓取工具_获取网页内容并解析

用 Golang 写一个 URL 抓取工具，核心是发起 HTTP 请求、读取响应体、解析 HTML 结构。它不依赖外部浏览器，轻量高效，适合批量采集、监控或数据预处理。

发送 HTTP 请求获取网页内容

Go 标准库 net/http 足够完成基础抓取。注意设置超时、User-Agent 和重试逻辑，避免被目标站拦截或阻塞。

使用 http.Client 并配置 Timeout（如 10 秒），防止请求卡死
通过 req.Header.Set("User-Agent", "...") 模拟常见浏览器标识，提升通过率
对 4xx/5xx 响应或连接错误做简单重试（例如最多 2 次），但避免高频重试触发风控

解析 HTML 提取结构化数据

推荐使用开源库 github.com/PuerkitoBio/goquery（jQuery 风格 API），比原生 html 包更直观易用。

用 goquery.NewDocumentFromReader 加载响应 Body，跳过保存临时文件步骤
支持 CSS 选择器：如 doc.Find("title").Text() 获取标题，doc.Find("a[href]").Each(...) 遍历所有链接
提取文本时注意调用 .CleanString() 或手动 TrimSpace，去除多余换行和空白符

处理编码与重定向

中文网页常存在编码识别问题；部分站点会返回 301/302 重定向，需显式控制是否跟随。

Symanto Text Insights

基于心理语言学分析的数据分析和用户洞察

下载

立即学习“go语言免费学习笔记（深入）”；

启用自动重定向：默认 http.Client 会跟随，如需禁用，设 CheckRedirect 返回 error
检测响应头 Content-Type 中的 charset（如 charset=utf-8），或用 golang.org/x/net/html/charset 自动识别 HTML 内声明的编码
若页面乱码，可先用 charset.NewReaderLabel 转换 Reader，再传给 goquery

简单示例：抓取标题和外链

以下代码片段可直接运行，完成一次抓取 + 解析：

package main
import (
  "fmt"
  "log"
  "net/http"
  "time"
  "github.com/PuerkitoBio/goquery"
)
func main() {
  client := &http.Client{Timeout: 10 * time.Second}
  req, _ := http.NewRequest("GET", "https://example.com", nil)
  req.Header.Set("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) GoFetcher/1.0")
  resp, err := client.Do(req)
  if err != nil { log.Fatal(err) }
  defer resp.Body.Close()
  if resp.StatusCode != 200 { log.Fatalf("HTTP %d", resp.StatusCode) }
  doc, err := goquery.NewDocumentFromReader(resp.Body)
  if err != nil { log.Fatal(err) }
  title := doc.Find("title").Text()
  fmt.Println("Title:", title)
  doc.Find("a[href]").Each(func(i int, s *goquery.Selection) {
    href, _ := s.Attr("href")
    fmt.Printf("Link %d: %s\n", i+1, href)
  })
}

Golang：从内存中高效服务静态文件

Go语言：将静态文件嵌入二进制并从内存提供服务

Golang内存中服务静态文件教程

如何在Golang中实现静态文件缓存_Golang 静态文件缓存示例

Go Web应用中CSS文件统一加载与管理指南

相关标签: