怎样用Golang构建简单爬虫实践net/http与goquery抓取网页-Golang-PHP中文网

用golang写爬虫可通过net/http发起请求并用goquery解析html实现。首先安装goquery库，使用http.get()或自定义client发送get请求获取页面内容，并设置必要的header如user-agent；接着用goquery.newdocumentfromreader()加载html文档，通过类似jquery的css选择器提取数据，如.find().text()或.attr()获取文本和属性值；最后可将结果封装进结构体以便后续处理。注意事项包括关闭响应体、处理相对url、控制请求频率及应对反爬机制等。

怎样用Golang构建简单爬虫实践net/http与goquery抓取网页

用Golang写爬虫其实挺直接的，尤其是搭配标准库

net/http

和第三方库

goquery

，基本能完成大部分网页抓取任务。重点在于理解HTTP请求流程、HTML解析方式，以及如何高效地提取目标数据。

准备工作：安装依赖

除了Go本身的基础环境外，你还需要安装

goquery

这个库，它提供了类似jQuery的语法来操作HTML文档。安装命令如下：

go get github.com/PuerkitoBio/goquery

确保你的项目里引入了

net/http

和

github.com/PuerkitoBio/goquery

这两个包。

立即学习“go语言免费学习笔记（深入）”；

发起HTTP请求：使用net/http获取页面内容

要抓取网页，首先得发起GET请求获取HTML内容。这部分可以用

net/http.Get()

快速实现，也可以自定义Client来控制超时、Header等细节。

示例代码如下：

resp, err := http.Get("https://example.com")
if err != nil {
    log.Fatal(err)
}
defer resp.Body.Close()

// 检查状态码是否为200 OK
if resp.StatusCode != 200 {
    log.Fatalf("status code error: %d %s", resp.StatusCode, resp.Status)
}

// 接下来可以将resp.Body传给goquery解析

这里需要注意几点：

Pictory

AI视频制作工具，可以通过长内容中制作简短视频

下载

一定要记得关闭Body，否则会泄露资源。
有些网站会对User-Agent做限制，这时候需要手动设置Header：

client := &http.Client{}
req, _ := http.NewRequest("GET", "https://example.com", nil)
req.Header.Set("User-Agent", "Mozilla/5.0")
resp, _ := client.Do(req)

使用goquery解析HTML并提取数据

拿到HTML之后，就可以用

goquery.NewDocumentFromReader()

来加载文档并开始查询了。比如你想提取所有

标签中的链接：

doc, err := goquery.NewDocumentFromReader(resp.Body)
if err != nil {
    log.Fatal(err)
}

doc.Find("a").Each(func(i int, s *goquery.Selection) {
    href, _ := s.Attr("href")
    fmt.Println(href)
})

你可以根据CSS选择器来定位元素，比如：

提取某个类名下的文本：
```
.Find(".title").Text()
```
获取特定属性值：
```
s.Attr("src")
```

一个常见问题是处理相对路径的URL，这时候需要用

baseURL

来拼接完整地址，或者在提取时手动处理字符串。

简单封装结构化输出

如果你希望把抓取的数据结构化保存，可以定义一个struct，然后在遍历时填充字段。例如：

type Item struct {
    Title string
    Link  string
}

var items []Item

doc.Find(".item").Each(func(i int, s *goquery.Selection) {
    title := s.Find("h2").Text()
    link, _ := s.Find("a").Attr("href")
    items = append(items, Item{Title: title, Link: link})
})

这样就能方便地后续处理，比如导出为JSON或存入数据库。