首页 > 后端开发 > Golang > 正文

使用Golang和goquery库如何实现一个抓取网页标题的网络爬虫

P粉602998670
发布: 2025-08-31 08:08:01
原创
873人浏览过
使用Golang和goquery库可轻松抓取网页标题。首先安装goquery依赖,然后通过net/http发起GET请求获取网页内容,再用goquery.NewDocumentFromReader解析HTML,利用doc.Find("title").Text()提取标题文本。示例代码展示了从https://www.php.cn/link/1536687004241eb9faeee0e227b58c60抓取标题的过程,并包含错误处理。为提高健壮性,建议设置HTTP客户端超时、添加User-Agent头以避免被屏蔽,同时检查响应状态码和Content-Type类型。该方法适用于小型爬虫或页面监控任务。

使用golang和goquery库如何实现一个抓取网页标题的网络爬虫

使用Golang和

goquery
登录后复制
库抓取网页标题非常简单。你只需要发送一个HTTP请求获取网页内容,然后用
goquery
登录后复制
解析HTML并提取
<title>
登录后复制
标签的文本即可。

安装依赖

首先确保你安装了

goquery
登录后复制
库,它依赖于
net/html
登录后复制
和第三方的
casbin/parse
登录后复制
。运行以下命令安装:

go get github.com/PuerkitoBio/goquery
登录后复制

发送HTTP请求并解析HTML

Golang标准库中的

net/http
登录后复制
可以用来发起GET请求。将响应体传给
goquery.NewDocumentFromReader
登录后复制
,就可以用jQuery风格的选择器提取数据。

以下是一个完整示例,抓取指定URL的网页标题:

立即学习go语言免费学习笔记(深入)”;

package main
<p>import (
"fmt"
"log"
"net/http"</p><pre class='brush:php;toolbar:false;'>"github.com/PuerkitoBio/goquery"
登录后复制

)

知网AI智能写作
知网AI智能写作

知网AI智能写作,写文档、写报告如此简单

知网AI智能写作 38
查看详情 知网AI智能写作

func fetchTitle(url string) { // 发起HTTP GET请求 resp, err := http.Get(url) if err != nil { log.Printf("请求失败: %v", err) return } defer resp.Body.Close()

// 确保状态码是200
if resp.StatusCode != http.StatusOK {
    log.Printf("HTTP错误: %d", resp.StatusCode)
    return
}

// 使用goquery解析响应体
doc, err := goquery.NewDocumentFromReader(resp.Body)
if err != nil {
    log.Printf("解析HTML失败: %v", err)
    return
}

// 查找title标签并获取内容
title := doc.Find("title").Text()
if title == "" {
    fmt.Println("未找到标题")
} else {
    fmt.Printf("标题: %s\n", title)
}
登录后复制

}

func main() { fetchTitle("https://www.php.cn/link/1536687004241eb9faeee0e227b58c60") }

处理常见问题

实际使用中可能遇到网络超时、重定向、非UTF-8编码等问题。可以优化请求客户端来增强健壮性:

  • 设置超时时间避免卡住
  • 检查Content-Type确保是HTML
  • 对某些网站可能需要设置User-Agent防止被屏蔽

client := &http.Client{
    Timeout: 10 * time.Second,
}
req, _ := http.NewRequest("GET", url, nil)
req.Header.Set("User-Agent", "Mozilla/5.0 (compatible; GoCrawler/1.0)")
<p>resp, err := client.Do(req)</p>
登录后复制

基本上就这些。用

goquery
登录后复制
提取网页标题简洁高效,适合小型爬虫或监控任务。

以上就是使用Golang和goquery库如何实现一个抓取网页标题的网络爬虫的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号