使用 Go 进行 XML 反序列化提取 HTML 图片链接-Golang-PHP中文网

使用 Go 进行 XML 反序列化提取 HTML 图片链接

心靈之曲

发布： 2025-09-17 16:26:23

原创

1048人浏览过

使用 go 进行 xml 反序列化提取 html 图片链接

本文介绍了如何使用 Go 语言解析 HTML 文档，并提取其中 <img> 标签的 src 属性值。我们将探讨使用 exp/html 包来解析 HTML 结构，并展示如何通过遍历节点树来定位目标属性，从而实现图片链接的提取。本文旨在为 Go 开发者提供一种解析 HTML 并提取特定信息的实用方法。

使用 exp/html 包解析 HTML 并提取图片链接

Go 语言的标准库并没有提供强大的 HTML 解析功能，但 exp/html 包提供了一种解析 HTML 的方式。虽然 exp/html 被标记为实验性，但它仍然可以用来解析简单的 HTML 结构。

以下是一个使用 exp/html 包从 HTML 字符串中提取 <img> 标签的 src 属性值的示例代码：

package main

import (
    "fmt"
    "strings"

    "golang.org/x/net/html"
)

func main() {
    htmlString := `<div><div><img src="hello.png"/></div></div>`

    doc, err := html.Parse(strings.NewReader(htmlString))
    if err != nil {
        fmt.Println("Error parsing HTML:", err)
        return
    }

    var f func(*html.Node)
    f = func(n *html.Node) {
        if n.Type == html.ElementNode && n.Data == "img" {
            for _, a := range n.Attr {
                if a.Key == "src" {
                    fmt.Println("Image Source:", a.Val)
                    return // 找到第一个 src 就返回
                }
            }
        }
        for c := n.FirstChild; c != nil; c = c.NextSibling {
            f(c)
        }
    }
    f(doc)
}

登录后复制

代码解释：

立即学习“前端免费学习笔记（深入）”；

存了个图

视频图片解析/字幕/剪辑，视频高清保存/图片源图提取

查看详情

导入必要的包： fmt 用于打印输出，strings 用于处理字符串，golang.org/x/net/html 用于解析 HTML。注意这里需要使用go get golang.org/x/net/html安装依赖。
HTML 字符串： 定义包含 <img> 标签的 HTML 字符串。
解析 HTML： 使用 html.Parse 函数将 HTML 字符串解析为 html.Node 类型的文档树。
递归函数 f： 定义一个递归函数 f，用于遍历文档树。
- 检查节点类型和标签名： 如果当前节点是元素节点（html.ElementNode）且标签名是 "img"，则遍历其属性。
- 查找 src 属性： 如果找到 src 属性，则打印其值并返回。
- 递归遍历子节点： 递归调用 f 函数遍历当前节点的所有子节点。
调用递归函数： 从文档根节点开始调用 f 函数。

运行结果：

Image Source: hello.png

登录后复制

注意事项：

golang.org/x/net/html 包会根据 HTML5 规范构建完整的 HTML 树，因此可能包含 <html>、<head>、<body> 等标签。
上述代码使用递归方式遍历 HTML 树，适用于简单的 HTML 结构。对于复杂的 HTML 结构，可能需要更复杂的遍历逻辑。
如果 HTML 中存在多个 <img> 标签，上述代码只会提取第一个 src 属性值。如果需要提取所有 src 属性值，需要修改代码。
由于golang.org/x/net/html包的特性，对于不完整的HTML，可能会自动补全标签，因此在查找特定节点时，需要注意HTML的结构。

总结：

使用 golang.org/x/net/html 包可以方便地解析 HTML 文档，并通过遍历节点树来提取特定的信息，例如 <img> 标签的 src 属性值。这种方法适用于简单的 HTML 结构，对于复杂的 HTML 结构，可能需要更复杂的处理逻辑。此外，还可以考虑使用更强大的 HTML 解析库，例如 goquery，它提供了更方便的 CSS 选择器语法来定位 HTML 元素。

以上就是使用 Go 进行 XML 反序列化提取 HTML 图片链接的详细内容，更多请关注php中文网其它相关文章！