从 XML 解码 HTML 图片链接：Go 语言实践教程-Golang-PHP中文网

从 XML 解码 HTML 图片链接：Go 语言实践教程

聖光之護

发布： 2025-09-17 16:18:01

原创

715人浏览过

从 xml 解码 html 图片链接：go 语言实践教程

本教程旨在介绍如何使用 Go 语言从包含 HTML 片段的 XML 数据中提取图片链接。我们将探讨使用 exp/html 包解析 HTML 结构，并展示如何通过遍历节点树来定位并获取 img 标签的 src 属性值。通过示例代码，你将学会如何有效地处理 HTML 数据，提取所需信息。

在 Go 语言中，直接使用 encode/xml 包以简洁的结构体定义来提取深层嵌套的 HTML 标签属性，例如 <div><div><img src="hello.png"/></div></div> 中的 src 属性，可能并不直接可行。encode/xml 主要用于处理结构化的 XML 数据，而 HTML 通常需要更灵活的解析方式。

一种有效的解决方案是利用 Go 语言的 exp/html 包，该包提供了 HTML 解析的功能。虽然它不能像理想中的那样直接通过结构体标签实现，但它允许我们解析 HTML 结构并遍历节点树，从而找到目标 img 标签并提取其 src 属性。

以下是一个示例代码，展示了如何使用 exp/html 包来提取图片链接：

立即学习“前端免费学习笔记（深入）”；

ViiTor实时翻译

AI实时多语言翻译专家！强大的语音识别、AR翻译功能。

116

查看详情

package main

import (
    "exp/html"
    "fmt"
    "strings"
)

func main() {
    htmlString := `<div><div><img src="hello.png"/></div></div>`
    imgSrc, err := extractImageSrc(htmlString)
    if err != nil {
        fmt.Println("Error:", err)
        return
    }
    fmt.Println("Image Source:", imgSrc)
}

func extractImageSrc(htmlString string) (string, error) {
    doc, err := html.Parse(strings.NewReader(htmlString))
    if err != nil {
        return "", err
    }

    var f func(*html.Node) string
    f = func(n *html.Node) string {
        if n.Type == html.ElementNode && n.Data == "img" {
            for _, a := range n.Attr {
                if a.Key == "src" {
                    return a.Val
                }
            }
        }
        for c := n.FirstChild; c != nil; c = c.NextSibling {
            result := f(c)
            if result != "" {
                return result
            }
        }
        return ""
    }

    return f(doc), nil
}

登录后复制

代码解释：

extractImageSrc 函数： 接收 HTML 字符串作为输入，并返回提取的图片链接。
html.Parse： 使用 html.Parse 函数将 HTML 字符串解析为 HTML 节点树。
递归遍历： 定义一个递归函数 f，用于遍历 HTML 节点树。
查找 img 标签： 在遍历过程中，检查当前节点是否为 img 元素。
提取 src 属性： 如果找到 img 元素，则遍历其属性，查找 src 属性并返回其值。
递归调用： 如果当前节点不是 img 元素，则递归调用 f 函数，遍历其子节点。

注意事项：

exp/html 包构造了一个完整的 HTML5 树，这意味着即使你的输入只是一个 HTML 片段，它也会被包装在 <html>, <head>, <body> 等标签中。因此，直接访问 FirstChild 和 NextSibling 可能会导致代码脆弱，依赖于 HTML 结构的特定形式。
上述示例使用了递归方法来遍历节点树。对于非常大的 HTML 文档，这可能会导致性能问题。在实际应用中，可以考虑使用迭代方法或第三方 HTML 解析库来提高性能。
错误处理至关重要。在解析 HTML 和访问节点属性时，应始终检查错误，以确保程序的健壮性。

总结：

虽然 encode/xml 包不能直接满足提取深层嵌套 HTML 属性的需求，但 exp/html 包提供了一种灵活的方式来解析 HTML 结构并提取所需信息。通过遍历节点树，我们可以定位到目标 img 标签并获取其 src 属性。在实际应用中，需要注意 HTML 结构的完整性，并进行适当的错误处理。此外，还可以考虑使用更成熟的 HTML 解析库，如 net/html 或第三方库，以获得更好的性能和更丰富的功能。

以上就是从 XML 解码 HTML 图片链接：Go 语言实践教程的详细内容，更多请关注php中文网其它相关文章！