Go语言：从Reader中按多字节字符串分隔符读取数据-Golang-PHP中文网

Go语言：从Reader中按多字节字符串分隔符读取数据

本文探讨如何在go语言中，从实现了`readstring`接口的读取器（如`bufio.reader`）中，高效地读取数据直到遇到一个特定的多字节字符串分隔符，并返回该分隔符之前的内容。通过迭代地读取直到分隔符的最后一个字节，并结合`bytes.hassuffix`检查完整分隔符，我们提供了一个通用的解决方案，并附带了详细的代码示例和使用说明。

需求背景与挑战

在Go语言中，标准库bufio.Reader提供了一个ReadString(delim byte)方法，可以方便地从读取器中读取数据直到遇到指定的单个字节分隔符，并返回分隔符之前的内容。然而，在实际应用中，我们经常会遇到需要使用多字节字符串作为分隔符的场景，例如HTTP协议中的\r\n\r\n，或者自定义协议中的特定终止序列。此时，ReadString方法就无法直接满足需求。

我们需要一个功能，类似于ReadString，但能够接受一个[]byte或string作为分隔符，并返回分隔符之前的所有数据。

解决方案概述

解决这个问题的核心思路是：

迭代读取： 利用ReadString方法读取直到分隔符的最后一个字节。
累积数据： 将每次读取到的数据累积到一个缓冲区中。
后缀检查： 每次累积后，检查当前缓冲区是否以完整的、多字节的分隔符结尾。
截断返回： 如果检测到完整的分隔符，则将分隔符之前的数据返回。

这种方法避免了逐字节读取的低效率，同时利用了ReadString在内部的优化。

立即学习“go语言免费学习笔记（深入）”；

核心实现

我们定义一个通用的read函数，它接受一个实现了ReadString接口的读取器和一个[]byte类型的多字节分隔符。

package main

import (
    "bytes"
    "fmt"
    "io" // 导入io包以使用io.EOF
    "log"
)

// 定义一个接口，确保传入的读取器具有ReadString方法
type reader interface {
    ReadString(delim byte) (line string, err error)
}

// read 函数从读取器r中读取数据，直到遇到完整的delim分隔符
// 返回分隔符之前的数据，不包含分隔符本身
func read(r reader, delim []byte) (line []byte, err error) {
    // 检查分隔符是否为空，空分隔符会导致逻辑错误
    if len(delim) == 0 {
        return nil, fmt.Errorf("delimiter cannot be empty")
    }

    // 获取分隔符的最后一个字节，用于ReadString
    lastDelimByte := delim[len(delim)-1]

    for {
        // 使用ReadString读取直到分隔符的最后一个字节
        s, readErr := r.ReadString(lastDelimByte)
        if readErr != nil && readErr != io.EOF {
            // 遇到非EOF错误，直接返回
            return nil, readErr
        }

        // 将读取到的字符串转换为字节切片并追加到累积的line中
        line = append(line, []byte(s)...)

        // 检查累积的line是否以完整的delim分隔符结尾
        if bytes.HasSuffix(line, delim) {
            // 如果是，则返回分隔符之前的部分
            return line[:len(line)-len(delim)], nil
        }

        // 如果ReadString返回了EOF，但我们还没有找到完整的delim，
        // 并且当前line不以delim结尾，说明数据已经读完，但没有找到分隔符。
        // 此时，根据具体需求，可以选择返回已读取的所有数据或返回错误。
        // 此处选择返回已读取的所有数据，并附带EOF错误。
        if readErr == io.EOF {
            return line, io.EOF
        }
    }
}

登录后复制

代码解析

type reader interface { ReadString(delim byte) (line string, err error) }:
- 我们定义了一个名为reader的接口。这个接口只包含一个ReadString方法，与bufio.Reader的同名方法签名一致。
- 这样做的好处是，我们的read函数可以接受任何实现了这个reader接口的类型，提高了代码的通用性和可测试性。bufio.Reader和bytes.Buffer（虽然bytes.Buffer没有直接实现ReadString，但可以包装使其实现，或者直接使用其ReadBytes等方法，这里为了示例方便，假设它可以作为ReadString的源）都可以作为这个reader接口的实现。
func read(r reader, delim []byte) (line []byte, err error):
- 这是核心函数，接收一个reader接口实例和多字节分隔符delim。
- line用于累积从读取器中获取的数据。
lastDelimByte := delim[len(delim)-1]:
- 获取多字节分隔符的最后一个字节。ReadString方法将以此字节作为其内部的终止条件。
for { ... }:

怪兽AI数字人
数字人短视频创作，数字人直播，实时驱动数字人

44

查看详情
- 一个无限循环，直到找到分隔符或遇到错误。
s, readErr := r.ReadString(lastDelimByte):
- 每次循环，ReadString会从读取器r中读取数据，直到遇到lastDelimByte或文件结束。
- s包含了读取到的数据，包括lastDelimByte。
if readErr != nil && readErr != io.EOF { return nil, readErr }:
- 处理ReadString可能返回的错误。如果是非io.EOF的错误，则立即返回。
line = append(line, []byte(s)...):
- 将ReadString返回的字符串s转换为字节切片，并追加到line切片中。line切片现在包含了从开始读取到当前lastDelimByte的所有数据。
if bytes.HasSuffix(line, delim) { return line[:len(line)-len(delim)], nil }:
- 这是关键的检查步骤。bytes.HasSuffix函数会检查line切片是否以完整的delim切片作为后缀。
- 如果匹配成功，说明我们找到了完整的分隔符。此时，我们返回line切片中不包含分隔符的部分（line[:len(line)-len(delim)]），并返回nil表示成功。
if readErr == io.EOF { return line, io.EOF }:
- 如果ReadString返回了io.EOF，但我们尚未通过bytes.HasSuffix找到完整的分隔符，这表示源数据已经读完。在这种情况下，我们返回目前累积的所有数据，并告知调用者已经到达文件末尾。根据具体业务需求，这里也可以选择返回一个错误（例如fmt.Errorf("delimiter not found before EOF")）。

示例用法

为了演示如何使用read函数，我们创建一个main函数，并使用bytes.Buffer作为数据源。bytes.Buffer虽然没有直接实现ReadString，但可以通过bufio.NewReader进行包装，或者在测试场景中，我们可以让bytes.Buffer直接作为io.Reader，并配合bufio.Reader使用。为了简化，这里我们直接让bytes.Buffer作为源，并通过一个简单的包装来满足reader接口，或者直接使用bufio.NewReader来创建reader实例。

package main

import (
    "bufio" // 导入bufio包
    "bytes"
    "fmt"
    "io"
    "log"
)

// 定义一个接口，确保传入的读取器具有ReadString方法
type reader interface {
    ReadString(delim byte) (line string, err error)
}

// read 函数从读取器r中读取数据，直到遇到完整的delim分隔符
// 返回分隔符之前的数据，不包含分隔符本身
func read(r reader, delim []byte) (line []byte, err error) {
    if len(delim) == 0 {
        return nil, fmt.Errorf("delimiter cannot be empty")
    }
    lastDelimByte := delim[len(delim)-1]

    for {
        s, readErr := r.ReadString(lastDelimByte)
        if readErr != nil && readErr != io.EOF {
            return nil, readErr
        }

        line = append(line, []byte(s)...)

        if bytes.HasSuffix(line, delim) {
            return line[:len(line)-len(delim)], nil
        }

        if readErr == io.EOF {
            return line, io.EOF
        }
    }
}

func main() {
    // 构造一个包含多个分隔符的数据源
    // 注意：这里的"delim"是我们的多字节分隔符
    src := bytes.NewBufferString("123deli456elim789delimABCdelimDEF")
    // 使用bufio.NewReader包装bytes.Buffer，使其实现ReadString方法
    bufferedSrc := bufio.NewReader(src)

    fmt.Println("开始读取数据:")
    for {
        // 调用read函数，使用"delim"作为多字节分隔符
        b, err := read(bufferedSrc, []byte("delim"))

        // 处理EOF错误：当所有数据都读取完毕后，read函数会返回io.EOF
        if err == io.EOF {
            // 如果在EOF之前还有未处理的数据（即最后一段数据不以分隔符结尾），
            // 也会被返回。这里打印并退出循环。
            if len(b) > 0 {
                fmt.Printf("剩余数据 (EOF): %q\n", b)
            }
            fmt.Println("所有数据已读取完毕。")
            break
        }
        // 处理其他非EOF错误
        if err != nil {
            log.Fatalf("读取错误: %v", err)
        }

        // 打印成功读取到的数据（不包含分隔符）
        fmt.Printf("读取到: %q\n", b)
    }
}

登录后复制

运行结果

开始读取数据:
读取到: "123deli456elim789"
读取到: "ABC"
剩余数据 (EOF): "DEF"
所有数据已读取完毕。

登录后复制

从输出可以看出：

第一次调用read，成功读取到"123deli456elim789"，因为后面跟着第一个"delim"。
第二次调用read，成功读取到"ABC"，因为后面跟着第二个"delim"。
第三次调用read，源中只剩下"DEF"，且没有"delim"分隔符。此时read函数会返回"DEF"以及io.EOF错误，表示数据已读完。

注意事项与优化

错误处理： 示例代码中包含了对io.EOF和其他读取错误的判断。在实际应用中，需要根据具体业务逻辑妥善处理这些错误。特别是当io.EOF发生时，如果read函数返回的数据不为空，说明在文件末尾没有找到完整的分隔符，但仍有部分数据需要处理。
效率考量：
- ReadString内部通常有缓冲机制，效率较高。
- bytes.HasSuffix在每次循环中都会被调用，其性能取决于line切片的长度和delim切片的长度。对于非常大的数据块或非常频繁的调用，如果line切片变得非常长，HasSuffix的开销可能会增加。
- 对于极高性能要求的场景，或者分隔符很长且数据流非常大的情况，可能需要更复杂的、基于有限状态机的解析器来避免重复扫描已读取的数据。然而，对于大多数常见用例，本方案的性能是足够的。
分隔符为空： 在read函数中增加了对空分隔符的检查，避免运行时错误。
接口的灵活性： 使用reader接口而不是直接指定*bufio.Reader，使得我们的read函数更加通用，可以应用于任何实现该接口的类型。
内存管理： line切片会随着数据读取而增长。如果预期读取的数据非常大，可能需要考虑预分配切片容量或使用其他流式处理方法来避免频繁的内存重新分配。

总结

通过巧妙地结合bufio.Reader的ReadString方法和bytes.HasSuffix函数，我们成功地实现了一个能够在Go语言中按多字节字符串分隔符读取数据的功能。这种方法在保证了较高效率的同时，也保持了代码的简洁性和可读性。理解其背后的原理和注意事项，将有助于在实际项目中更灵活地处理各种数据流解析任务。

以上就是Go语言：从Reader中按多字节字符串分隔符读取数据的详细内容，更多请关注php中文网其它相关文章！