首页 > 后端开发 > Golang > 正文

在 Go 中读取非 UTF-8 编码的文本文件

聖光之護
发布: 2025-09-01 17:37:01
原创
251人浏览过

在 go 中读取非 utf-8 编码的文本文件

在 Go 语言中,处理非 UTF-8 编码的文本文件是一个常见的需求。虽然 Go 的标准库默认采用 UTF-8 编码,但是通过 golang.org/x/text 项目提供的工具,我们可以方便地读取和写入其他编码格式的文件,例如 GBK、Big5 等。

使用 golang.org/x/text/encoding 包

golang.org/x/text/encoding 包定义了字符编码的接口,可以实现 UTF-8 与其他编码格式之间的转换。而 golang.org/x/text/encoding/simplifiedchinese 子包则提供了 GBK、GB18030 和 HZ-GB2312 等编码的具体实现。

以下是一个读取和写入 GBK 编码文件的示例:

package main

import (
    "bufio"
    "fmt"
    "log"
    "os"

    "golang.org/x/text/encoding/simplifiedchinese"
    "golang.org/x/text/transform"
)

// 编码方式,这里选择 GBK。可以根据需要替换为其他编码,例如 traditionalchinese.Big5
var enc = simplifiedchinese.GBK

func main() {
    const filename = "example_GBK_file"
    exampleWriteGBK(filename)
    exampleReadGBK(filename)
}

func exampleReadGBK(filename string) {
    // 从 GBK 编码的文件中读取 UTF-8 文本。
    f, err := os.Open(filename)
    if err != nil {
        log.Fatal(err)
    }
    defer f.Close()

    // 使用 transform.NewReader 将 GBK 转换为 UTF-8
    r := transform.NewReader(f, enc.NewDecoder())

    // 从 r 中读取转换后的 UTF-8 数据。
    // 这里以逐行读取为例:
    sc := bufio.NewScanner(r)
    for sc.Scan() {
        fmt.Printf("Read line: %s\n", sc.Text()) // 使用 sc.Text() 获取 UTF-8 字符串
    }
    if err := sc.Err(); err != nil {
        log.Fatal(err)
    }
}

func exampleWriteGBK(filename string) {
    // 将 UTF-8 文本写入 GBK 编码的文件。
    f, err := os.Create(filename)
    if err != nil {
        log.Fatal(err)
    }
    defer f.Close()

    // 使用 transform.NewWriter 将 UTF-8 转换为 GBK
    w := transform.NewWriter(f, enc.NewEncoder())

    // 将 UTF-8 数据写入 w。
    _, err = fmt.Fprintln(w,
        `In 1995, China National Information Technology Standardization
Technical Committee set down the Chinese Internal Code Specification
(Chinese: 汉字内码扩展规范(GBK); pinyin: Hànzì Nèimǎ
Kuòzhǎn Guīfàn (GBK)), Version 1.0, known as GBK 1.0, which is a
slight extension of Codepage 936. The newly added 95 characters were not
found in GB 13000.1-1993, and were provisionally assigned Unicode PUA
code points.`)
    if err != nil {
        log.Fatal(err)
    }
}
登录后复制

代码解释:

电子手机配件网站源码1.0
电子手机配件网站源码1.0

电子手机配件网站源码是一个响应式的织梦网站模板,软件兼容主流浏览器,且可以在PC端和手机端中进行浏览。模板包含安装说明,并包含测试数据。本模板基于DEDECms 5.7 UTF-8设计,需要GBK版本的请自己转换。模板安装方法:1、下载最新的织梦dedecms5.7 UTF-8版本。2、解压下载的织梦安装包,得到docs和uploads两个文件夹,请将uploads里面的所有文件和文件夹上传到你的

电子手机配件网站源码1.0 0
查看详情 电子手机配件网站源码1.0
  1. 导入必要的包: 引入了 bufio, fmt, log, os, golang.org/x/text/encoding/simplifiedchinese, 和 golang.org/x/text/transform 等包。
  2. 定义编码器: enc := simplifiedchinese.GBK 定义了要使用的编码器。这里使用了 GBK 编码。你可以根据需要更改为其他编码,例如 simplifiedchinese.GB18030 或 traditionalchinese.Big5。
  3. 创建 Reader/Writer: transform.NewReader(f, enc.NewDecoder()) 创建了一个 io.Reader,它会将从文件 f 读取的 GBK 编码数据转换为 UTF-8 编码。 transform.NewWriter(f, enc.NewEncoder()) 创建了一个 io.Writer,它会将写入到文件 f 的 UTF-8 编码数据转换为 GBK 编码。
  4. 读取/写入数据: 使用 bufio.NewScanner 逐行读取转换后的 UTF-8 数据,或者使用 fmt.Fprintln 将 UTF-8 数据写入转换器。

注意事项:

  • 确保安装 golang.org/x/text 包。 可以使用 go get golang.org/x/text 命令安装。
  • transform.NewReader 和 transform.NewWriter 在数据读取/写入时进行实时编码转换。
  • 在读取文件时,使用 sc.Text() 获取 UTF-8 字符串,而不是 sc.Bytes()。

总结:

通过使用 golang.org/x/text/encoding 包,Go 语言可以方便地处理各种字符编码的文本文件,无需依赖额外的 C 库。只需选择合适的编码器,并使用 transform.NewReader 和 transform.NewWriter 进行转换,即可实现编码的自动转换。 这使得 Go 语言在处理国际化和本地化相关的问题时更加灵活和强大。

以上就是在 Go 中读取非 UTF-8 编码的文本文件的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号