Golang中处理CSV文件首选encoding/csv库,它支持高效读写、流式处理大文件以避免内存溢出,并可通过bufio优化I/O性能;该库默认使用UTF-8编码,处理非UTF-8(如GBK)需借助golang.org/x/text/encoding进行转码;需注意BOM头可能导致的乱码问题,可通过预读跳过;支持自定义分隔符、处理字段数不一致、自动处理引号与转义,结合TrimLeadingSpace可去除字段前空格;最佳实践包括流式读写、及时Flush写入器、健壮的错误处理与行号记录,确保数据解析的稳定性与可维护性。

在Golang中处理CSV文件,
encoding/csv
CSV文件读取
从CSV文件读取数据通常涉及打开文件、创建
csv.Reader
package main
import (
"encoding/csv"
"fmt"
"io"
"os"
"strconv" // 假设需要转换数字
)
type Product struct {
ID int
Name string
Price float64
}
func readCSVFile(filePath string) ([]Product, error) {
file, err := os.Open(filePath)
if err != nil {
return nil, fmt.Errorf("无法打开文件: %w", err)
}
defer file.Close()
reader := csv.NewReader(file)
// 如果CSV文件没有表头,或者你不需要跳过,可以移除这一行
// reader.FieldsPerRecord = -1 // 允许每行字段数不一致
// reader.Comma = ';' // 如果分隔符不是逗号,可以设置
// 读取表头(可选)
header, err := reader.Read()
if err != err && err != io.EOF { // io.EOF表示文件为空或只有一行,但Read()会返回nil,io.EOF
return nil, fmt.Errorf("读取表头失败: %w", err)
}
fmt.Printf("表头: %v\n", header) // 打印表头,方便调试
var products []Product
for {
record, err := reader.Read()
if err == io.EOF {
break // 文件读取完毕
}
if err != nil {
return nil, fmt.Errorf("读取CSV记录失败: %w", err)
}
// 假设CSV格式为 ID,Name,Price
if len(record) < 3 {
// 这里可以根据实际情况选择跳过、报错或者赋予默认值
fmt.Printf("警告:跳过格式不正确的行: %v\n", record)
continue
}
id, err := strconv.Atoi(record[0])
if err != nil {
fmt.Printf("警告:ID转换失败,跳过行: %v, 错误: %v\n", record, err)
continue
}
price, err := strconv.ParseFloat(record[2], 64)
if err != nil {
fmt.Printf("警告:Price转换失败,跳过行: %v, 错误: %v\n", record, err)
continue
}
products = append(products, Product{
ID: id,
Name: record[1],
Price: price,
})
}
return products, nil
}
// 示例用法
/*
func main() {
// 假设有一个 test.csv 文件,内容如下:
// ID,Name,Price
// 1,Apple,1.23
// 2,Banana,0.79
// 3,Orange,2.50
products, err := readCSVFile("test.csv")
if err != nil {
fmt.Println("读取CSV失败:", err)
return
}
for _, p := range products {
fmt.Printf("产品ID: %d, 名称: %s, 价格: %.2f\n", p.ID, p.Name, p.Price)
}
}
*/CSV文件写入
立即学习“go语言免费学习笔记(深入)”;
将数据写入CSV文件,需要创建
csv.Writer
Write
WriteAll
package main
import (
"encoding/csv"
"fmt"
"os"
"strconv"
)
// Product 结构体同上
func writeCSVFile(filePath string, products []Product) error {
file, err := os.Create(filePath)
if err != nil {
return fmt.Errorf("无法创建文件: %w", err)
}
defer file.Close()
writer := csv.NewWriter(file)
// writer.Comma = ';' // 如果需要使用其他分隔符
// 写入表头
header := []string{"ID", "Name", "Price"}
if err := writer.Write(header); err != nil {
return fmt.Errorf("写入CSV表头失败: %w", err)
}
for _, p := range products {
record := []string{
strconv.Itoa(p.ID),
p.Name,
strconv.FormatFloat(p.Price, 'f', 2, 64), // 保留两位小数
}
if err := writer.Write(record); err != nil {
return fmt.Errorf("写入CSV记录失败: %w", err)
}
}
// 刷新缓冲区,确保所有数据都已写入文件
writer.Flush()
if err := writer.Error(); err != nil {
return fmt.Errorf("刷新CSV写入器失败: %w", err)
}
return nil
}
// 示例用法
/*
func main() {
productsToWrite := []Product{
{ID: 101, Name: "Milk", Price: 3.50},
{ID: 102, Name: "Bread", Price: 2.10},
}
err := writeCSVFile("output.csv", productsToWrite)
if err != nil {
fmt.Println("写入CSV失败:", err)
return
}
fmt.Println("数据已成功写入 output.csv")
}
*/在处理大型CSV文件时,最常见的陷阱就是一次性将所有数据加载到内存中,这很容易导致内存溢出(OOM)。我记得有一次,一个客户给了我一个几十GB的日志CSV,我当时没多想,直接用了
reader.ReadAll()
encoding/csv
reader.Read()
reader.Read()
io.EOF
// 优化后的 readCSVFile 函数片段,已经体现了流式读取
// ...
for {
record, err := reader.Read() // 每次只读取一行
if err == io.EOF {
break // 文件读取完毕
}
if err != nil {
return nil, fmt.Errorf("读取CSV记录失败: %w", err)
}
// 处理 record
// ...
}
// ...此外,结合
bufio
bufio.NewReader
os.Open
*os.File
bufio.NewReader
// 结合 bufio 的读取示例
import (
"bufio"
"encoding/csv"
"os"
// ...
)
func readCSVWithBuffer(filePath string) error {
file, err := os.Open(filePath)
if err != nil {
return fmt.Errorf("无法打开文件: %w", err)
}
defer file.Close()
// 使用 bufio.NewReader 包装文件读取器
bufferedReader := bufio.NewReader(file)
reader := csv.NewReader(bufferedReader)
// ... 后续读取逻辑与之前类似
for {
record, err := reader.Read()
if err == io.EOF {
break
}
if err != nil {
return fmt.Errorf("读取CSV记录失败: %w", err)
}
fmt.Println(record)
}
return nil
}对于写入大型CSV文件,同样推荐使用流式写入,即逐行调用
writer.Write()
[][]string
writer.WriteAll()
csv.Writer
writer.Flush()
io.Writer
Flush()
CSV文件的编码问题,尤其是非UTF-8编码,是处理这类数据时最让人头疼的“老大难”。
encoding/csv
encoding/csv
我记得有一次从老旧系统导出的CSV文件,打开一看全是乱码,排查了半天才发现是GBK编码。那时候,我不得不引入
golang.org/x/text/encoding
以下是一个处理GBK编码CSV文件的示例:
package main
import (
"encoding/csv"
"fmt"
"io"
"os"
"golang.org/x/text/encoding/simplifiedchinese"
"golang.org/x/text/transform"
)
func readGBKCSV(filePath string) ([][]string, error) {
file, err := os.Open(filePath)
if err != nil {
return nil, fmt.Errorf("无法打开文件: %w", err)
}
defer file.Close()
// 创建一个GBK解码器
decoder := simplifiedchinese.GBK.NewDecoder()
// 使用 transform.NewReader 将文件内容通过解码器转换
// 这样,csv.NewReader 接收到的就是 UTF-8 编码的流了
reader := csv.NewReader(transform.NewReader(file, decoder))
allRecords, err := reader.ReadAll() // 这里为了示例方便,ReadAll,实际大文件仍需流式
if err != nil {
return nil, fmt.Errorf("读取GBK编码CSV失败: %w", err)
}
return allRecords, nil
}
func writeGBKCSV(filePath string, records [][]string) error {
file, err := os.Create(filePath)
if err != nil {
return fmt.Errorf("无法创建文件: %w", err)
}
defer file.Close()
// 创建一个GBK编码器
encoder := simplifiedchinese.GBK.NewEncoder()
// 使用 transform.NewWriter 将写入的数据通过编码器转换
writer := csv.NewWriter(transform.NewWriter(file, encoder))
if err := writer.WriteAll(records); err != nil {
return fmt.Errorf("写入GBK编码CSV失败: %w", err)
}
writer.Flush()
if err := writer.Error(); err != nil {
return fmt.Errorf("刷新GBK CSV写入器失败: %w", err)
}
return nil
}
/*
func main() {
// 假设有一个gbk.csv文件,内容是GBK编码的中文
// Name,City
// 张三,北京
// 李四,上海
records, err := readGBKCSV("gbk.csv")
if err != nil {
fmt.Println("读取GBK CSV失败:", err)
return
}
for _, record := range records {
fmt.Println(record) // 此时输出的中文应该是正常的UTF-8
}
// 写入一个GBK编码的CSV
data := [][]string{
{"姓名", "城市"},
{"王五", "广州"},
{"赵六", "深圳"},
}
err = writeGBKCSV("output_gbk.csv", data)
if err != nil {
fmt.Println("写入GBK CSV失败:", err)
return
}
fmt.Println("GBK编码数据已成功写入 output_gbk.csv")
}
*/另一个需要注意的陷阱是BOM(Byte Order Mark)。某些文本编辑器在保存UTF-8文件时会添加一个BOM头(
\xEF\xBB\xBF
encoding/csv
// 检查并跳过BOM的Reader
func NewBOMStripperReader(r io.Reader) io.Reader {
bom := []byte{0xEF, 0xBB, 0xBF}
buf := make([]byte, 3)
n, err := io.ReadAtLeast(r, buf, 3)
if err != nil && err != io.EOF {
return r // 如果读取失败或者文件太小,就原样返回
}
if n >= 3 && buf[0] == bom[0] && buf[1] == bom[1] && buf[2] == bom[2] {
return r // 已经跳过BOM
}
// 如果没有BOM,需要把读出来的3个字节再放回去
return io.MultiReader(io.NopCloser(bytes.NewReader(buf[:n])), r)
}
// 使用示例:
// file, _ := os.Open("utf8_with_bom.csv")
// defer file.Close()
// reader := csv.NewReader(NewBOMStripperReader(file))
// ...不过,更常见的做法是直接用
bufio.Reader
Peek
Discard
io.MultiReader
encoding/csv
encoding/csv
1. 自定义分隔符(Comma
;
\t
|
csv.Reader
csv.Writer
Comma
// 读取分号分隔的CSV reader := csv.NewReader(file) reader.Comma = ';' // 写入制表符分隔的TSV writer := csv.NewWriter(file) writer.Comma = '\t'
2. 处理每行字段数不一致的情况(FieldsPerRecord
csv.Reader
ErrFieldCount
reader.FieldsPerRecord
-1
reader
reader := csv.NewReader(file) reader.FieldsPerRecord = -1 // 允许每行字段数不一致
当然,这只是让读取不报错,后续的数据处理逻辑仍需自行判断
len(record)
3. 处理引号和转义字符
encoding/csv
例如,如果你写入
"Hello, "World"!"
"Hello, ""World""!"
4. 忽略行首空格(TrimLeadingSpace
reader.TrimLeadingSpace
true
reader := csv.NewReader(file) reader.TrimLeadingSpace = true // 自动去除字段前的空格
5. 最佳实践:错误处理与日志记录 在实际项目中,CSV文件往往是外部输入,数据质量参差不齐。因此,健壮的错误处理至关重要。
// 错误处理示例(在读取函数中)
for lineNum := 1; ; lineNum++ { // 加上行号方便定位
record, err := reader.Read()
if err == io.EOF {
break
}
if err != nil {
fmt.Printf("错误:读取CSV第%d行失败: %v\n", lineNum, err)
// 记录错误,可能继续处理下一行,或者直接返回
continue // 或者 return nil, fmt.Errorf(...)
}
// ... 数据处理逻辑 ...
if len(record) < expectedFields {
fmt.Printf("警告:第%d行字段数不足,跳过: %v\n", lineNum, record)
continue
}
// ... 字段类型转换错误处理 ...
}总之,
encoding/csv
以上就是Golang encoding/csv库CSV文件读写与解析的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号