在go语言中处理csv文件首选标准库encoding/csv。1. 读取csv文件时,使用csv.newreader配合os.open打开文件,通过readall()一次性读取或read()逐行处理,适合小文件或内存受限的大型文件。2. 写入csv文件时,使用csv.newwriter结合os.create创建文件,通过write()逐行或writeall()批量写入数据,最后调用flush()确保数据写入磁盘。3. 处理大型csv文件应避免一次性读取,改用read()循环逐行处理,降低内存占用,必要时可结合goroutines并行处理。4. 解决csv编码问题,可在读取前使用golang.org/x/text/transform和对应编码包(如simplifiedchinese.gbk)将输入流转换为utf-8。5. 高级技巧包括:自定义分隔符(设置comma字段)、宽容引号处理(lazyquotes=true)、允许字段数不一致(fieldsperrecord=-1),以及合理处理各类解析错误。这些方法共同构成了高效、稳定、兼容性强的csv处理方案。

在Go语言中处理CSV文件,
encoding/csv

处理CSV文件通常涉及读取现有文件或创建新文件并写入数据。
encoding/csv
读取CSV文件
立即学习“go语言免费学习笔记(深入)”;

要从CSV文件读取数据,你需要先打开文件,然后创建一个
csv.Reader
ReadAll()
package main
import (
"encoding/csv"
"fmt"
"os"
)
func main() {
// 假设我们有一个名为 "data.csv" 的文件
// 内容可能如下:
// Name,Age,City
// Alice,30,New York
// Bob,24,London
// "Charlie, Jr.",35,"Paris, France"
file, err := os.Open("data.csv")
if err != nil {
fmt.Println("打开文件失败:", err)
return
}
defer file.Close() // 确保文件在函数结束时关闭
reader := csv.NewReader(file)
// reader.Comma = ';' // 如果你的分隔符不是逗号,可以在这里设置
// reader.FieldsPerRecord = -1 // 如果每行字段数不固定,设置为-1
records, err := reader.ReadAll() // 一次性读取所有记录
if err != nil {
fmt.Println("读取CSV失败:", err)
return
}
fmt.Println("读取到的CSV数据:")
for i, record := range records {
fmt.Printf("行 %d: %v\n", i+1, record)
}
}
写入CSV文件

写入CSV文件与读取类似,你需要创建一个文件用于写入,然后初始化一个
csv.Writer
Write()
WriteAll()
Flush()
package main
import (
"encoding/csv"
"fmt"
"os"
)
func main() {
// 准备要写入的数据
data := [][]string{
{"Header1", "Header2", "Header3"},
{"Value1A", "Value1B", "Value1C"},
{"Value2A", "Value2B", "Value2C"},
{"Value3A", "Value3B", "Value3C, with comma"}, // 包含逗号的字段会自动加引号
}
file, err := os.Create("output.csv") // 创建一个新文件
if err != nil {
fmt.Println("创建文件失败:", err)
return
}
defer file.Close()
writer := csv.NewWriter(file)
// writer.Comma = ';' // 同样,如果需要不同的分隔符,可以在这里设置
err = writer.WriteAll(data) // 写入所有数据
if err != nil {
fmt.Println("写入CSV失败:", err)
return
}
writer.Flush() // 确保所有数据都已写入文件
if err := writer.Error(); err != nil {
fmt.Println("刷新写入器时发生错误:", err)
}
fmt.Println("数据已成功写入 output.csv")
}当我第一次处理一个几GB的CSV文件时,直觉告诉我不能一股脑儿全读进内存,Go的
encoding/csv
reader.ReadAll()
解决方案是使用
reader.Read()
package main
import (
"encoding/csv"
"fmt"
"io" // 导入io包,用于处理EOF错误
"os"
)
func main() {
file, err := os.Open("large_data.csv") // 假设这是你的大文件
if err != nil {
fmt.Println("打开文件失败:", err)
return
}
defer file.Close()
reader := csv.NewReader(file)
// reader.FieldsPerRecord = -1 // 如果某些行字段数可能不一致
// 跳过CSV文件的标题行(如果存在)
// _, err = reader.Read()
// if err != nil && err != io.EOF {
// fmt.Println("读取标题行失败:", err)
// return
// }
lineNumber := 0
for {
record, err := reader.Read() // 逐行读取
if err == io.EOF {
break // 文件读取完毕
}
if err != nil {
fmt.Printf("读取CSV第 %d 行失败: %v\n", lineNumber+1, err)
// 这里可以根据错误类型选择继续或停止
continue
}
lineNumber++
// 在这里处理每一行的数据
// 例如:fmt.Printf("处理行 %d: %v\n", lineNumber, record)
if lineNumber <= 5 { // 只打印前5行作为示例
fmt.Printf("处理行 %d: %v\n", lineNumber, record)
}
// 实际应用中,你可能会将 record 转换为结构体,然后存储到数据库或进行其他计算
}
fmt.Printf("总共处理了 %d 行数据。\n", lineNumber)
}
这种模式下,即使文件再大,你的程序也能保持稳定的内存占用。此外,如果你的处理逻辑允许,你甚至可以结合Goroutines和通道(channels)来并行处理这些行,进一步提升效率。但对于初学者,先掌握逐行读取的基础是关键。
CSV文件最让人头疼的莫过于编码问题了,尤其是那些从老旧系统导出的数据,或者来自不同语系的同事发来的文件。
encoding/csv
处理这些问题,核心思路是在
csv.Reader
golang.org/x/text/encoding
处理BOM: UTF-8文件有时会以BOM开头,这会导致
csv.Reader
// 简单的BOM检测和跳过
func removeBOM(r io.Reader) io.Reader {
bom := []byte{0xEF, 0xBB, 0xBF} // UTF-8 BOM
buf := make([]byte, 3)
n, err := r.Read(buf)
if err != nil || !bytes.Equal(buf[:n], bom[:n]) {
// 没有BOM或者读取失败,将已读字节放回
return io.MultiReader(bytes.NewReader(buf[:n]), r)
}
// 有BOM,直接返回原Reader,跳过BOM
return r
}
// 在打开文件后使用:
// file, err := os.Open("bom_data.csv")
// ...
// reader := csv.NewReader(removeBOM(file))处理非UTF-8编码: 当文件是其他编码时,你需要使用
golang.org/x/text/encoding/charmap
golang.org/x/text/encoding/simplifiedchinese
transform.NewReader
package main
import (
"encoding/csv"
"fmt"
"io"
"os"
"golang.org/x/text/encoding/simplifiedchinese" // 用于GBK/GB18030
"golang.org/x/text/transform" // 用于创建转换器
)
func main() {
// 假设有一个GBK编码的CSV文件
// 你可以手动创建一个测试文件,例如:
// echo "姓名,年龄\n张三,25\n李四,30" | iconv -f UTF-8 -t GBK > gbk_data.csv
file, err := os.Open("gbk_data.csv")
if err != nil {
fmt.Println("打开文件失败:", err)
return
}
defer file.Close()
// 创建一个GBK到UTF-8的转换器
// simplifiedchinese.GBK.NewDecoder() 用于从GBK解码到UTF-8
// simplifiedchinese.GBK.NewEncoder() 用于从UTF-8编码到GBK
decoder := simplifiedchinese.GBK.NewDecoder()
reader := csv.NewReader(transform.NewReader(file, decoder))
records, err := reader.ReadAll()
if err != nil {
fmt.Println("读取CSV失败:", err)
return
}
fmt.Println("读取到的GBK编码CSV数据 (已转换为UTF-8):")
for i, record := range records {
fmt.Printf("行 %d: %v\n", i+1, record)
}
}通过这种方式,无论原始CSV文件是何种编码,你都能将其统一转换为Go字符串默认的UTF-8编码进行处理,避免了乱码问题。这在处理国际化数据或遗留系统数据时尤其重要。
除了基本的读写和编码处理,
encoding/csv
自定义分隔符 (reader.Comma
writer.Comma
reader.Comma
writer.Comma
// 读取分号分隔的CSV reader := csv.NewReader(file) reader.Comma = ';' // 设置分隔符为分号 // 写入制表符分隔的TSV writer := csv.NewWriter(file) writer.Comma = '\t' // 设置分隔符为制表符
懒惰引号模式 (reader.LazyQuotes
csv.Reader
reader.LazyQuotes = true
reader := csv.NewReader(file) reader.LazyQuotes = true // 允许不严格的引号处理
字段数量不一致的处理 (reader.FieldsPerRecord
FieldsPerRecord
csv.Reader
-1
reader := csv.NewReader(file) reader.FieldsPerRecord = -1 // 不检查每行字段数量是否一致
错误处理与io.EOF
io.EOF
csv.ErrFieldCount
csv.ErrQuote
for {
record, err := reader.Read()
if err == io.EOF {
break // 文件结束
}
if err != nil {
// 例如,如果只是字段数量不匹配,可以跳过
if err, ok := err.(*csv.ParseError); ok && err.Err == csv.ErrFieldCount {
fmt.Printf("警告:行 %d 字段数量不匹配,跳过。原始错误: %v\n", err.Line, err)
continue
}
fmt.Println("读取CSV时发生严重错误:", err)
return // 遇到无法处理的错误,终止
}
// 处理 record
}这些配置和技巧,虽然看起来只是参数调整,但在实际工作中能显著提升你处理各种“脏数据”的效率和程序的健壮性。掌握它们,能让你在面对复杂的CSV处理任务时更加从容。
以上就是Golang初学者怎样处理CSV文件 使用encoding/csv读写数据的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号