如何高效地使用 Go 按 CSV 首字段分流写入多个文件

霞舞

发布时间：2025-12-25 21:12:20

429人浏览过

来源于php中文网

原创

如何高效地使用 Go 按 CSV 首字段分流写入多个文件

本文详解如何优化 go 中大规模 csv 文件的按列分流处理，避免内存爆炸与频繁文件重写，通过流式读取 + 并发写入 + csv.writer 复用显著提升性能。

Go 在处理大 CSV 文件时若采用 csv.NewReader.ReadAll() 全量加载到内存，再逐行拼接字符串并反复调用 os.Create() 和 WriteString() 写入文件，会导致严重性能瓶颈——这正是原代码运行缓慢的根本原因。其问题集中在三点：

内存冗余：ReadAll() 将整个 CSV（可能数百 MB）一次性载入内存，且 map[string]string 存储的是完整 CSV 内容字符串，造成指数级内存占用；
I/O 浪费：每遇到一行就 createFile() 重写整个目标文件，导致同一文件被打开、覆盖、关闭数千次；
序列化低效：手动拼接带引号的 CSV 字符串（如 "\""+each[0]+"\",\""+...）既易出错，又绕过了 encoding/csv 的安全转义与性能优化。

✅ 正确解法是流式处理 + 分离关注点：

仅用 reader.Read() 单行迭代，不缓存原始数据；
为每个目标国家（如 "AT"）维护一个专属 chan []string，用于异步传递待写入的记录；
启动独立 goroutine 负责该国家文件的创建、csv.Writer 初始化及批量写入，实现 I/O 并发；
头部（header）仅写入一次，在首个对应记录到达时发送给该 channel。

以下是优化后的完整可运行代码：

巧文书

巧文书是一款AI写标书、AI写方案的产品。通过自研的先进AI大模型，精准解析招标文件，智能生成投标内容。

下载

package main

import (
    "encoding/csv"
    "fmt"
    "os"
    "sync"
)

func main() {
    input, err := os.Open("union_exp.csv")
    if err != nil {
        fmt.Printf("Error opening input file: %v\n", err)
        return
    }
    defer input.Close()

    reader := csv.NewReader(input)
    reader.FieldsPerRecord = -1 // 允许变长字段（兼容不同行）

    // 读取 header 行
    headers, err := reader.Read()
    if err != nil {
        fmt.Printf("Error reading header: %v\n", err)
        return
    }

    // 管理各输出文件的 channel 和 goroutine
    files := make(map[string]chan []string)
    var wg sync.WaitGroup

    // 逐行处理数据行
    for {
        record, err := reader.Read()
        if err == csv.ErrFieldCount {
            fmt.Printf("Warning: skipping malformed line (field count mismatch)\n")
            continue
        }
        if err == io.EOF {
            break
        }
        if err != nil {
            fmt.Printf("Error reading record: %v\n", err)
            return
        }

        if len(record) == 0 {
            continue // 跳过空行
        }

        country := record[0]
        ch, exists := files[country]
        if !exists {
            ch = make(chan []string, 1024) // 缓冲 channel 减少 goroutine 阻塞
            files[country] = ch
            wg.Add(1)
            go fileWriter(country+".csv", ch, &wg, headers)
        }
        ch <- record // 发送数据行（header 已在 goroutine 中写入）
    }

    // 关闭所有 channel，通知 writer 结束
    for _, ch := range files {
        close(ch)
    }
    wg.Wait()
    fmt.Println("All files written successfully.")
}

func fileWriter(filename string, ch chan []string, wg *sync.WaitGroup, headers []string) {
    defer wg.Done()

    f, err := os.Create(filename)
    if err != nil {
        fmt.Printf("Error creating %s: %v\n", filename, err)
        return
    }
    defer f.Close()

    writer := csv.NewWriter(f)
    defer writer.Flush() // 必须调用 Flush 才能写出缓冲内容

    // 写入 header
    if err := writer.Write(headers); err != nil {
        fmt.Printf("Error writing header to %s: %v\n", filename, err)
        return
    }

    // 写入所有数据行
    for record := range ch {
        if err := writer.Write(record); err != nil {
            fmt.Printf("Error writing record to %s: %v\n", filename, err)
            return
        }
    }
}

⚠️ 关键注意事项：

不要省略 writer.Flush()：csv.Writer 内部有缓冲，不显式调用将导致部分或全部数据丢失；
channel 缓冲大小建议设为 1024 或更高：避免 writer goroutine 因消费慢而阻塞主流程；
错误处理需分层：I/O 错误应记录但不粗暴 os.Exit(1)（原答案中该行为会中断整个程序），应让其他文件继续生成；
内存友好性：峰值内存仅取决于 channel 缓冲区总和 + 单行数据，与文件总行数无关；
扩展性提示：若国家数量极大（如上万），可限制并发 goroutine 数量（使用 worker pool 模式），避免系统资源耗尽。

通过以上重构，处理 GB 级 CSV 文件的耗时可从分钟级降至秒级，真正发挥 Go 在高吞吐 I/O 场景下的优势。

如何在 Go 中为结构体定义可变参数字段（Variadic Fields）

如何使用Golang理解值类型函数参数_函数内部修改不会影响外部

如何在Golang中管理Web路由_使用Mux和自定义Handler实现路由控制

如何在Golang中实现单例+工厂模式_全局对象统一创建

如何在Golang中优化网络请求_减少延迟和提高吞吐量

相关专题

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

311

2023.08.02

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

246

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

202

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1428

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

606

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

546

2024.03.22