0

0

如何高效地使用 Go 按 CSV 首字段分流写入多个文件

霞舞

霞舞

发布时间:2025-12-25 21:12:20

|

429人浏览过

|

来源于php中文网

原创

如何高效地使用 Go 按 CSV 首字段分流写入多个文件

本文详解如何优化 go 中大规模 csv 文件的按列分流处理,避免内存爆炸与频繁文件重写,通过流式读取 + 并发写入 + csv.writer 复用显著提升性能。

Go 在处理大 CSV 文件时若采用 csv.NewReader.ReadAll() 全量加载到内存,再逐行拼接字符串并反复调用 os.Create() 和 WriteString() 写入文件,会导致严重性能瓶颈——这正是原代码运行缓慢的根本原因。其问题集中在三点:

  1. 内存冗余:ReadAll() 将整个 CSV(可能数百 MB)一次性载入内存,且 map[string]string 存储的是完整 CSV 内容字符串,造成指数级内存占用
  2. I/O 浪费:每遇到一行就 createFile() 重写整个目标文件,导致同一文件被打开、覆盖、关闭数千次;
  3. 序列化低效:手动拼接带引号的 CSV 字符串(如 "\""+each[0]+"\",\""+...)既易出错,又绕过了 encoding/csv 的安全转义与性能优化。

✅ 正确解法是流式处理 + 分离关注点

  • 仅用 reader.Read() 单行迭代,不缓存原始数据;
  • 为每个目标国家(如 "AT")维护一个专属 chan []string,用于异步传递待写入的记录;
  • 启动独立 goroutine 负责该国家文件的创建、csv.Writer 初始化及批量写入,实现 I/O 并发;
  • 头部(header)仅写入一次,在首个对应记录到达时发送给该 channel。

以下是优化后的完整可运行代码:

巧文书
巧文书

巧文书是一款AI写标书、AI写方案的产品。通过自研的先进AI大模型,精准解析招标文件,智能生成投标内容。

下载
package main

import (
    "encoding/csv"
    "fmt"
    "os"
    "sync"
)

func main() {
    input, err := os.Open("union_exp.csv")
    if err != nil {
        fmt.Printf("Error opening input file: %v\n", err)
        return
    }
    defer input.Close()

    reader := csv.NewReader(input)
    reader.FieldsPerRecord = -1 // 允许变长字段(兼容不同行)

    // 读取 header 行
    headers, err := reader.Read()
    if err != nil {
        fmt.Printf("Error reading header: %v\n", err)
        return
    }

    // 管理各输出文件的 channel 和 goroutine
    files := make(map[string]chan []string)
    var wg sync.WaitGroup

    // 逐行处理数据行
    for {
        record, err := reader.Read()
        if err == csv.ErrFieldCount {
            fmt.Printf("Warning: skipping malformed line (field count mismatch)\n")
            continue
        }
        if err == io.EOF {
            break
        }
        if err != nil {
            fmt.Printf("Error reading record: %v\n", err)
            return
        }

        if len(record) == 0 {
            continue // 跳过空行
        }

        country := record[0]
        ch, exists := files[country]
        if !exists {
            ch = make(chan []string, 1024) // 缓冲 channel 减少 goroutine 阻塞
            files[country] = ch
            wg.Add(1)
            go fileWriter(country+".csv", ch, &wg, headers)
        }
        ch <- record // 发送数据行(header 已在 goroutine 中写入)
    }

    // 关闭所有 channel,通知 writer 结束
    for _, ch := range files {
        close(ch)
    }
    wg.Wait()
    fmt.Println("All files written successfully.")
}

func fileWriter(filename string, ch chan []string, wg *sync.WaitGroup, headers []string) {
    defer wg.Done()

    f, err := os.Create(filename)
    if err != nil {
        fmt.Printf("Error creating %s: %v\n", filename, err)
        return
    }
    defer f.Close()

    writer := csv.NewWriter(f)
    defer writer.Flush() // 必须调用 Flush 才能写出缓冲内容

    // 写入 header
    if err := writer.Write(headers); err != nil {
        fmt.Printf("Error writing header to %s: %v\n", filename, err)
        return
    }

    // 写入所有数据行
    for record := range ch {
        if err := writer.Write(record); err != nil {
            fmt.Printf("Error writing record to %s: %v\n", filename, err)
            return
        }
    }
}

⚠️ 关键注意事项

  • 不要省略 writer.Flush():csv.Writer 内部有缓冲,不显式调用将导致部分或全部数据丢失
  • channel 缓冲大小建议设为 1024 或更高:避免 writer goroutine 因消费慢而阻塞主流程;
  • 错误处理需分层:I/O 错误应记录但不粗暴 os.Exit(1)(原答案中该行为会中断整个程序),应让其他文件继续生成;
  • 内存友好性:峰值内存仅取决于 channel 缓冲区总和 + 单行数据,与文件总行数无关;
  • 扩展性提示:若国家数量极大(如上万),可限制并发 goroutine 数量(使用 worker pool 模式),避免系统资源耗尽。

通过以上重构,处理 GB 级 CSV 文件的耗时可从分钟级降至秒级,真正发挥 Go 在高吞吐 I/O 场景下的优势。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

311

2023.08.02

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

246

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

202

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1428

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

606

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

546

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

539

2024.04.29

go语言字符串相关教程
go语言字符串相关教程

本专题整合了go语言字符串相关教程,阅读专题下面的文章了解更多详细内容。

156

2025.07.29

笔记本电脑卡反应很慢处理方法汇总
笔记本电脑卡反应很慢处理方法汇总

本专题整合了笔记本电脑卡反应慢解决方法,阅读专题下面的文章了解更多详细内容。

1

2025.12.25

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Go 教程
Go 教程

共32课时 | 2.9万人学习

Go语言实战之 GraphQL
Go语言实战之 GraphQL

共10课时 | 0.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号