首页 > 后端开发 > Golang > 正文

Go语言文本去重:如何优化百万级文本文件的去重速度?

花韻仙語
发布: 2025-03-03 08:44:27
原创
974人浏览过

Go语言百万级文本去重性能优化

本文分析并优化一个go语言文本去重程序,该程序处理约75万行文本文件,耗时约17秒。我们将通过改进代码,提升其处理效率。

原始代码(略,原文已给出)的主要性能瓶颈在于:

  1. 字符串拼接: 使用var result string进行字符串拼接,效率低下。
  2. map容量未预分配: var set = make(map[string]bool, 0)未预分配map容量,导致频繁扩容。
  3. map值类型: 使用bool作为map的值类型,略微浪费内存。

优化后的代码:

package distinct

import (
    "bufio"
    "fmt"
    "io"
    "os"
    "strings"
)

//distinctfile 为指定文件去重
func distinctfile(file string, output string) {
    // 读取需要去重的文件内容
    f, err := os.Open(file)
    if err != nil {
        fmt.Println("Open file error:", err)
        return
    }
    defer f.Close() // 简化defer语句

    reader := bufio.NewReader(f)

    // 去重map,预分配容量,使用struct{}作为值类型
    set := make(map[string]struct{}, 750000) // 预分配与文件行数大致相同的容量
    var result strings.Builder

    for {
        line, isPrefix, err := reader.ReadLine()
        if err == io.EOF {
            break // 更清晰的EOF处理
        }
        if err != nil {
            fmt.Println("Readline error:", err)
            return
        }

        if !isPrefix {
            lineStr := string(line)
            if _, ok := set[lineStr]; !ok { // 更简洁的判断key是否存在
                result.WriteString(lineStr + "\n")
                set[lineStr] = struct{}{}
            }
        }
    }

    // 写入另一个文件
    nf, err := os.Create(output)
    if err != nil {
        fmt.Println("Create file error:", err)
        return
    }
    defer nf.Close()

    _, err = io.Copy(nf, strings.NewReader(result.String())) // 使用result.String()
    if err != nil {
        fmt.Println("Copy error:", err)
        return
    }
}
登录后复制

改进说明:

  • 使用strings.Builder代替字符串拼接,显著提高效率。
  • 预分配map容量为750000,接近文件行数,减少扩容操作。
  • 使用struct{}作为map的值类型,节省内存。
  • 使用更清晰的错误处理和defer语句。
  • 使用result.String()获取最终结果字符串。

进一步优化建议:

立即学习go语言免费学习笔记(深入)”;

  • 并发处理: 将文件分割成多个部分,使用goroutine并发处理,再合并结果。这对于更大规模的文件非常有效。
  • 更高效的数据结构: 对于极大规模的数据,可以考虑使用bloom filter等概率数据结构来提高查找效率,虽然会有一定的误判率,但可以大幅提升速度。
  • 内存映射: 使用mmap将文件映射到内存,减少IO操作。

Go语言文本去重:如何优化百万级文本文件的去重速度?

通过以上优化,可以显著提升Go语言文本去重程序的性能。 选择哪种优化策略取决于具体的需求和数据规模。 对于百万级数据,并发处理和预分配map容量是比较有效的优化手段。

以上就是Go语言文本去重:如何优化百万级文本文件的去重速度?的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号