本文分析并优化一个go语言文本去重程序,该程序处理约75万行文本文件,耗时约17秒。我们将通过改进代码,提升其处理效率。
原始代码(略,原文已给出)的主要性能瓶颈在于:
优化后的代码:
package distinct import ( "bufio" "fmt" "io" "os" "strings" ) //distinctfile 为指定文件去重 func distinctfile(file string, output string) { // 读取需要去重的文件内容 f, err := os.Open(file) if err != nil { fmt.Println("Open file error:", err) return } defer f.Close() // 简化defer语句 reader := bufio.NewReader(f) // 去重map,预分配容量,使用struct{}作为值类型 set := make(map[string]struct{}, 750000) // 预分配与文件行数大致相同的容量 var result strings.Builder for { line, isPrefix, err := reader.ReadLine() if err == io.EOF { break // 更清晰的EOF处理 } if err != nil { fmt.Println("Readline error:", err) return } if !isPrefix { lineStr := string(line) if _, ok := set[lineStr]; !ok { // 更简洁的判断key是否存在 result.WriteString(lineStr + "\n") set[lineStr] = struct{}{} } } } // 写入另一个文件 nf, err := os.Create(output) if err != nil { fmt.Println("Create file error:", err) return } defer nf.Close() _, err = io.Copy(nf, strings.NewReader(result.String())) // 使用result.String() if err != nil { fmt.Println("Copy error:", err) return } }
改进说明:
进一步优化建议:
立即学习“go语言免费学习笔记(深入)”;
通过以上优化,可以显著提升Go语言文本去重程序的性能。 选择哪种优化策略取决于具体的需求和数据规模。 对于百万级数据,并发处理和预分配map容量是比较有效的优化手段。
以上就是Go语言文本去重:如何优化百万级文本文件的去重速度?的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号