本文分析并优化一个go语言文本去重程序,该程序处理约75万行文本文件,耗时约17秒。我们将通过改进代码,提升其处理效率。
原始代码(略,原文已给出)的主要性能瓶颈在于:
var result string进行字符串拼接,效率低下。var set = make(map[string]bool, 0)未预分配map容量,导致频繁扩容。bool作为map的值类型,略微浪费内存。优化后的代码:
package distinct
import (
"bufio"
"fmt"
"io"
"os"
"strings"
)
//distinctfile 为指定文件去重
func distinctfile(file string, output string) {
// 读取需要去重的文件内容
f, err := os.Open(file)
if err != nil {
fmt.Println("Open file error:", err)
return
}
defer f.Close() // 简化defer语句
reader := bufio.NewReader(f)
// 去重map,预分配容量,使用struct{}作为值类型
set := make(map[string]struct{}, 750000) // 预分配与文件行数大致相同的容量
var result strings.Builder
for {
line, isPrefix, err := reader.ReadLine()
if err == io.EOF {
break // 更清晰的EOF处理
}
if err != nil {
fmt.Println("Readline error:", err)
return
}
if !isPrefix {
lineStr := string(line)
if _, ok := set[lineStr]; !ok { // 更简洁的判断key是否存在
result.WriteString(lineStr + "\n")
set[lineStr] = struct{}{}
}
}
}
// 写入另一个文件
nf, err := os.Create(output)
if err != nil {
fmt.Println("Create file error:", err)
return
}
defer nf.Close()
_, err = io.Copy(nf, strings.NewReader(result.String())) // 使用result.String()
if err != nil {
fmt.Println("Copy error:", err)
return
}
}改进说明:
strings.Builder代替字符串拼接,显著提高效率。map容量为750000,接近文件行数,减少扩容操作。struct{}作为map的值类型,节省内存。defer语句。result.String()获取最终结果字符串。进一步优化建议:
立即学习“go语言免费学习笔记(深入)”;
bloom filter等概率数据结构来提高查找效率,虽然会有一定的误判率,但可以大幅提升速度。mmap将文件映射到内存,减少IO操作。
通过以上优化,可以显著提升Go语言文本去重程序的性能。 选择哪种优化策略取决于具体的需求和数据规模。 对于百万级数据,并发处理和预分配map容量是比较有效的优化手段。
以上就是Go语言文本去重:如何优化百万级文本文件的去重速度?的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号