c++ - linux下如何用C语言读取大于10G的文件？-PHP中文网问答

微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

c++ - linux下如何用C语言读取大于10G的文件？

PHP中文网 2017-04-17 15:25:39

[C++讨论组]

860

需求**：

 有一个15G左右的日志文件，文件中每一行都是一串数字。长度在3——12位之间不等。现在需要算出在日志文件中数字出现次数最多的前10个。**

遇到的问题：

while(!feof(fp)){
    fgets(mid,1000,fp); //读取一行内容  
    ｝

我用这种方法读取文件，一直报 Segmentation fault (core dumped)。gbd调试情况如下：

需要能读取大文件的方法。求高手支招。

PHP中文网

认证高级PHP讲师

全部回复(3)

PHP中文网2017-04-17 15:27:39 3楼

你这个文件写法效率实在太低了，而且场合也不使用。超大文本文件单词频率排序是Hadoop解决的最典型问题。

这里是类似功能的源程序写法：
用C语言写Hadoop单词统计的程序

如果实在不愿意学习Hadoop，那么针对你这种情况即使不用Hadoop，直接用管道命令一样可以运行：
cat numbers.txt | ./mapper | sort | ./reducer
其中的mapper和reducer分别是原文的那两个映射器和总结器。

你如果坚持想知道怎么用文件读取这种数据，还有两种选择，其一是使用64位整数：

while(!feof(fp)) {
   long long x = 0; // 定义一个64位整型变量
   fscanf(fp, "%lld", &x);
   // .... 可以处理数据了
}

另外一种方式是用字符串：

while(!feof(fp)) {
   char mid[256]; 
   memset(mid, 0, 256);
   fscanf(fp, "%s", mid);
}

总之不要用行读取。我很好奇读完了之后你是怎么处理的？我感觉是在内存分配时崩的，难道是你打算把所有内容读到内存来处理吗？

赞 +0

添加回复

PHP中文网2017-04-17 15:27:39 2楼

按撸主的题目要求Linux+C，提供一种思路，如下：
可以考虑使用共享内存（mmap），每次映射文件的一部分，依次处理即可

赞 +0

添加回复

PHP中文网2017-04-17 15:27:39 1楼

可以考虑用split分割文件,然后sort排序:

#large.txt文件每100行进行分割,分割后文件前缀为prefix_
split -l 100 large.txt prefix_
#对文件里的行按数字逆序排序
sort -rn prefix_ab

赞 +0

添加回复

专题推荐

更多>

热门话题

热门教程

更多>