java - 读取大量文本文件然后进行逻辑处理,请问用什么方法效率高一点?
高洛峰
高洛峰 2017-04-17 17:19:03
[Java讨论组]
  1. 描述你的问题
    有160个文本文件,每个大约5M,需要一一读取进行相应处理。

  2. 贴上相关代码

  3. 贴上报错信息
    我一次性全部读取后会内存溢出。

  4. 贴上相关截图

  5. 已经尝试过哪些方法仍然没解决(附上相关链接)

高洛峰
高洛峰

拥有18年软件开发和IT教学经验。曾任多家上市公司技术总监、架构师、项目经理、高级软件工程师等职务。 网络人气名人讲师,...

全部回复(9)
伊谢尔伦

一个文件才5m,你可以使用多线程加队列或者多进程加队列提高效率。如果是python的话,我会创建一个队列,然后开4个进程不断的从队列取文件名,然后在主进程读入文本名放入队列中。这样同时就会处理多个文件了,读取文件可以按行读,读完以后关闭文件。这样保证每次最多读取一定数目的文件,不会因为打开文件过多而报错。

黄舟

hash是一个很不错的选择,将文件按照某种规则进行hash

黄舟

全部读入会溢出,那就读一半啊

怪我咯

这应该是个比较典型的map reduce场景。先利用hash等策略进行map,然后各自分布计算出中间结果,最后再根据之前的hash策略将中间结果进行reduce,获取最终结果。

阿神

1、文件内存映射、窗口移动
2、多线程并发

PHP中文网

JAVA NIO你可以试一下、、大文件

迷茫

hadoop

阿神

除非逻辑非常复杂或者依赖第三方库,否则优先考虑awk。速度应该是最快的,跟c语言写的程序一样快,另外完全不用考虑内存占用或释放的问题。

PHP中文网
        try{
            BufferedReader reader = Files.newBufferedReader(Paths.get("D:\\","a.txt"), Charset.forName("UTF-8"));
            for(String line = reader.readLine(); line != null; line = reader.readLine()){
                // 一行一行处理,不会占用整个文件内容 
            }
        }catch(IOException e){
        }
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号