java处理比较大的xml文件-PHP中文网问答

讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

java处理比较大的xml文件

迷茫 2017-04-17 17:38:47

[Java讨论组]

0

1

441

举报

如题，我用java需要处理一个300多M的xml文件。这个文件的核心结构如下：

然后现在我需要做的就是找到相当内容的两个revision标签（如示例中的id为111和119的两个revision）,然后将其中间的（包括最后一个119）revision全部删除.（按例子xml来说，最后就只剩一个id为111的revision）
下面是我用java写的核心算法：

其中sha跟revision都是arraylist的数组，sha存的是所有sha1标签的内容，revision存的是所有revision的内容。因为是一一对应的，所以我直接用的一个三层的循环来实现（前两层是寻找有相同sha1内容的，第三个循环则是删除这两个标签的之间的revision标签）。。

这个算法在处理一部分的测试xml时是没问题的，可是一旦用于测试300多M的那个源文件时会出现这样的错误：

我查了一些网上的说法，也调整了虚拟机的最大内存，但是依然会出现这样的错误。应该是我算法本身复杂度就比较高吧，但是我也没想到其他比较合适的处理思路了。求各位大神指教下orz

迷茫

业精于勤，荒于嬉;行成于思，毁于随。

全部回复(1)

天蓬老师2017-04-17 17:40:47 1楼

你的算法优化的空间很大，看到你的代码，估计你是把xml文件都装进内存，然后进行循环来删除的。这样当你的电脑没有空余的300M+内存分配给java的heap区域，就会OOM。

建议优化方案：

使用sax方式解析xml文件，参考链接：http://www.mkyong.com/java/how-to-read-u...

使用set来保存sha1值，读取一个revision标签，就判断一下sha1值在不在set中：

2.1 如果在，忽略
2.2 如果不在，将该revision加入到你的revision数组，将sha1值加入到set中

直到遍历结束，revision数组中所有元素的sha1值都是不一样的了

赞 +0

添加回复

专题推荐

更多>

热门话题

热门教程

更多>

相关教程

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部