讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

首页 > 数据库 > mysql教程 > 正文

MapReduce文件切分个数计算方法

php中文网

发布： 2016-06-07 16:33:49

原创

1324人浏览过

Hadoop的MapReduce计算的第一个阶段是InputFormat处理的，先将文件进行切分，然后将每个切分传递给每个Map任务来执行，本文阐述切分个数，也就是Map任务数目的计算方法； Hadoop首先会计算每个切分的大小，然后使用文件总大小/每个切分的大小来决定划分的总

Hadoop的MapReduce计算的第一个阶段是InputFormat处理的，先将文件进行切分，然后将每个切分传递给每个Map任务来执行，本文阐述切分个数，也就是Map任务数目的计算方法；

Hadoop首先会计算每个切分的大小，然后使用”文件总大小/每个切分的大小“来决定划分的总数，如果不足一个切分的大小，则当做1个；

在org.apache.hadoop.mapred.FileInputFormat中给出了计算每个划分大小的方法：

protected long computeSplitSize(long goalSize, long minSize, long blockSize) { return Math.max(minSize, Math.min(goalSize, blockSize)); }

其中几个变量的解释如下：

blockSize：HDFS存储的基本单元，默认为64MB或者128MB；
minSize：由用户设置的最小切分大小，配置项为mapred.min.split.size；
goalSize：计算公式为"文件总大小/用户设定的Map任务个数"，即用户间接期望的大小；

由此可以推断出选定策略：

划分大小为blockSize：blockSize小于用户期望的大小，比用户设定的最小值要大；也就是说如果用户设定的最小值太小的话，会使用block size作为划分大小；
划分大小为goalSize：用户设定了Map的任务数目，那么即使算出来的划分大小比block size小也会使用，这个时候出现了两个用户设定值：最小值和期望值，hadoop会选择两者中大的那个；
划分大小为minSize：如果用户期望的值，还有blocksize只都比用户设定的最小值要小，那么就会使用这个最小值；

针对这几个值，用户可以根据输入数据的情况，合理的设置mapred.min.split.size和map.tasks.size来实现优化，InputSplit和blockSize相同是非常好的一种方法，因为不需要拆分block了.

文章地址：http://www.crazyant.net/1423.html

大家都在看：

mysql客户端安装后如何设置事件_mysql客户端事件调度器设置教程 mysql启动命令如何配置环境变量_mysql启动命令环境变量设置方法 mysql归档数据怎么压缩_mysql归档数据压缩处理的方法与工具 mysql镜像配置怎么启动_mysql镜像配置启动方法与常见问题 mysql镜像配置要哪些环境_mysql镜像配置运行所需环境介绍

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：Linux 上安装 WebLogic Server 12c (静默安装) 下一篇：Linux下MySQL出现#1036 – Table ‘ ‘ is read only 错误解决方法

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

最新问题

如何在Linux服务器安装mysql_mysql Linux安装步骤详解推荐使用官方APT或YUM/DNF仓库安装MySQL，禁用编译或二进制包；需先确认系统版本、更新源，再按发行版执行对应安装命令；安装后手动启用服务，运行mysql_secure_installation强化安全；如需远程访问，修改bind-address并授权用户，同时开放防火墙3306端口。

2025-12-19 17:09:50

142

mysql密码历史怎么清理_mysql密码历史清理后修改新密码 MySQL密码历史由策略控制，无法直接删除记录，需通过重置用户或修改策略实现；可重建用户、多次改密覆盖或设PASSWORDHISTORY为0禁用，再重新启用并设置新密码，操作后建议验证策略并刷新权限。

2025-12-19 16:51:36

474

mysql如何只恢复部分数据_mysql选择性恢复技巧 MySQL不支持直接部分数据恢复，但可通过逻辑备份提取单表、binlog时间点回放、XtraBackup表级恢复等组合策略实现；需提前规划分库、ROW格式binlog、独立表空间等预防措施。

2025-12-19 16:50:03

854

mysql迁移数据一致性如何保证_mysql迁移数据一致性技巧选择合适迁移方式、锁定写操作、使用校验工具并处理DDL冲突，可保障MySQL数据一致性：逻辑迁移适合小数据量但需停机，物理迁移支持热备且快，主从复制能减少停机时间；停机窗口内停止写入并完成最终同步，确保数据无差异；用pt-table-checksum和pt-table-sync校验与修复数据，辅以自定义脚本验证关键表；迁移前统一字符集、排序规则和存储引擎，同步自增ID，避免迁移中执行大DDL。规划好方案、控制写入、完整校验是关键。

2025-12-19 16:41:29

864

mysql如何配置读写分离_mysql读写分离配置方法读写分离通过分发读写操作提升MySQL性能，需依赖主从复制。常用实现方式包括：1.使用ShardingSphere等中间件自动路由读写请求；2.应用层通过AOP或注解手动控制数据源切换，事务内读操作走主库；3.部署MaxScale代理服务解析SQL类型并分流。配置前需确保主从同步正常，启用binlog与GTID，监控延迟以避免数据不一致。中小项目可选应用层方案，大型系统推荐中间件统一管理。

2025-12-19 16:35:55

847

如何在mysql中实现订单对账_mysql订单对账实战方案 MySQL订单对账核心是通过关键字段校验、时间窗口切分、差异快照和可追溯日志保障多系统数据一致性，而非全量比对。

2025-12-19 16:34:37

806

mysql迁移后触发器失效怎么办_mysql对象迁移处理 MySQL迁移后触发器失效通常因导出工具默认不包含触发器，需用mysqldump加--triggers和--routines参数重新导出；缺失时可通过SHOWTRIGGERS或information_schema确认，再手动补录并注意DEFINER及依赖一致性。

2025-12-19 16:34:02

343

mysql如何使用最小权限原则_mysql权限设计思路 MySQL最小权限原则核心是按角色、对象、来源和生命周期精准授权：开发限测试库DML，DBA限监控权限，应用账号限定库表列级操作；禁用GRANTOPTION；限制IP、强密码、定期轮换与审计收敛。

2025-12-19 16:13:44

539

如何使用mysql统计用户数据_mysql数据统计实战案例 MySQL用户数据分析核心是GROUPBY与聚合函数结合时间函数；按注册时间统计日/月新增用户需归一化时间字段；DAU/MAU用COUNT(DISTINCT)计算活跃用户；次日留存通过LEFTJOIN限定行为时间间隔实现。

2025-12-19 15:55:14

981

如何验证mysql服务运行状态_mysql服务状态检查方法 MySQL服务是否正常需依次检查进程、端口、登录及日志：ps或systemctl确认进程运行；netstat/ss验证3306端口监听；mysql-u-p登录并执行SELECTVERSION()；最后查error.log定位ERROR/FATAL原因。

2025-12-19 15:36:09

725

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

CSS3 教程

37741次学习
收藏
Git 教程

20278次学习
收藏
Django 教程

22241次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部