
CubeFS v3.5.3 正式上线,本次版本升级涵盖多项关键能力增强与问题修复,具体内容如下:
核心功能升级:
1、客户端(Client)深度适配大模型训练场景(含LLM及MLLM),强化高吞吐写入与高延迟容忍能力(支持端到端延迟 ≥8ms 的存算分离架构):
- 全面启用异步刷新机制,显著提升大文件顺序写性能,单流写入速率稳定超过1.2GB/s;在H20高性能训练节点上,单客户端并发写入10个大文件时,整体吞吐可达10GB/s以上;
- 重构预读模块,降低内存开销并提升读取效率,单文件持续读取带宽突破2GB/s;
- 新增元数据动态预热机制,针对高频访问的小文件,支持元信息提前加载至本地缓存;
注:上述功能的启用方式与参数调优请以社区最新发布的官方文档为准。
2、分布式缓存系统实现服务化演进,可脱离主控组件独立部署与运行:
- FlashGroupManager:将原属Master的分布式缓存调度能力抽离为独立服务,统一处理FlashNode的注册/注销、路由策略分发等核心逻辑,达成与Master的完全解耦,显著增强系统弹性扩展能力与运行稳定性;
- RemotecacheConfig:配套运维工具,面向FlashGroupManager提供完整的生命周期管理能力,包括FlashGroup的创建/销毁、状态查询及实时健康度查看等功能;
- FlashNode:新增对象存储数据块级上传/下载服务;内置热度统计模块,支持基于访问频次的数据块分级;同时开放文件存储路径级预热接口;
- Client:同步发布面向FlashNode的对象存储数据块操作SDK,便于业务侧快速集成缓存加速能力。
功能增强(Enhance):
- FlashNode:新增命中读延迟、读限流触发次数等关键运营指标,助力精细化监控告警与容量规划/限流策略调优;
- Master:优化磁盘或节点下线流程展示逻辑,当前进度中明确显示剩余待迁移dp数量;在多磁盘并发下线场景下,引入冲突dp自动重试机制,全面提升自动化迁移成功率。
缺陷修复(Bugfix):
- 修复两副本dp在下线过程中遭遇进程重启时,下线token被重复消费的问题;
- 修复坏盘上报信息中缺失“上报时间距当前时刻”时间差显示的问题;
- 修复磁盘标记下线失败后,部分dp未能及时从下线队列中清除,进而影响后续磁盘下线任务执行的问题;
- 修复因leader切换引发的两副本dp下线状态异常,导致磁盘与节点下线进度展示不准确的问题;
- 修复客户端预读场景下,特定命中条件下文件偏移量计算错误的问题;
- 修复客户端同时启用预读与分布式缓存时,因预读内存资源不足引发的读取失败问题;
- 修复若干历史遗留缺陷及其他已知问题。
v3.6.0 版本前瞻:
- Metanode 元数据引擎升级,支持 RocksDB 后端存储;
- 新增机架(Rack)级故障隔离能力;
- 实现 nodeset 与 rack 级别的自动均衡调度;
- MP(Metadata Partition)支持 Learner 模式进行元数据迁移;
- Datanode 增强磁盘维度自适应限流策略;
- MP 元数据模块新增自愈(Self-healing)能力;
- 分布式缓存支持多域(Multi-domain)统一纳管。
更多详情请参阅发布页:https://www.php.cn/link/900e3a38a492fd258dc54b8872c2dec1
源码获取地址:点击下载










