近日,在江苏昆山举行的光合组织2025人工智能创新大会(haic2025)上,中科曙光scalex万卡超集群以真实硬件形态首次对外公开展示。
该集群依托scaleX640超节点系统打造,是面向大规模智能计算的先进基础设施。它不仅在算力密度、能效比等关键硬件指标上实现跨越式升级,更依托“AI计算开放架构”,系统性破解当前国产AI算力生态长期面临的“碎片化、封闭化、适配难”三大瓶颈,标志着我国AI底层基础设施建设正式步入“生态协同、共建共享”的全新发展阶段。
作为全球首个单机柜集成640张AI加速卡的超节点设备,曙光scaleX640创新采用超高密度刀片式结构与浸没式相变液冷技术,使单机柜算力密度达传统集群的20倍,同时将整体PUE值优化至1.04这一行业领先水平。由16台scaleX640超节点通过自研scaleFabric高速互连网络构建而成的scaleX万卡超集群,可部署总计10240张AI加速卡,峰值总算力突破5 EFlops。

在此坚实硬件底座之上,曙光自主研发的原生RDMA高速网络ScaleFabric,基于国内首款兼容400G类InfiniBand标准的网卡与交换芯片,提供高达400Gb/s的端口带宽及低于1微秒的端到端通信延迟,相较传统InfiniBand方案,通信效率提升2.33倍,综合成本下降30%。该网络不仅充分释放万卡级集群的并行算力潜能,还支持集群规模平滑扩展至10万卡以上,具备优异的弹性伸缩能力。
为彻底消除数据传输对AI训练与推理效率的制约,曙光创新引入“超级隧道”机制与AI专用数据加速引擎,实现存储、计算、传输三者间的深度耦合与联合调优;并从芯片层、系统层到应用层构建起三级数据通路优化体系,有效应对万卡并发场景下的极端I/O压力与高吞吐挑战,显著加快AI推理响应速度、提升结果准确性,并将AI加速卡的整体资源利用率提升55%。
除强大算力与高效互联外,曙光同步构建了覆盖全生命周期的超集群数字孪生平台与智能调度系统:运维过程全面可视化、决策执行高度智能化,保障集群可用性稳定维持在99.99%;其智能调度引擎可统一纳管万级计算节点、服务十万级用户,支持每秒万级任务的高并发调度,确保各类大规模AI业务持续、稳定、高效运行。
源码地址:点击下载
以上就是中科曙光发布 scaleX 万卡超集群的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号