摩尔线程于今日宣告了中国首个全国产千卡千亿模型训练平台的诞生——摩尔线程 KUAE智算中心揭幕仪式在北京成功举办。这标志着国内首个以国产全功能GPU为底座的大规模算力集群正式落地。同时,摩尔线程还发布了大模型智算加速卡MTT S4000,为千亿级别模型的训练提供强大支持。
MTT S4000大模型智算加速卡参数一览
第三代MUSA内核:MTT S4000采用先进的第三代MUSA内核,单卡支持48GB显存和768GB/s显存带宽。
分布式计算加速:基于摩尔线程自研MTLink1.0技术,MTT S4000支持多卡互联,助力千亿大模型的分布式计算加速。
全面应用场景:提供先进的图形渲染、视频编解码和超高清8K HDR显示能力,助力AI计算、图形渲染、多媒体等综合应用场景的落地。
MUSIFY开发工具:借助摩尔线程自研MUSIFY开发工具,MTT S4000计算卡可以实现CUDA代码零成本迁移到MUSA平台,充分利用现有CUDA软件生态。
KUAE智算中心解决方案
摩尔线程KUAE智算中心解决方案以全功能GPU为底座,是软硬一体化的全栈解决方案。包括KUAE计算集群为核心的基础设施、KUAE Platform集群管理平台以及KUAE ModelStudio模型服务。该方案通过一体化交付,解决了大规模GPU算力的建设和运营管理问题,实现了开箱即用,降低了传统算力建设和应用开发的时间成本。
KUAE智算中心支持的业界主流分布式框架
分布式框架支持:KUAE智算中心支持DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale等业界主流分布式框架。
并行算法策略:融合了多种并行算法策略,包括数据并行、张量并行、流水线并行和ZeRO,并针对高效通信计算并行和Flash Attention做了额外优化。
大模型训练效果展示
线性加速比:基于摩尔线程KUAE千卡集群,70B到130B参数的大模型训练,线性加速比均可达到91%,算力利用率基本保持不变。
超快训练速度:以2000亿训练数据量为例,智源研究院700亿参数Aquila2可在33天完成训练;1300亿参数规模的模型可在56天完成训练。
稳定运行和断点续训:KUAE千卡集群支持长时间连续稳定运行,支持断点续训,异步Checkpoint少于2分钟。
摩尔线程在AI领域迈出重要一步,KUAE智算中心和MTT S4000大模型智算加速卡的推出,将为大规模GPU算力的应用和发展注入强大动力,引领AI新纪元。