大规模GPU集群解决方案

为什么需要GPU算力集群

在AI算力基础设施方面,铠沙科技的GPU算力服务器采用单节点8-16张GPU卡的中高密度算力节点,提升GPU间通信性能,减少节点间网络通信开销,提升整体处理性能。同一个模型训练任务,使用铠沙算力服务器运行不仅可以有效降低总能耗,同时可以减少机柜占用,提高集群算力密度,实现基础资源降本增效。

在算力调度优化方面,铠沙AMStation智能业务生产创新平台助力构建了高性能、高可靠、可扩展的软硬件系统架构,实现了AI训练场景下算力资源的统一管理与智能化调度。铠沙AMStation是专为人工智能开发和部署提供全流程支持的端到端平台,以强大的资源调度和管理能力助力客户加速AI开发与部署,通过对计算资源、数据资源、深度学习软件栈资源进行统一管理,全面提速AI开发应用创新落地。高可靠的系统设计提供了多场景下故障容错能力,故障发生时可自动触发训练作业容错漂移,不影响集群整体业务运行,有效保障金融级训练作业可靠运行。

在集群高速互联方面,铠沙AMStation智能业务生产创新平台的智能调度技术可以根据AI训练任务特性,自动匹配资源调度策略,实现对集群内任意节点的任意GPU资源组合的自动化调度,有效提升了GPU并行运算集群对大模型分布式训练的支撑能力,并提高了集群算力的整体利用率。

在协同联动方面,铠沙AMStation智能业务创新平台的智能调度新技术能够有效抑制多节点协同的性能损耗,随着AI算力卡数的递增,实现整体训练效率线性增长,有效支撑金融业大规模AI模型的创新发展。

帮助用户建立一套既能最大限度地满足用户实际需要且技术又处于领先地位的GPU算力集群环境是铠沙科技为用户设计方案的基本出发点。

 

铠沙AI算力集群解决方案

GPU集群架构图

联系我们