迈向10万卡集群!摩尔线程等制定128卡高密超节点参考设计

倚天百科 百科资讯 2

3月16日消息,传统服务器一般就是单机配2-8块加速卡,但是智算集群的规模正在急剧膨胀,百卡、千卡、万卡甚至十万卡一路不停,所以具备强互联能力的超节点架构正成为焦点。

近日,依托OISA协同创新平台,摩尔线程、中国移动研究院、之江实验室等合作,正式发布了《OISA高密超节点参考设计技术规范》。

该规范针对当前智算中心面临的互联瓶颈、供电压力及散热极限,提出了全栈式解决方案,支持构建自主可控、高性能的智算集群。

OISA高密超节点大胆引入了大尺寸高密线缆方案,在主流32卡至64卡互联的基础上,实现了标准单宽机柜内128卡的全互联,并支持通过并柜扩展实现256卡部署。

核心协议层面,规范采用基于OISA 2.0版本的原生内存语义支持,可以实现跨节点的无障碍数据访问,配合创新报文重构技术,将卡间带宽推向TB/s级别,时延缩短至数百纳秒。

如今,单颗GPU算立卡的功耗已经攀升至700W甚至1000W以上,机柜功率则奔向350kW甚至更高。

OISA参考设计重点变革了柜级供电、散热管理两个方面。

在供电侧,引入高压直流系统与柜内集中供电、盲插技术,减少中间电力转换层级,显著降低能耗损耗。

在散热侧,液冷技术在超节点架构中从“可选项”转变为“原生标配”,针对单GPU 2kW以上的散热需求进行深度优化,将PUE值从风冷时代的1.4降至1.05~1.15。

再结合全量监测流量、压力、温度的智能诊断系统,导热效率提升了数千倍。

展望未来,OISA协同创新平台将继续融合Chiplet、光互连、内存池等前沿技术,探索计算的极限。