华为云黄金:传统的计算体系结构很难支持AI的代

日期:2025-05-19 浏览:

华为云副总裁黄金(Huang Jin)于5月16日在华为云AI峰会上的北京新闻贝克金融(Reporter Wei Boya)说,在对计算能力的需求爆炸时,对大型培训和推理实践的需求激增,传统的建筑构造了AI技术。超节点体系结构的诞生不仅是技术的成功,而且是通过现代工程通往AI行业的新途径。黄金说,AI计算能力的瓶颈从单卡计算能力的瓶颈上增加了10,000倍,到独立机器上的总线带宽的瓶颈,现在簇之间的通信带宽瓶颈。但是,在过去的8年中,单卡硬件的计算强度增加了40倍,但是节点上的公交乐队仅增加了9次,并且整个节点中的网络带宽仅增加了4次,这使得集群的通信成为当前大型大型挑战模型和理解。黄金提出,华为云推出的CloudMatrix 384超节点面临着沟通效率的瓶颈的三个主要技术挑战,记忆障碍和可靠性的缺点。使用新的高速互连总线,将384张卡连接为超级云服务器,该服务器的计算强度最大为300pflops,比NVL72 NVL72计算量表高67%。同时,华为CloudMatrix 384超级节点具有六个主要的技术好处:MOE关联公司,强大的计算对启动,强大的计算公司,稳定且可靠的长期长期,晚间培训,并准备使用。在推理平台分发的CloudMatrix 384超级节点的支持下,高速互连总线可以意识到对卡,专家的分布良好的理解以及计算和通信单卡的效率改进。 MatrixLink服务具有两个网络:超级节点内的ScaleUp总线网络和整个额外节点中的ScaleOut网络,可以允许384张卡到超级节点,而超速相互交织的超速延迟,而延迟小于微秒。此外,通过池内存技术,第一个EMS EMS弹性华为云存储器可以改善资源的使用,性能和吞吐量。例如,更改EMS中NPU的内存视频可以减少第一个令牌的延迟,最大崩溃为80%;上升云大脑“ 1-3-10”的操作和维护也将硬件故障率从40%提高到90%。编辑Yue Caizhou校对Mu Xiangtong

0
首页
电话
短信
联系