据外媒消息,Nvidia GB300服务器预计将于 2025 年 9 月大规模出货预计,包括Dell等其他合作伙伴已经开始了服务器系统的早期生产。相比此前几代产品,GB300上市会更加顺利,这主要得益于Nvidia战略性的设计复用以及整个供应链协调更加顺畅。但对原始设计制造商(ODM)来说,液冷散热方案仍然是一个需要面对的挑战。
GB300之所以能按预期交付,最重要原因在于Nvidia沿用了 GB200平台的服务器主板设计。此外,Nvidia也给了合作伙伴更大的自由度。针对 GB300,Nvidia转向了更为模块化的供货模式。据消息人士透露,Nvidia将不再直接提供完全组装好的主板,而是单独供应核心组件:安装有B300 GPU的 SXM Puck 模块,Grace CPU 将采用独立的 BGA 封装提供,硬件管理控制器(HMC)则由 Axiado 供应。(OEM或互联网巨头)用户需要自行采购主板上的其余部件,CPU 内存则选用标准的 SOCAMM 内存模块,这类模块可从多家供应商处采购获得。Nvidia依然提供交换机托盘和铜质背板。这种设计复用免去了彻底重新设计的必要,从而简化了生产流程并降低了潜在风险。
在此前的 GB200 系统中,Nvidia提供了完整的 Bianca 主板解决方案。该主板集成了 B200 GPU、Grace CPU、512GB LPDDR5X 内存以及供电组件,所有这些组件都整合在一块印刷电路板(PCB)上。同时,Nvidia还提供交换机托盘和铜质背板。
目前 GB300 正处于验证和小规模生产的阶段。据报道,原始设计制造商(ODM)反馈在推进过程中没有遇到明显障碍。来自合作伙伴的消息则显示,零部件认证工作正按计划进行,Nvidia有望在Q3稳步提升产量。预计到 2025 年第四季度,GB300 的发货量将实现显著增长。
作为关键的主板供应商,纬创科技(Wistron)表示,由于 GB200 与 GB300 两代产品正处于交替期,纬创科技本季度的营收预计将维持平稳。并且,纬创还表示,相比前代平台的过渡,此次切换过程显然要顺畅得多。此前的GB200等平台曾多次遭遇延期,除了因为供应链紧张之外,最大的技术问题就是GB200服务器内部布局过于密集,导致散热要求不达标。显然OEM有了GB200的经验后,在GB300的散热问题上已经有了应对方案。
尽管GB200 服务器在大量出货,但其液冷系统仍然持续面临问题。故障主要集中在快接头上,这些接头即便在工厂完成了压力测试,也存在泄漏可能。对此,数据中心运营商不得不采取一些应对措施,例如局部停机以及进行大范围的泄漏检测。这也从侧面反映出,在实际部署中,互联网巨头们往往将部署速度和系统性能放在首位,即使不得不牺牲部分硬件的可靠性。
在 GB300 之后,Nvidia下一代计划是研发代号为“Vera Rubin”的全新 AI 服务器平台。这款平台将分两个阶段推出市场。第一阶段的核心变化是将 Grace CPU 更换为 Vera CPU,并用 Rubin GPU 替代 Blackwell GPU,但整个系统的骨架——代号 Oberon 的机架结构——则会得到保留,该机架届时将采用 NVL144 的命名(尽管其内部使用的是 72 个GPU 模块组合(每个中有两颗计算芯片))。第二阶段将推出彻底更新、代号为 Kyber 的新机架系统,搭配 Vera CPU 和集成四颗计算小芯片的 Rubin Ultra GPU。
考虑到 Rubin GPU 的能耗预计将超过 Blackwell GPU,新一代平台对液冷技术的依赖性必然会进一步加深。虽然液冷是实现高性能的必要手段,但要稳定可靠地散热依然充满挑战。在当前的 GB200 系统中,由于数据中心的设计差异,要完全消除泄漏隐患变得异常困难,这也导致巨头们需要投入相当多的维护服务工作和相应的人力成本。
关注我,了解最新IT动态!
友情提示
本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!
联系邮箱:1042463605@qq.com