腾讯发布星脉网络2.0 让AI大模型训练效率提升20%

7月1日，腾讯宣布其自研星脉高性能计算网络全面升级，升级后的星脉网络2.0搭载全自研的网络设备与AI算力网卡，支持超10万卡大规模组网，网络通信效率比上一代提升60%，让大模型训练效率提升20%。

AI大模型就像是一场F1比赛，腾讯云专门设计了星脉高性能算力网络“赛道”，并自研了TiTa和TCCL网络协议作为“赛事指挥中心与专业车队”，共同让“腾讯云高性能计算集群HCC的GPU服务器”这台马力强大的F1赛车发挥最大的算力性能，助力客户在AI大模型的竞争中遥遥领先。

使用该网络，如果原来训练中某个计算结果的同步需要花100秒完成，现在只需要40秒；原来需要花50天训练的模型，只需要花40天。

为何可以提升效率？腾讯自研星脉网络是一套软硬协同的高性能网络体系，包括自研网络设备、通信协议、通信库以及运营系统四大关键组件，每个组件均采用了业界首创的腾讯核心技术。

硬件方面，腾讯星脉网络是业界首个采用全自研网络设备的高性能网络，包括交换机、自研光模块、网卡等。自研交换机从25.6T容量升级到51.2T，同时在业界率先引入400G硅光模块，速率翻倍，让网络延迟降低40%，支持超10万卡大规模组网。

值得注意的是，星脉网络2.0支持搭载腾讯自研的全新算力网卡，这是公共云业内首款为AI训练设计的网卡，网卡采用最新一代 FPGA 芯片，整卡带宽可达400Gbps，具备业界最高的3.2T整机通信带宽。该自研算力网卡运行着新一代腾讯自研通信协议TiTa，并搭载了腾讯独有的主动拥塞控制算法。这让混合专家(MoE)模型训练下网络通信性能相比1.0提升30%，带来训练效率10%的提升。

运营系统2.0新增腾讯独家技术灵境仿真平台，从原来仅能定位网络问题，到可定位GPU节点问题，实现万卡级训练故障卡顿、慢节点分钟级定位。这对星脉网络进行了360度无死角的立体监控，可以更快发现与定位网络问题，让整体故障的排查时间再次大幅缩短，故障时尽快恢复续训。

据介绍，目前，腾讯云已经面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、AIGC存储解决方案、向量数据库以及行业大模型服务MaaS、天御AIGC内容安全解决方案等大模型全链路云服务。超过80%的头部大模型企业使用了腾讯云服务。

文/北京青年报记者温婧

编辑/田野

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

腾讯发布星脉网络2.0 让AI大模型训练效率提升20%

友情提示

国内首批丨腾讯云上架 Llama 3.1模型，支持在 TI 平台精调和推理

1079支队伍齐聚、聚焦三大社会议题，第四届Light技术公益创造营圆满收官

《贵女》腾讯首播将至！清纯女神陈都灵领衔，两个女配也又白又美

腾讯又出黑马！才播6集全国收视率第二，青年演员演技惊艳四座

科技股大跌前黄仁勋“精准”售股，7月份共套现超3.2亿美元

Meta 构建分布式 RoCEv2 网络：探索串联数万片 GPU 训练 AI

儿子月薪8000，偷偷给父母300，媳妇得知后将公婆扫地出门。

大爷这操作是真虎！黑龙江野生老虎进村完整视频！

大姐回乡下老家定居，结果刚进院子就懵了，清理出来后傻眼了

故宫开门前为什么要大喊三声？#方言

传递爱国正能量，从我做起，刘老师好样的！

化痰特别厉害的一味药，对咽喉也特别好，学会运用能治很多病

1705年，终年不洗澡，不吃药的93岁宫女苏麻喇姑逝世，51岁的康熙为了再见她一面，竟两次下旨延迟入殓，后下令以嫔礼为其办理丧事，并将其灵柩与孝庄文皇后置于一处

马斯克还没走马上任就挖出了一家中国公司，北京庄尼咨询有限公司，长期提供信息给拜登政府。当马斯克大神关注美国联邦政府支出网站后，网友们蜂拥而至，结果发现了令人瞠目

身价8亿的“协和博士”冯唐，语出惊人：“我贪财又好色，当一名妇科男医生，就是为了正大光明的看女人！”可是三年后，他却后悔了，因为妇科医生给他带来的，只有数不尽的

我国外贸实现平稳增长规模持续扩大结构不断优化

俄动用新型中程导弹攻击乌克兰，普京：无法拦截

票房超22亿的《八角笼中》如何分成