助攻AI大模型，腾讯云星脉高性能计算网络首次完整披露

 当前位置：首页 > 外贸知识 > > 正文

来源：智东西时间：2023-06-28 06:54:16

 字号：大中小

智东西

编译 | Glu

编辑 | 李水青

(资料图片)

智东西6月27日消息，昨天下午，腾讯云在北京举办了一场面向AI大模型的高性能网络沟通会，在现场首次完整披露了其自研的星脉高性能计算网络。据称，星脉网络具备3.2Tbps业界最高互联带宽，能提升40%的GPU利用率，节省30%~60%的模型训练成本，还让AI大模型通信性能提升10倍。

同时，基于腾讯云新一代算力集群HCC，星脉网络可支持10万卡的超大计算规模。

AI新时代，大模型成为AI领域最火热的话题，各大科技公司纷纷入局，腾讯公司也不例外，继6月19日公布其行业大模型研发进展后，腾讯云副总裁王亚晨、腾讯云数据中心网络总监李翔于今日与智东西等媒体官宣了“星脉网络”实现全新升级，并分享了腾讯云网络研究的发展历程。

王亚晨称：“星脉网络是为大模型而生。它所提供的大带宽、高利用率以及零丢包的高性能网络服务，将助力算力瓶颈的突破，进一步释放AI潜能，全面提升企业大模型的训练效率，在云上加速大模型技术的迭代升级和落地应用。”

演讲嘉宾：腾讯云副总裁王亚晨

演讲嘉宾：腾讯云数据中心网络总监李翔

一、AI大模型3大网络需求：大带宽、高利用率、无损网络

目前，AI大模型的训练参数已飙升至万亿级别，如此庞大的训练任务无法由单个服务器完成，而需要大量GPU服务器组成算力集群，相互协作完成任务。

这些服务器通过机间网络相连接，不断交换数据。因此，高性能网络具有至关重要的地位，它有利于让算力集群更加快速、准确地完成大规模的训练任务。

大集群不等于大算力，相反，GPU集群规模的扩大还会引发额外的通信开销。因为传统网络架构下，数据传输时会通过多层协议栈，需要反复停下来检查、分拣、打包，导致通信效率低下。

也就是说，网络层级越多，致GPU集群通信性能将越低。现在爆火的生成式AI大模型需要运用千亿、万亿参数规模进行训练，这个训练过程中通信占比最大可达50%，而传统低速网络的带宽无法支撑。

在这个问题的解决上，业界通常会引入RDMA技术（GPU之间直接通信），这是一种高性能、低延迟的网络通信技术，能够允许计算节点之间直接进行数据传输，减少中间环节。

但光靠RDMA技术还远远不够，传统网络协议也将制约GPU集群的运行效率。传统网络协议也很容易导致网络拥塞、高延时和丢包，而仅0.1%的网络丢包就可能导致50%的算力损失，最终造成算力资源的严重浪费。

王亚晨幽默地将传统网络协议喻为“交通管理系统”：“这让所有人都在一条大马路上行走，自然会导致交通堵塞。”

二、3.2Tbps带宽，支持10万卡集群组网

基于以上问题，腾讯云在交换机、通信协议、通信库以及运营系统等软硬件方面进行升级，推出了自研的大模型专属高性能网络“星脉”。

“带宽”决定了能够同时传输的数据，“拓扑”是节点设备间的连接方式，决定了组网规模的大小。在这两项硬指标上，腾讯云称星脉皆达到了业界最高水平。

在硬件方面，星脉网络自研白盒交换机，这是一种软硬件解耦的开放网络设备，采用四层解耦体系，包括接入、转发、路由、管控系统；腾讯云还自研了网络操作系统，包括网络OS与网管平台，构建了互联底座，实现自动化部署和配置。

在软件方面，腾讯云自研的TiTa网络协议，能够实时监测并调整网络拥塞，TiTa网络协议能够提升40%的带宽负载，还能提供低延时无损网络，实现高负载下的0丢包，使集群通信效率达90%以上。

王亚晨将其与传统网络协议对比，称：“这是让有不同需求的人走不同的路，就不会导致堵塞了。”

此外，腾讯云还为星脉网络设计了高性能集合通信库TCCL，融入定制化解决方案，使系统实现了微秒级感知网络质量。结合动态调度机制合理分配通信通道，可以避免因网络问题导致的训练中断等问题，让通信时延降低40%。

王亚晨将其比喻为“导航系统”，优化后的集合通信就像有了导航一样，可以快速找到最优路径。

为确保星脉网络的高可用，腾讯云自研端到端全栈网络运营系统。它可以让大模型训练系统的整体部署时间从19天缩减至4.5天，保证基础配置100%准确；通过端网立体化监控与智能定位系统，它可以进行离线故障诊断、在线故障实时告警，让整体故障的排查时间由天级降低至分钟级；此外，它具有秒级的故障自愈能力，端侧会主动发起路径选择，能够极速恢复网络故障。

三、3代演进，17年耕耘，网络硬软件全自研

根据腾讯云官方数据，目前，腾讯云在全球26个地理区域运营70个可用区，同时在70多个国家和地区部署了超过2800个CDN加速节点，全网带宽资源储备超过200T。

而在星脉网络技术升级的背后，是腾讯数据中心网络历经3代技术演进、17年耕耘的成果。

第一代是互联网驱动时期。数据中心网络流量主要由用户访问数据中心服务器的南北向流量构成，网络架构以接入、汇聚、出口为主。这一阶段主要使用了商用网络设备，搭建标准化数据中心网络，支撑QQ在线人数增长超过1亿，服务器规模增长超10万。

第二代是云服务驱动时期。随着大数据和云计算的兴起，服务器之间的东西向流量逐渐增多，云租户对网络产生了虚拟化和隔离的要求。数据中心网络架构逐渐演变为同时承载南北向和东西向流量的云网络架构，腾讯云构建了全自研网络设备与管理系统，打造超大规模数据中心网络，服务器规模近200万台。

第三代是大规模算力驱动时期。随着AI大模型的出现，腾讯云在国内率先推出高性能计算网络，采用东西向、南北向流量的分离架构。构建了独立的超大带宽、符合AI训练流量特征的网络架构，并配合自研软硬件设施，实现整套系统的自主可控，满足超强算力对网络性能的新需求。

日前，腾讯云发布的新一代HCC高性能计算集群，正是基于星脉高性能网络打造，可以实现3.2T超高互联带宽，算力性能较前代提升3倍，为AI大模型训练构筑可靠的高性能网络底座。

结语：面向AI大模型，腾讯星脉网络打助攻

参数达到千亿、万亿级别的AI大模型尤其看重网络性能，它需要大带宽、高利用率、无损的网络来帮助它高效地完成训练任务。以此为契机，腾讯云基于过往17年的网络布局经验与技术成果，研发了助攻AI大模型的星脉网络。星脉网络具备3.2Tbps带宽，可支持10万卡集群组网，能让AI大模型通信性提升10倍。

自OpenAI于去年推出ChatGPT后，各方势力纷纷入局AI大模型，千模大战一触即发。腾讯公司上周了公布其行业大模型的研究进度，腾讯云不“卷”参数，而聚焦到具体产业端，关注AI大模型的落地。此外，他们积极构建高性能网络以助攻AI大模型。此次沟通会中，王亚晨还透露腾讯云正在积极探索下一代高性能网络，致力于构建更强算力的计算集群。

标签：

上一篇：盎司等于多少克_盎司介绍下一篇：最后一页

一、AI大模型3大网络需求：大带宽、高利用率、无损网络

二、3.2Tbps带宽，支持10万卡集群组网

三、3代演进，17年耕耘，网络硬软件全自研

结语：面向AI大模型，腾讯星脉网络打助攻

助攻AI大模型，腾讯云星脉高性能计算网络首次完整披露

鲜有银行推出端午节专属理财产品 节日理财产品已“过气”？|每日资讯

世界最资讯丨开封市统计局到顺河回族区调研指导第五次经济普查工作

入围分数线51.9！嘉定新城双轨热盘这次果然不负众望

浙江省首批全科医生调查：19年前，一毕业就遇冷；如今，一开诊就爆满 天天百事通

环球视点！lolfps低怎么办硬盘_lolfps低怎么办

广州房产中介协会：毕业季来临，低租金房屋成毕业生优选

盎司等于多少克_盎司介绍

*ST西钢：新增逾期未能偿还债务1.45亿元 逾期债务本金或净额累计约4.02亿元 动态焦点

【热闻】李嘉诚抄底豪宅 “接盘侠”来了？丨市相

全球热消息：湾区首栋私募证券大厦正式揭牌，私募证券行业发展迎来新机遇，迈向新高度！

焦点快看：GTA Online 仍然以令人困惑的主机独占更新让 PC 玩家望尘莫及

欧佩克秘书长：预计2045年全球每天石油需求量将达1.1亿桶

最近的顺风快递 顺丰标快是空运还是陆运_即时看

高难度也有高回报 《逍遥情缘》奋起直追挑战，超多经验等着你

焦点短讯！比岳飞还惨的一代名将，被黑了上千年，后代被逼改姓，如今仍被骂

每日热门：中国科技采取群狼战术，再在一个高新技术产业上击败韩国同行

穗恒运A参设现代氢能科技公司 注册资本1.3亿_看热讯

AMD RX 7900 XTX旗舰显卡价格暴跌：沦落到4070 Ti的档次_天天实时

补偿电容器电容量太大对用电端有什么利弊_补偿电容器的容量越大越好吗 天天视讯

曝《杀手》工作室 奇幻RPG“龙计划”将是Xbox独占|每日热门

成都天府国际机场通航两周年 暑运期间将新开6条国际航线-环球滚动

猎人史诗任务攻略_任务打法大盘点|焦点观察

第三届中非经贸博览会交通攻略|天天聚看点

天天快讯:信息：郑则仕老婆得什么病了_郑则仕老婆

理想汽车：本月销量已达2.73万辆

观点：《只此青绿》 余韵悠长

多云时代来临,容器存储谁敢横刀立马?_最新快讯

股民关切赛力斯在欧洲的销售渠道情况及所售车型_世界热闻

即时看！阿根廷股指创收盘历史新高，美元债涨幅领跑新兴市场

世界实时：2023年中国蜜瓜产业大会将于7月29日在民勤举办

一家新船厂成立

统联精密（688210）6月27日主力资金净买入123.78万元|世界观察

热点！能够做到这几点的男人，往往拥有顶级魅力

环球速看：毒品违法犯罪活动降至近10年来最低点

关注：苏州“十四五”交通规划：民用运输机场规划建设获阶段性突破

江西师范大学是211吗（江西师范大学是几本）

天天看点：最高法首次公布因涉新型毒品犯罪核准被告人死刑案例

男生要求发生关系，女生一般不会拒绝？因为害怕失去已有一切_全球看点

注意！高考志愿填报7句重要提醒

热头条丨基于EMP2 V3平台/采用全新设计 全新DS 4将于7月13日正式上市

热点评！武汉好玩的旅游景点（武汉免费旅游景点大全）

天天观速讯丨谨慎分辨运营观点：广告打在搜索结果页顶部，排名权重最大？

马上评｜“泳装照求职简历”是真是假，核实一下很难吗？|世界百事通

铁路端午小长假发送旅客较2019年同期增11.3% 世界即时看

高温天气加剧电力供应结构性短缺，财通证券称储能需求有望强劲复苏

流星之愿 速看料

2023年9月贵州计算机二级报名时间及报名入口_天天快消息

道县：“四大人才工程”推动中医药高质量发展

曹操姓什么？身份和成就又是什么样的？

鲜有银行推出端午节专属理财产品节日理财产品已“过气”？|每日资讯

浙江省首批全科医生调查：19年前，一毕业就遇冷；如今，一开诊就爆满天天百事通

*ST西钢：新增逾期未能偿还债务1.45亿元逾期债务本金或净额累计约4.02亿元动态焦点

最近的顺风快递顺丰标快是空运还是陆运_即时看

高难度也有高回报《逍遥情缘》奋起直追挑战，超多经验等着你

穗恒运A参设现代氢能科技公司注册资本1.3亿_看热讯

补偿电容器电容量太大对用电端有什么利弊_补偿电容器的容量越大越好吗天天视讯

曝《杀手》工作室奇幻RPG“龙计划”将是Xbox独占|每日热门

成都天府国际机场通航两周年暑运期间将新开6条国际航线-环球滚动

观点：《只此青绿》余韵悠长

热头条丨基于EMP2 V3平台/采用全新设计全新DS 4将于7月13日正式上市

流星之愿速看料