天涯论坛

 找回密码
 立即注册
搜索
查看: 37|回复: 2

破解AIGC背面的算网瓶颈,锐捷网络率先推出“智速DDC”制品

[复制链接]

3047

主题

148

回帖

9911万

积分

论坛元老

Rank: 8Rank: 8

积分
99119115
发表于 2024-8-31 00:37:48 | 显示全部楼层 |阅读模式

一时间,咱们仿佛回到了20数年前那个互联网兴起的时代。近来,随着GPT-4、百度文心一言等大语言模型竞相登场,一场由ChatGPT点燃的AIGC浪潮正悄然掀起一场重塑数字内容生产方式的科技革命。

但你有想过,随着AIGC应用加速渗入到各行各业,持续推动参数量更大、迭代时间更长的AI大模型演进,这背后除了对算力需要连续提高,更对AI集群的网络通信性能提出了更加严苛的需求

那面对AIGC拉开变革序幕,做为“幕后英雄”的AI集群网络,怎样与时代的潮流一同跃进?

AIGC背面的AI集群网络瓶颈

为何高性能的AI集群网络通信针对AIGC应用非常重要?针对以ChatGPT为表率的AIGC应用,背面起关键作用的是大语言模型,其由深度学习神经网络对海量数据进行训练,需要海量的训练样本和模型参数,对算力需求极高。以GPT-3为例,训练数据集是超过45TB的互联网文本,参数规模达1750亿;为训练如此繁杂的神经网络,据报告GPT-3在微软Azure AI超算基本设备(由1万块V100 GPU构成的高宽带集群)上进行训练,总算力消耗约 3640 PF-days(即每秒一千万亿次计算,运行3640天)。

显而易见, AI大模型算力消耗惊人,单一计算设备已远远没法满足模型训练的算力需要。为供给强大的算力,提高训练速度,利用AI集群进行分布式深度学习训练已作为首选。然而,尽管分布式训练经过多个GPU节点并行训练,可减轻各个计算节点的压力,但区别节点之间需频繁地同步模型参数,会产生网络通信开销,让网络通信性能作为制约系统性能的新瓶颈。且随着AIGC应用快速发展,模型参数数量持续跃升,神经网络越来越繁杂,AI集群的GPU节点数连续增多,瓶颈将越来越明显

例如,分布式深度学习训练的并行方式重点分为数据并行和模型并行,在数据并行模式中,深度神经网络模型被复制到每一个GPU节点,训练数据被分散分配到区别的GPU节点,每轮迭代后都要经过All-Reduce操作同步和汇总各个GPU节点在本地产生的梯度,以更新全局模型参数,供下轮迭代运用。在这个过程中,不管是拉取数据样本还是GPU节点间进行模型参数同步,都需要高性能、低时延的网络为基石。一旦网络性能不良,就会影响分布式训练的质量和速度。

按GPT-3在由1万块V100 GPU构成的高宽带集群上进行分布式训练计算,如下表,若GPU利用率为100%,训练时间需26天。若GPU利用率为33%,训练时间则需要78天。可见,GPU利用率是影响AI大模型训练速度的重点原因。而影响GPU利用率的关键原因之一便是网络通信效率。

ChatGPT算力和训练时间表

到底那些原因决定了网络通信效率?重点包含节点间通信带宽、节点内通信带宽、交换设备转发时延、端处理时延、内部排队时延和丢包重传时延。

影响AI集群网络通信效率的原因

其中,节点间通信带宽、节点内通信带宽、交换设备转发时延这三个原因取决于硬件性能,端处理时延取决于网络协议选取,而内部排队时延和丢包重传时延由网络拥塞引起,受网络优化和技术选取的影响。因此呢,抛开硬件性能的限制,针对端处理时延、内部排队时延和丢包重传时延三大动态原因优化网络拥塞和时延,是提高AI集群网络通信性能最具成本效益的办法

传统HPC组网面临许多挑战

针对影响AI集群网络通信性能的动态原因,业界已采用RoCE v2网络协议、PFC和ECN机制、ECMP等关键技术来进行HPC组网。但在实质应用中,这些技术都区别程度地暴露出不少问题。而随着AIGC应用连续升温, AI大模型训练的算力需要连续提高,这些问题将越来越明显提高网络通信性能的迫切性越来越高。

提高分布式训练速度,当前的分布式深度学习训练系统一般采用RDMA(远程直接内存拜访)技术,其拥有内核旁路、零拷贝的优点,可绕过操作系统内核,直接在内存间传送数据,从而能大幅提高系统吞吐量,降低通信时延。

RDMA技术最早用于IB(Infiniband)组网,以经过构建无损网络实现HPC高性能计算集群的互联。不外因为IB组网采用专有网络协议栈,存在技术封闭、兼容性低、单一厂商垄断等问题。为此,业界将RDMA技术移植到以太网上,推出了基于以太网的RoCE(RDMA over Converged Ethernet)协议,并将之演进到RoCE v2版本,从而推动了RDMA技术普及。

为实现无损以太网,基于RoCE v2网络协议的网络方法定义了PFC和ECN两大必选机制,以消除网络拥塞,保证数据不丢包。PFC能够逐跳供给基于优先级的流量掌控,缓解网络拥塞,规避丢包。ECN可消除网络拥塞,最大限度减少PFC反压。但在多级PFC组网下,当网络中显现海量PFC反压帧时,会诱发网络死锁(PFC DeadLock),严重时会引起全部网络阻塞。ECN毕竟依靠降速发送来实现,会降低通信带宽,对GPU利用率产生很强影响,从而拉低全部网络的算力。

同期数据中心网络中一般运用的ECMP(等价多路径)路由策略不是最理想的负载平衡方法,其将数据流分发到多条路径上并行转发到同一目的地位置,以充分利用网络中海量冗余路径,实现流量平衡分配和链路备份,但针对多条大象流(字节数大的数据流)可能会导致Hash路径上的数据流碰撞,从而引起有些ECMP成员链路拥塞,而另有些链路相对空闲的状况

对此,海外有部分互联网机构期盼于利用采用DNX芯片支持VOQ技术的框式交换机来处理负载不平衡带来的带宽利用率低的问题。但问题又来了,传统框式交换设备将接口板卡、交换板卡、掌控引擎等软硬件集成于一个理学机框中,插槽、端口数量受限于机框体积引起转发容量有限,倘若想做更大规模的集群,需横向扩展多个机框,不仅存在扩容成本高、运维成本高等挑战,况且会产生多级PFC和ECMP链路。

锐捷网络率先推出“智速DDC”高性能网络方法

面对以上挑战,锐捷网络推出了业界领先的“智速DDC”高性能网络方法,并计划于今年推出两款可交付制品,分别是400G NCP交换机和200G NCF交换机,为AIGC打通“任督二脉”。

锐捷网络NCP和NCF制品

DDC(Distributed Disaggregated Chassis,分布式分散式机箱)是一种分布式解耦机框设备的处理方法,它将传统软硬一体的框式设备的组件进行拆解,以NCP替代传统框式设备的线卡板,以NCF替代交换网板,并经过光纤互联替代原先两者之间的连接器组件;传统框式设备的掌控管理引擎独立出来,能够以软件化的方式灵活安排于任何一台标准服务器或多台服务器,能有效节省安排成本,提高系统冗余性和靠谱性。

DDC制品连接方式示意图

DDC方法突破了传统框式设备的资源限制,让大规模组网化繁为简,不仅拥有扩展弹性、扩容升级快、单机功耗低、运维管理效率高等特点,可灵活支持AI集群大规模安排况且拥有集群路由设计简单、数据转发方式更优化等优良,能有效提高网络通信性能。

在支持AI集群超大规模安排方面,在单POD组网中,采用96台NCP做为接入,其中NCP下行共18个400G接口,负责连接AI计算集群的网卡。上行共40个200G接口最大能够连接40台NCF,NCF供给96个200G接口,该规模上下行带宽为超速比1.1:1。全部POD可支撑1728个400G网络接口,根据一台服务器配8块GPU来计算,可支撑216台AI计算服务器。

单POD组网架构图

在多级POD组网中,能够实现基于POD的按需建设。思虑该场景POD中NCF设备要牺牲一半的SerDes用于连接第二级的NCF,单POD采用48台NCP做为接入,下行共18个400G接口,单POD内能够支撑864个400G接口。经过横向增多POD实现规模扩容,整体最大可支撑6912个400G网络端口。

多级POD组网架构图

NCP上行40个200G接POD内40台NCF,POD内NCF采用48个200G接口下行,48个200G接口分为12个一组上行到第二级的NCF。第二级NCF采用40个平面,每一个平面4台的设计,分别对应在POD内的40台NCF。全部网络的POD内实现了超速比1.1:1,而在POD和二级NCF之间实现了1:1的收敛比。

在网络通信性能提高方面,DDC基于VOQ+Cell机制,首要在发送端将从网络中接收的数据包归类到VOQs中存储,在发送数据之间会先经过Credit申请询问接收端是不是有足够的缓存空间,倘若就先在发送端的VOQ中暂存,倘若有则将数据包分割成等体积的、更细粒度的Cells,并按照reachability table中cell destination的查找和采用轮询机制,均匀地在区别链路上将Cells转发到接收端进行重组和存储,再将数据包转发到网络中。从技术实现原理可见,VoQ+Cell机制实现了端到端流量调度,可充分利用缓存大幅减少丢包,且处理了ECMP策略下流量负载不平衡的问题,能有效提高宽带利用率。

VOQ+Cell机制下的数据转发流程

同期,在DDC架构下,所有NCP和NCF能够看成一台设备,全部DDC集群内仅需单发,路由设计极其简单,不仅可大幅提高路由收敛速度,易于运维管理,况且不会像传统网络那样产生多级PFC的压制与死锁。

运用OpenMPI测试套件对框式设备(框式设备和DDC原理相同,这次采用框式测试)和传统组网设备进行对比模拟测试,结果表示,在All-to-All场景下,相较于传统组网,框式设备带宽利用率提高约20%(对应GPU利用率提高8%上下)。

后记

面对业务负载激增,更具扩展性、更易运维管理、更具成本效益的分布式解耦机框方法作为全世界各大网络设备厂商、运营商和科研公司一起积极探索的技术。但始终败兴,能推出可交付制品的厂商在全世界范围内寥寥无几。

究其原由,其背面有较多的技术挑战需要攻关。例如,虽然DDC架构由多台NCP、NCF和NCC设备构成,但规律上还是一台设备,需求原先基于一台理学设备配置的所有位置表项、端口等在分布式架构中依然能保持独一性和一致性,这需突破软件设计层面的挑战。再例如,传统一体化框式设备的接口板和交换板组件连接于单一背板,经过高速连接器互联,理学距离短,时延低;而采用DDC架构后,两者被拆解为经过光纤线缆拉远连接的NCP和NCF盒式设备,理学距离更远,且引入信元级交换后对时延需求更高,因此呢怎样保持低时延交换能力一样是一大挑战。

锐捷网络今年能率先推出完整的可交付“智能DDC”制品,无疑折射出其在网络设备行业的深厚实力,更重要的是,此举给行业带来积极的带头示范道理,有望推动业界加速探索和研发更高品质、更高靠谱性的计算网络方法制品连续为AIGC飞速发展打下坚实的基石。

网优雇佣军投稿邮箱:wywd11@126.com长按二维码关注通信路上,一块走!




上一篇:字节跳动微服务架构下的高性能优化实践
下一篇:越南连接国内网络频繁显现速度低和掉线状况???
回复

使用道具 举报

3144

主题

3万

回帖

9996万

积分

论坛元老

Rank: 8Rank: 8

积分
99968606
发表于 2024-10-21 00:22:37 | 显示全部楼层
外链发布论坛学习网络优化SEO。
回复

使用道具 举报

3058

主题

3万

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99109006
发表于 2024-11-11 11:21:19 | 显示全部楼层
外贸论坛是我们的,责任是我们的,荣誉是我们的,成就是我们的,辉煌是我们的。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-25 12:01 , Processed in 0.116042 second(s), 22 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.