效率加强 11 倍,PODsys 怎么样快速安排大模型 AI 算力平台?
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">作者 | Pu QIN</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">策划 | 凌敏</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">大模型是通用人工智能的底座,但大模型训练对算力平台的依赖非常大。大模型算力平台<span style="color: black;">指的是</span>支撑大模型训练和推理<span style="color: black;">安排</span>的算力<span style="color: black;">基本</span><span style="color: black;">设备</span>,<span style="color: black;">包含</span>业界最新的加速卡、高速互联网络、高性能分布式存储系统、液冷系统和<span style="color: black;">有效</span>易用的大模型<span style="color: black;">开发</span>工具和框架。在算力平台的<span style="color: black;">安排</span>过程中,大模型<span style="color: black;">开发</span><span style="color: black;">公司</span>常常需要面对一系列的问题:大模型算力平台是什么样的?<span style="color: black;">怎样</span>快速构建大模型算力平台?<span style="color: black;">怎样</span><span style="color: black;">保证</span>算力平台稳定<span style="color: black;">靠谱</span>?<span style="color: black;">怎样</span><span style="color: black;">提高</span><span style="color: black;">安排</span>效率?<span style="color: black;">怎样</span><span style="color: black;">提高</span>算力平台的性能……这些问题能否顺利<span style="color: black;">处理</span>,直接关系到大模型<span style="color: black;">开发</span>和应用落地的速度。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">为了<span style="color: black;">帮忙</span>用户加速大模型的技术创新与应用落地,浪潮信息发布了大模型智算软件栈 OGAI(Open GenAI Infra)。OGAI 由 5 层架构<span style="color: black;">构成</span>,从 L0 到 L4 分别对应于<span style="color: black;">基本</span><span style="color: black;">设备</span>层的智算中心 OS <span style="color: black;">制品</span>、系统环境层的 PODsys <span style="color: black;">制品</span>、调度平台层的 AIStation <span style="color: black;">制品</span>、模型工具层的 YLink <span style="color: black;">制品</span>和多模纳管层的 MModel <span style="color: black;">制品</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">其中 L1 层 PODsys 是一个为客户<span style="color: black;">供给</span>智算集群系统环境<span style="color: black;">安排</span><span style="color: black;">方法</span>的开源项目,具备<span style="color: black;">基本</span><span style="color: black;">设备</span>环境安装、环境<span style="color: black;">安排</span>、用户管理、系统监控和资源调度等能力。用户只需执行两条简单的命令,<span style="color: black;">就可</span>完成大模型算力平台的<span style="color: black;">安排</span>,将大模型算力平台<span style="color: black;">安排</span>效率<span style="color: black;">提高</span> 11 倍,<span style="color: black;">帮忙</span>用户顺利迈出大模型<span style="color: black;">开发</span>的<span style="color: black;">第1</span>步。(下载<span style="color: black;">位置</span>:https://podsys.ai/)</span></p>
<h1 style="color: black; text-align: left; margin-bottom: 10px;">大模型算力平台<span style="color: black;">安排</span><span style="color: black;">困难</span>亟待求解</h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">大模型参数量和训练数据<span style="color: black;">繁杂</span>性快速<span style="color: black;">增多</span>,对 AI 算力平台的建设提出了新的<span style="color: black;">需求</span>,即需要从数据中心规模化算力<span style="color: black;">安排</span>的<span style="color: black;">方向</span>,<span style="color: black;">统一</span><span style="color: black;">思虑</span>大模型分布式训练对计算、网络和存储的<span style="color: black;">需要</span>特点,并集成平台软件、结合应用实践,充分关注数据传输、任务调度、并行优化、资源利用率等,设计和构建高性能、高速互联、存算平衡的可扩展集群系统,以满足 AI 大模型的训练<span style="color: black;">需要</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">强大的大模型算力平台不仅需要高性能的 CPU、GPU、存储、网络等硬件设备,还需要<span style="color: black;">思虑</span><span style="color: black;">区别</span>硬件和软件之间的兼容性和版本<span style="color: black;">选取</span>,<span style="color: black;">保证</span>驱动和工具的适配性和稳定性。当算力平台的规模从十几台服务器扩展到几百台,平台<span style="color: black;">安排</span>难度会呈指数级<span style="color: black;">提升</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">首要</span>,算力平台<span style="color: black;">安排</span>需要的<span style="color: black;">关联</span>驱动程序、软件包<span style="color: black;">常常</span>高达数十个,正确安装、<span style="color: black;">安排</span>并优化这些驱动程序与软件,需要专业的运维工程师和<span style="color: black;">海量</span>调试时间,严重影响<span style="color: black;">安排</span>效率。其次,为了<span style="color: black;">保证</span>算力平台的高性能和稳定运行,需要验证<span style="color: black;">区别</span>硬件环境下的软件适配,优化 BIOS、操作系统、底层驱动、文件系统和网络等多项指标,找到最优的<span style="color: black;">选取</span>,这一工作<span style="color: black;">一样</span>费时费力。<span style="color: black;">另外</span>,算力平台的资源状态<span style="color: black;">处在</span>时刻的变动中,<span style="color: black;">倘若</span>不进行<span style="color: black;">恰当</span>的资源调度与管理,很容易影响平台的资源利用率。</span></p>
<h1 style="color: black; text-align: left; margin-bottom: 10px;"><span style="color: black;">怎样</span>快速<span style="color: black;">安排</span>大模型算力平台?</h1>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">PODsys 专注于大模型算力平台<span style="color: black;">安排</span>场景,<span style="color: black;">供给</span><span style="color: black;">包含</span><span style="color: black;">基本</span><span style="color: black;">设备</span>环境安装、环境<span style="color: black;">安排</span>、用户管理、系统监控和资源调度在内的完整工具链,旨在打造一个开源、<span style="color: black;">有效</span>、兼容、易用的智算集群系统<span style="color: black;">方法</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">PODsys 整合了大模型算力平台<span style="color: black;">安排</span>所需的数十个驱动、软件等安装包以及对应的依赖和兼容关系,并<span style="color: black;">供给</span>了一系列的简化<span style="color: black;">安排</span>的脚本工具。<span style="color: black;">运用</span>这些工具只需要简单 2 个<span style="color: black;">过程</span>,PODsys <span style="color: black;">就可</span><span style="color: black;">帮忙</span>用户快速<span style="color: black;">安排</span>大模型算力平台。</span></p>
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-axegupay5k/e9d689d235784eff8e6cb5dead75fa18~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727401512&x-signature=71XyOiaNrPE85hpPHyZkKWo%2BQ1E%3D" style="width: 50%; margin-bottom: 20px;"></div>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;"><span style="color: black;">过程</span> 1:<span style="color: black;">运用</span> docker run 命令快速<span style="color: black;">起步</span> PODsys 系统。</span></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">PODsys 系统集<span style="color: black;">成为了</span>大模型算力平台<span style="color: black;">安排</span>所需的操作系统、GPU 驱动、网卡驱动、通信加速库等数十个驱动程序、软件和安装包,并<span style="color: black;">供给</span>了一系列脚本工具来简化<span style="color: black;">安排</span>,让用户<span style="color: black;">能够</span>快速安装、配置和更新集群环境。PODsys <span style="color: black;">海量</span><span style="color: black;">选择</span>了业界广泛<span style="color: black;">运用</span>的主流开源系统、工具、框架和软件,来<span style="color: black;">保证</span><span style="color: black;">全部</span>部署<span style="color: black;">方法</span>的开放性、兼容性和稳定性。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;"><span style="color: black;">过程</span> 2:<span style="color: black;">运用</span> install_client 命令快速<span style="color: black;">安排</span>大模型算力平台的并行软件环境。</span></strong></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">PODsys 将单机<span style="color: black;">安排</span>方式改成集群<span style="color: black;">安排</span>方式,可将<span style="color: black;">安排</span>效率<span style="color: black;">提高</span> 11 倍以上。在管理节点运行一句简单的命令(install_client.sh),<span style="color: black;">就可</span>完成大模型算力平台的环境配置,集<span style="color: black;">成为了</span>高速文件系统接口、自动化运维工具、NVDIA CUDA 编程框架、NCCL 高性能通信库,支持 NGC 加速平台等功能。并能实现多用户、多租户管理集群。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">PODsys <span style="color: black;">供给</span>了全面的系统监控和管理,<span style="color: black;">帮忙</span>用户实时监控集群的状态和性能指标。<span style="color: black;">经过</span>可视化的界面,用户<span style="color: black;">能够</span>查看集群资源的<span style="color: black;">运用</span><span style="color: black;">状况</span>、作业的执行情况和性能瓶颈,从而<span style="color: black;">即时</span><span style="color: black;">调节</span>集群配置和优化作业性能,来<span style="color: black;">保准</span>算力平台的高性能和稳定运行。</span></p>
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/e30ce99d93ce43bdbee168b899baecc4~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727401512&x-signature=sh%2Bxaa0u7ZWrI%2FlWTXltDZwVxLg%3D" style="width: 50%; margin-bottom: 20px;"></div>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">另外</span>,PODsys 具备<span style="color: black;">有效</span>的资源调度和作业管理功能,<span style="color: black;">能够</span><span style="color: black;">按照</span>用户的<span style="color: black;">需要</span>自动调度和管理作业,<span style="color: black;">保证</span>集群的资源利用率和作业的执行效率。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">伴同</span>着大模型的快速应用,算力平台的鲁棒性、易用性、<span style="color: black;">安排</span>效率<span style="color: black;">作为</span>用户关注的首要问题。针对<span style="color: black;">商场</span>用户,PODsys 还<span style="color: black;">供给</span>专业的算力平台性能调优服务。总之,PODsys <span style="color: black;">供给</span>了一套完整的工具链,将大模型平台<span style="color: black;">安排</span>变得像系统安装<span style="color: black;">同样</span>简单,让用户省时、省力地<span style="color: black;">安排</span>大模型算力平台,助力大模型创新走好<span style="color: black;">第1</span>步。</span></p>
真情实感,其含义为认真了、走心了的意思,是如今的饭圈常用语。 期待楼主的下一次分享!” i免费外链发布平台 http://www.fok120.com/ 回顾历史,我们不难发现:无数先辈用鲜血和生命铺就了中华民族复兴的康庄大道。
页:
[1]