C114讯 4月17日音讯(九九)曩昔几年,大模型掀起算力根底设施建造的“军备竞赛”,对用于数据中心光互联的高速数通光模块需求明显地增加,且速率从400G敏捷迭代到800G,再到1.6T。在此布景下,“超大规划智算中心:1.6T年代的全光互联”研讨会于4月17日下午举行,就智算中心内光互联进行深入探讨,展现光互连技能的最新进展状况,介绍未来展开的新趋势, 推进智算中心互联技能的立异展开。
中国移动研讨院根底网络技能研讨所副所长程伟强在会议讲演中表明,大规划智算集群年代,高功用练习和推理服务需求超大规划算力支撑,网络成为算力功率的瓶颈。跟着智算网络卡间互联提高单点算力、机间互联扩展集群规划、集群间互联拓宽分布式算力集群才能,1.6T以太网成为业界重视的焦点。
当时,AI推进全球根底设施厂商加快1.6T技能验证和产品研发,国际规范安排IEEE、OIF等也已展开1.6TE规范拟定作业。
200G/lane多模光技能是传统DC、智算中心内的1.6TE 100m内短距互联优选处理方案;现在802.3NEA已展开200G/lane MMF Optical PMDs评论,中国移动正在参加200G/lane MMF CFI,后续将联合推进建立SG或TF。400G单通道技能对优化1.6TE系统架构、提高系统功用和下降全体功耗有重要意义,是1.6TE技能规范的演进方向。
聚集智算中心间互联,简化相干技能在IEEE 800GE速率已下沉至10km,一起新增ER1-20规范,支撑ER1-20、ER1、ZR/ZR+接口的互操作。OIF已领跑1.6T相干,同步展开1600ZR和1600ZR+规范化研讨,IEEE暂未展开1.6TE相干规范研讨;从技能可行性、互操作和共工业渠道等方面考虑,1.6TE相干掩盖2km~40km场景并选用一致方案将会是规范化和工业化的优选方案。
现在,国内外多个OTT正逐渐构建跨智算中心分布式练习环境,已开端布置彩光方案以优化网络功用,这一范畴正成为业界重视的焦点。OIF 800ZR规范已于2024年末发布,将在2025年迎来试点验证元年;1.6T ZR/ZR+在智算互联带动下将进入加快速度进行展开期。
面向智算中心内和智算中心间组网,中国移动别离推出GSE和UDCI技能系统。
其间,全调度以太网(GSE)选用一致规划理念及技能架构,构建GSE-N2N和GSE-E2E两大场景,满意不同GPU服务器组网需求。GSE-N2N是纯网侧优化方案,在网侧运转GSE,网卡不感知网络行为,无额定功用要求,适配华为昇腾GPU等直出网卡服务器;GSE-E2E是端网协同优化方案,部分功用下沉网卡,完结端网协同,适配英伟达GPU等装备独立网卡服务器。
现在,中国移动已完结现网百卡级GSE-N2N中试渠道中试验证,网络功用较传统RoCE网络提高50%以上;并发布GSE-N2N首套千卡级商用方案和全套技能规范及GSE网卡芯片“智算琢光”。后续期望联合合作伙伴推进GSE-N2N万卡级验证系统发布。针对GSE-E2E场景,方案年内将200G GSE网卡芯片面向商用。
跟着1.6T ZR/ZR+被广泛选用,光和IP的交融是必然趋势。中国移动根据IP+光交融打造的超级数据中心互联技能系统,面向跨智算中心高突发、多并发“大象流”传输带来的网络运力受损、算效下降等问题,打破3大立异技能,打造具有超大带宽、超精细流控、超高安全的智算互联网络根底设施,助力AI大模型分布式练习、AI普惠推理、存算别离等新式智算事务的立异及使用。
一是立异提出10T级聚合通道SuperPipe技能,根据报文组分发的广域网以太网端口聚合机制,完结单通道400G-32T自适应带宽调整,处理传统链路聚合技能(LAG、ECMP)不足以满意跨智算中心出口收敛状况下的负载均衡难题。
二是立异提出微流级精准流控MicroPFC,切片ID标识微流,将拥塞状况在网络内部逐跳反压,支撑百万级微流,打破传统网络仅支撑端口级8行列反压瓶颈,完结长距离精准拥塞操控。
三是原创以太网物理层比特流加密机制物理层安全PHYSec,处理传统IPSec、MACSec根据报文加密大开支、高时延问题,完结0开支、全加密、纳秒级时延的线速加解密。
到现在,中国移动现已发布《新式智算中心以太网物理层安全(PHYSec)架构白皮书》,在CCSA完结PHYSec整体技能方面的要求和高速直检链路数据面技能方面的要求立项,已推进芯片和光模块厂家开端技能验证和芯片开发,下一步方案推出原型芯片和原型光模块,完结多厂家互通测验
电话: 134-5561-6515
地址: 山东省潍坊市昌乐