带宽优化新思路:RoCE网卡聚合完成X2增加_新闻中心_天博克罗地亚官网-天博克罗地亚首页
当前位置: 首页 > 新闻中心

带宽优化新思路:RoCE网卡聚合完成X2增加

作者:天博克罗地亚  时间:2024-10-20 13:58:11

  本文共享自华为云社区《2个RoCE网卡Bond聚合,完成带宽X2》,作者: tsjsdbd 。

  咱们知道操作系统里边,能够将2个实践的物理网卡,合体构成一个“逻辑网卡”,从而到达如主备/提高带宽等意图。可是RoCE网卡,是否也跟一般网卡相同,支撑Bond才能呢?答案是的,RoCE也能够组Bond,仅仅比一般网卡多了一些束缚。

  今日咱们就来实在的操作一下这样的一个进程,并了解其间必需要分外留意的当地。也欢迎一同交流学习。

  比较一般网卡一共0-6共七种形式而言,算是打了大折。好在咱们想要的“提高带宽”的形式仍是有的。

  不同的操作系统,履行Bond的指令不相同。这儿我实在的操作的是Ubuntu22.04,运用自带的 netplan东西,履行bond进程如下:

  这儿因为RDMA点对点通讯的时分,IP+MAC地址都不会变。所以咱选 layer3+4,究竟发送报文的时分,源端口仍是随机的。

  终究一条echo 128指令,是指强制网卡发送的报文的Traffic Class为128,即匹配网卡发送行列4。不设置的话也行,能够终究靠 NCCL_IB_TC=128 达到相同的意图。详细能够学习《为什么华为云上AI练习有必要设置NCCL_IB_TC=128》一文。

  不同的交换机敞开LACP形式的指令不相同,这儿类型是 CE9860。履行如下:

  上面的指令,其实除了敞开pfc之外,还设置了网口对应的buffer巨细。详细参数值巨细自己看着办。