本文共享自华为云社区《2个RoCE网卡Bond聚合,完成带宽X2》,作者: tsjsdbd 。
咱们知道操作系统里边,能够将2个实践的物理网卡,合体构成一个“逻辑网卡”,从而到达如主备/提高带宽等意图。可是RoCE网卡,是否也跟一般网卡相同,支撑Bond才能呢?答案是的,RoCE也能够组Bond,仅仅比一般网卡多了一些束缚。
今日咱们就来实在的操作一下这样的一个进程,并了解其间必需要分外留意的当地。也欢迎一同交流学习。
比较一般网卡一共0-6共七种形式而言,算是打了大折。好在咱们想要的“提高带宽”的形式仍是有的。
不同的操作系统,履行Bond的指令不相同。这儿我实在的操作的是Ubuntu22.04,运用自带的 netplan东西,履行bond进程如下:
这儿因为RDMA点对点通讯的时分,IP+MAC地址都不会变。所以咱选 layer3+4,究竟发送报文的时分,源端口仍是随机的。
终究一条echo 128指令,是指强制网卡发送的报文的Traffic Class为128,即匹配网卡发送行列4。不设置的话也行,能够终究靠 NCCL_IB_TC=128 达到相同的意图。详细能够学习《为什么华为云上AI练习有必要设置NCCL_IB_TC=128》一文。
不同的交换机敞开LACP形式的指令不相同,这儿类型是 CE9860。履行如下:
上面的指令,其实除了敞开pfc之外,还设置了网口对应的buffer巨细。详细参数值巨细自己看着办。
电话: 134-5561-6515
地址: 山东省潍坊市昌乐