端点和结构链路的结构域的主机域

发布时间:2020/11/3 22:03:11 访问次数:677

高性能计算环境开始使用GPU，因为GPU能够快速处理深度学习和机器学习应用中生成的大量数据。不过，就像许多可提高应用性能的新型数据中心创新一样，这项创新也暴露出新的系统瓶颈。在这些应用中，用于提高系统性能的新兴架构涉及通过一个PCIe®结构在多个主机之间共享系统资源。

PCIe标准(特别是其基于树的传统层级)会限制资源共享的实现方式(和实现程度)。不过，可以实现一种低延时的高速结构方法，这种方法允许在多个主机之间共享大量GPU和NVMe SSD，同时仍支持标准系统驱动程序。

PCIe结构方法采用动态分区和多主机单根I/O虚拟化(SR-IOV)共享。各PCIe结构之间可直接路由点对点传输。这样便可为点对点传输提供最佳路由，减少根端口拥塞，并且更有效地平衡CPU资源的负载。

一个PCIe结构交换网(本例中为Microchip Switchtec® PAX系列的成员)在两个独立但可透明互操作的域中实现：即包含所有端点和结构链路的结构域以及每个主机专用的主机域。主机通过在嵌入式CPU上运行的PAX交换网固件保留在单独的虚拟域中，因此，交换网将始终显示为具有直连端点的标准单层PCIe设备，而与这些端点出现在结构中的位置无关。

主机域的事务会在结构域中转换为ID和地址，反之，结构域中通信的非分层路由也是如此。这样，系统中的所有主机便可共享连接交换网和端点的结构链路。交换网固件会拦截来自主机的所有配置平面通信(包括PCIe枚举过程)，并使用数量可配置的下行端口虚拟化一个符合PCIe规范的简单交换网。

当所有控制平面通信都路由到交换网固件进行处理时，数据平面通信直接路由到端点。其他主机域中未使用的GPU不再滞留，因为它们可以根据每个主机的需求动态分配。结构内支持点对点通信，这使其能够适应机器学习应用。当以符合PCIe规范的方式向每个主机提供功能时，可以使用标准驱动程序。

CUDA发现了四个GPU，点对点带宽测试就会显示单向传输速率为12.8 GBps，双向传输速率为24.9 GBps。这些传输直接跨过PCIe结构，而无需通过主机。如果运行用于训练Cifar10图像分类算法的TensorFlow模型并使工作负载分布在全部四个GPU上，则可以将两个GPU释放回结构池中，将它们与主机解除绑定。这样可以释放其余两个GPU来执行其他工作负载。与Windows主机一样，Linux主机也将交换网视为简单的PCIe交换网，无需自定义驱动程序，而CUDA也可以发现GPU，并在Linux主机上运行P2P传输。性能类似于使用Windows主机实现的性能。

PCIe交换网结构是一种能够充分利用CPU巨大性能的绝佳方法，但PCIe标准本身存在一些障碍。可以通过使用动态分区和多主机单根I/O虚拟化共享技术来解决这些难题，以便可以将GPU和NVMe资源实时动态分配给多主机系统中的任何主机，从而满足机器学习工作负载不断变化的需求。

(素材来源：21ic.如涉版权请联系删除。特别感谢）

上一篇：稳压电源的稳压性能放大器和阻抗变换器

上一篇：台积电5nm加强版N5P制程

相关技术资料: 7-12PWM输入功率驱动器工作原理; 7-12隔离式 DC/DC 变换器和模块优势特征; 7-12解读集成4 个高效降压 DC/DC 变换器; 7-12数字隔离功能全集成 DC/DC 电源变换器简述; 7-12集成低噪声电流输入模数转换器 (ADC)应用详解; 7-12128 通道20 位电流数字转换器应用探究; 7-11最新12kW量产电源参考设计简述; 7-11第三代快速碳化硅MOSFET技术参数应用; 7-11800 V高压直流 (HVDC)全新架构电源系统; 7-11串行千兆位媒体独立接口（SGMII和RGMII）; 7-11Analog Devices ADIN3310应用详情; 7-11干簧传感器MK17系列应用详解

相关IC型号: 2SC5435-T1; BCX56-10115; AT45DB041BSC; XH511AAH; TC9411F; MD2114AL-3/B; SD12T1G; CY7C261-25WMB; AD7547JR; HCPL2611

端点和结构链路的结构域的主机域

热门点击

推荐技术资料