密歇根Harini Muthukrishnan (U);大卫Nellans——丹尼尔·拉斯帝格(英伟达);杰弗里·a·菲斯勒,托马斯Wenisch密歇根(U)。
抽象——“尽管继续inter-GPU通信机制的研究,从multiGPU系统提取性能仍然是一个重大挑战。Inter-GPU沟通通过批量DMA-based转移公开数据传输延迟GPU的至关重要的执行路径,因为这些大转移逻辑计算内核之间的交叉。相反,细粒度的点对点的内存访问内核执行期间导致内存摊位可以超过通过多线程gpu覆盖这些操作的能力。更糟的是,这些在当前inter-GPU互联sub-cacheline转移效率非常低下。解决这些问题,我们提出PROACT,系统启用远程内存传输的可编程性和管道优势点对点商店,同时实现互连,对手散装DMA传输效率。结合编译时仪器和精密跟踪的数据块准备在每个GPU, PROACT使interconnect-friendly数据传输而隐藏在内核通过管道传输延迟执行。本工作描述PROACT的硬件和软件实现和演示PROACT软件原型的有效性三代GPU硬件和互联。实现效率接近理想的互连,PROACT实现平均加速3.0×singleGPU 4-GPU系统性能,捕获83%的可用性能的机会。16-GPU NVIDIA DGX-2系统上,我们将演示一个11.0×single-GPU平均strong-scaling加速性能,5.3×比散装DMA-based方法。”
找到技术纸在这里。
技术论文发表于ACM和IEEE 2021年第48届国际研讨会上计算机体系结构。
留下一个回复