中文 英语
首页
技术论文

ISA和微架构扩展在密集矩阵引擎上支持cpu的灵活结构化稀疏性(佐治亚理工学院,英特尔实验室)

受欢迎程度

佐治亚理工学院和英特尔实验室的研究人员发表了一篇题为“VEGETA: cpu上稀疏/密集GEMM瓦加速的垂直集成扩展”的技术论文(预印本)。

文摘:

cpu中的深度学习(DL)加速支持最近获得了很大的吸引力,几家公司(Arm、英特尔、IBM)宣布了带有通过GEMM指令访问的专用矩阵引擎的产品。cpu无处不在,需要处理边缘/HPC/云平台上运行的DL工作负载的不同需求。因此,随着DL工作负载采用稀疏性来减少模型的计算量和内存大小,cpu也必须增加对稀疏性的支持,以避免密集矩阵引擎的利用不足和缓存和寄存器的低效使用。这项工作提供了一组ISA和微架构扩展,用于密集矩阵引擎,以支持cpu的灵活结构化稀疏性,支持具有不同稀疏度的各种DL模型的可编程支持。与cpu中最先进的(SOTA)密集矩阵引擎相比,在运行4:4(密集)、2:4、1:4和非结构化(95%)稀疏DNN层时,VEGETA引擎提供1.09倍、2.20倍、3.74倍和3.28倍的加速。”

找到这里是技术文件.预印本于2023年2月出版。

Jeong, Geonhwa等,“bebeta: cpu上稀疏/密集GEMM瓦加速的垂直集成扩展。“arXiv预印本arXiv:2302.08687(2023)。



留下回复


(注:此名称将公开显示)

Baidu