中文 英语
18.luck新利
的意见

人工智能基准被打破

以推理为中心的基准测试可能会分散SoC设计人员的注意力,无法优化端到端AI应用程序的性能。

受欢迎程度

人工智能(AI)正在成为我们这个时代最具革命性的技术之一。到目前为止,你可能已经听说人工智能的影响将改变整个行业,从医疗保健到金融再到娱乐,为我们提供更丰富的产品,简化的体验,并提高人类的生产力、创造力和休闲时间。

由于可访问的、基于云计算的应用程序的部署,即使是非技术人员也能窥见这种技术对世界的潜在影响将是多么普遍ChatGPT,一个人工智能驱动的聊天机器人,可以就广泛的主题与用户进行自然语言对话,DALL-E,一个从文本描述生成图像的人工智能模型

为了满足研究人员和希望开拓这些人工智能应用并从中获利的公司的需求,人工智能硬件行业正在经历显著的增长。根据Allied Market Research的一份报告,2018年全球人工智能硬件市场价值为48.5亿美元,预计到2027年将达到2611.11亿美元,从2020年到2027年的复合年增长率为38.9%。

半导体和超大规模领域的现有硬件巨头,以及瞄准数据中心和边缘市场的硅初创公司,一直在大力投资,开发专门为人工智能工作负载设计的新型处理器、芯片和其他硬件。这种竞争为人工智能应用程序开发人员带来了丰富的计算平台选择;但是有这么多可用的,选择合适的解决方案变得越来越困难。尝试预测计算平台将最好地支持未来的应用程序是不可能的或目前还不存在的,这是更加艰巨的任务。

标准化人工智能硬件性能基准

为了更直接地比较这些计算平台,来自百度,谷歌,哈佛大学,斯坦福大学和加州大学伯克利分校的工程师和研究人员创建了MLCommons在2018年。MLCommons建立了MLPerf,这是一套衡量机器学习性能的行业标准指标。MLPerf基准测试已经成为比较不同深度神经网络(DNN)推理系统相对性能的有用工具。然而,DNN推理性能并不总是一个平台更广泛的AI应用程序性能潜力的良好指标。

MLPerf基准测试包括一些通用dnn,适用于各种AI用例,如图像分类、对象检测、语音到文本和自然语言处理(NLP)。理论上,这些MLPerf基准测试使AI应用程序开发人员有机会看到每个计算平台在他们希望实现解决方案的任务上的执行情况的苹果对苹果的比较;然而,它们未能解决部署AI应用程序的最重要方面之一:围绕DNN推断的计算。

MLPerf的推理规则,他们指出“匹配参考模型的样本独立预处理是不定时的”,包括:

  • 调整到模型的输入大小
  • 重新排序的渠道
  • 做任意换位
  • 填充到任意大小
  • 裁剪成单一的,一致的大小
  • 通道正常化
  • 数值格式之间的转换(强制转换)

排除执行这些操作所需的时间是有问题的,因为很少(如果有的话)部署一个AI应用程序,像直接将图像数据从相机或传感器传递到DNN进行推理这样简单。同样,如果没有某种类型的后处理,这些dnn的原始推断输出也很少有意义。

一个“大图景”AI应用的例子

作为一个例子,让我们深入研究一个您可能已经熟悉的现实世界示例AI应用程序:人脸识别。

下面是描述人脸识别应用程序的简单流程图,类似于由苹果公司推广的面部识别应用程序作为其设备数字密码的替代方案:

整个人脸识别应用程序管道由11个内核组成。这些内核中有9个由经典算法组成,这些算法通常被编译为针对DSP或CPU,而不是推理加速器。这些经典算法对于从dnn的推理中提取有意义的信息是必要的,但如果将该应用程序作为基准,则可能无法根据当前MLPerf的推理规则进行报告。

任何尝试过部署类似前面描述的对象检测管道的人都知道,在优化性能时不能忽略这些算法。这些算法最多只计算随数据大小线性扩展的元素操作。在最坏的情况下,它们可能会超线性扩展,成为高吞吐量、大数据或低延迟应用程序的瓶颈。

例如,让我们关注Kernel #6: Non-max suppression (NMS)。该内核在内核#5中的人脸检测DNN预测的边界盒坐标上计算非最大抑制滤波器。NMS是对象检测算法中常用的后处理步骤,用于删除对同一对象的重复检测。这个过程包括比较所有检测的分数,只保留得分最高的那个。

虽然这看起来很简单,但它可能是一个计算成本很高的操作,因为它涉及将每个检测与所有其他检测进行比较,有时还根据分数对它们进行排序。这意味着NMS的计算复杂度随着检测次数的增加而成倍增加。因此,如果有大量的检测(在对象检测任务中经常出现这种情况),NMS可能会变得非常耗时,并降低整个管道的速度。

为什么人工智能性能基准只关注推理?

像MLPerf这样的AI推理基准适用于经典算法和DNN推理被分割到不同的专用计算节点上运行的情况。DNN推理内核的目标是在AI加速器或神经处理单元(NPU)上运行,经典算法被编译为任何可用的CPU或数字信号处理器(DSP)。基准测试很容易将这一假设构建到其报告结构中,因为目前为AI应用程序设计硬件的行业标准方式(如前面描述的人脸识别管道)正在使用异构计算。

异构计算节点是具有针对特定任务优化的不同架构的计算设备,例如AI SoC可能包括CPU、GPU和AI加速器。异构计算作为人工智能的设计原则,带来了几个挑战:

  • 成本:SoC设计者必须获得多个许可证,并为每个计算处理器IP核支付专利费。这些成本使得这些芯片的设计和销售更加昂贵,这可能会将它们排除在价格敏感的设备和市场之外。
  • 电力消耗&面积:多处理器需要更多的硅晶片面积,即使在未充分利用的情况下也会消耗电力,这使得它们无法用于功率敏感的电池驱动设备或可穿戴设备等空间敏感设备。
  • 可编程性:异构计算平台可以针对不同的任务进行优化,但对它们进行编程可能具有挑战性和耗时,因为每个处理器必须显式地针对应用程序管道中最适合计算的部分。如果目标不正确,性能可能会受到很大影响。

对于希望在自己的解决方案中模拟基准测试中报告的性能指标的AI应用程序开发人员来说,可编程性挑战尤其令人担忧。

为AI计算的“大局”优化的硬件

AI推理基准测试(如MLPerf)并不代表与应用程序开发人员相关的AI计算的所有方面。此外,它们分散了SoC设计人员的注意力,使他们无法优化端到端AI应用程序的性能,这将使他们能够占领快速增长的AI硬件市场。对于整个人工智能计算,目前还没有标准化的基准。

Quadric用一种专为DNN推理和典型的AI管道推理经典算法设计的架构取代了异构设计范式:所有这些都在一个完全可编程的处理器中。软件开发人员瞄准Chimera通用神经处理单元(GPNPU)架构将体验到更高的生产力,因为不再需要在两种或三种不同的处理器之间划分AI应用程序,同时仍然可以获得为机器学习工作负载优化的处理器的性能优势。



留下回复


(注:此名称将公开显示)

Baidu