您好,欢迎访问代理记账网站
移动应用 微信公众号 联系我们

咨询热线 -

电话 15988168888

联系客服
  • 价格透明
  • 信息保密
  • 进度掌控
  • 售后无忧

2018:MIXED PRECISION TRAINING OF CONVOLUTIONAL NEURAL NETWORKS USING INTEGER OPERATIONS论文阅读---使用整数运算

2018:MIXED PRECISION TRAINING OF CONVOLUTIONAL NEURAL NETWORKS USING INTEGER OPERATIONS论文阅读---未完待续!!!

  • Abstract
  • 1 INTRODUCTION
  • 2 RELATED WORK
  • 3 THE DYNAMIC FIXED POINT FORMAT(动态定点格式)
    • 3.1 DFP TENSOR PRIMITIVES(dfp张量原语)
  • 4 NEURAL NETWORK TRAINING USING DYNAMIC FIXED POINT(使用动态顶点进行神经网络训练)
    • 4.1 TRAINING WITH DYNAMIC FIXED POINT(动态顶点训练)
    • 4.2 CORE COMPUTE KERNELS(核心计算内核)
    • 4.3 HANDLING OVERFLOWS IN INT16-INT32 FMAS(在Int-16与Int32FMAS(频段)的处理溢出)
  • 5 EXPERIMENTS AND RESULTS(实验和结果)
    • 5.1 ACCURACY RESULTS FOR CNNS(cnns的精度结果)
    • 5.2 PERFORMANCE DISCUSSION(性能讨论)
  • 6 CONCLUSIONS(结论)

在这里插入图片描述

Abstract

用于混合精度训练的最先进的(SOTA)主要是各种低精度浮点运算,特别是FP16积累为FP32 Micikevicius等人(2017)。另一方面,虽然在低精度和混合精度Integer训练领域也发生了很多研究,但这些工作要么针对非sota网络(例如仅针对ImageNet-1K的AlexNet),要么针对相对较小的数据集(如cipf -10)。在这项工作中,我们在ImageNet-1K数据集上训练最先进的视觉理解神经网络,并在通用(GP)硬件上使用Integer操作。特别地,我们关注整数融合乘加(FMA)操作,它接受两对INT16操作数并将结果累积为INT32输出。我们提出了张量的共享指数表示,并开发了一种适用于常见神经网络操作的动态不动点(DFP)方案。研究了开发高效整数卷积核的细微差别,包括处理INT32累加器溢出的方法。实现ResNet-50、GoogLeNet-v1、VGG-16、AlexNet的CNN训练;这些网络在与FP32相同的迭代次数内达到或超过SOTA精度,而超参数没有任何变化,端到端训练吞吐量提高了1.8倍。据我们所知,这些结果代表了第一个使用SOTA cnn的GP硬件ImageNet-1K数据集的INT16训练结果,并使用半精度表示实现了最高的报告精度。

1 INTRODUCTION

虽然单精度浮点(FP32)表示一直是深度学习训练的主流,但半精度和半精度算法最近也引起了学术界和工业界的兴趣。这种兴趣主要源于与FP32相比,FP32的训练速度有可能提高2倍或更多,使用半精度时使用半精度时,例如,NVIDIA V olta NVIDIA(2017)提供的半精度失败比FP32多8倍。

与32b训练一致选择的单精度浮点不同,半精度训练既可以使用半精度浮点(FP16),也可以使用整数(INT16)。这两个选项提供不同程度的精度和范围;与FP16相比,INT16具有更高的精度但更低的动态范围。这也导致半精度表示法和单精度表示法之间的残差有根本的不同——整数表示法对张量的较大(可能更重要)元素的残差更小。除了数据类型上的一级区别之外,每个数据类型都有多个算法和语义差异(例如,FP16乘积操作积累为FP32结果)。因此,在讨论半精度训练时,为了达到SOTA精度,必须综合考虑张量表示的整个色域、乘加运算的语义、下转换方案(如果累加精度更高)、标度和归一化技术以及溢出管理方法。事实上,除非选择了上述向量的正确组合,否则半精度训练很可能失败。相反,如果不正确地选择所有向量,就会得出不准确的结论。

在这项工作中,我们描述了混合精度训练设置,使用:
• INT16 tensors with shared tensor-wide exponent, with a potential to extend to sub-tensor
wide exponents.(具有共享张量宽指数的INT16张量,有可能扩展到次张量宽指数。一个指令,将两个INT16数相乘,并将输出存储到一个INT32累加器中。
• An instruction which multiplies two INT16 numbers and stores the output into a INT32
accumulator.(将两个INT16数相乘并将输出存储到INT32累加器中的一种指令。。)
• A down-convert scheme based on the maximum value of the output tensor in the current iteration using multiple rounding methods like nearest, stochastic, and biased rounding.(基于当前迭代中输出张量的最大值的下转换方案,使用多种舍入方法,如最近舍入、随机舍入和有偏舍入。)
• An overflow management scheme which accumulates partial INT32 results into FP32, along with trading off input precision with length of accumulate chain to gain performance.(一种溢出管理方案,将INT32的部分结果累积到FP32中,并权衡输入精度和累积链的长度以获得性能。)

神经网络训练的计算主要是GEMM-like、卷积或点积操作。通过专门的低精度的融合乘加(FMA)指令(如VX512_4VNNI 1),这些指令可以加速。然而,这并不一定意味着对所有张量使用半精度表示,或者只使用半精度运算。事实上,在前向传播和后向传播(FPROP、BPROP和WTGRAD)中迁移计算密集型操作所获得的性能加速,通常接近于在半精度下替换所有操作(例如SGD)所获得的最大加速。如果不是这样,性能下降通常是由于内存带宽的限制和其他体系结构原因造成的。因此,在平衡的通用机床上,可以采用混合精度策略,即保持精度关键操作(如SGD和一些归一化)在单一精度和计算密集型操作在半精度。提出的基于整数-16的混合精度训练遵循此模板。

使用上述方法,我们在ImageNet-1K数据集Deng et al.(2009)上训练多个视觉理解cnn,获得匹配或超过单个精度结果的Top-1精度Russakovsky等人(2015)。这些结果是在不改变任何超参数的情况下获得的,迭代次数与基线FP32训练一样多。我们对ResNet-50实现了75.77%的Top-1精度,据我们所知,这大大超过了半精度训练的任何结果,例如米奇克维西乌斯等人(2017);Ginsburg等人(2017)。此外,我们还演示了我们的方法通过在GoogLeNet-v1、VGG-16和AlexNet网络上进行int16训练,实现了最先进的精度(与FP32基线相当)。据我们所知,这是第一次使用int16训练得到这样的结果

本文的其余部分组织如下:第2节讨论了有关半精确训练的各个方面的文献。表示半精度张量的动态不动点格式将在第3节中描述。第4节介绍动态不动点核和神经网络训练操作,第5节给出实验结果。最后,我们在第6节中总结了本文的工作。

2 RELATED WORK

利用降低精度进行深度学习一直是一个活跃的研究课题。因此,有许多不同的降低精度数据表示,更标准的基于浮点数等人(2017);金斯伯格等人(2017);德特默斯(2015)和自定义定点方案范霍克等人(2011);库尔巴里奥等人(2014);古普塔等人(2015);Hubara等人(2016b);Kos特等人(2017)。

Micikevicius等人(2017)最近发表的混合精度训练工作使用16位浮点存储来进行激活、权重和梯度。正向、反向传播计算使用FP16计算,结果累积到FP32中,并保留全精度(FP32)权重的主副本用于更新操作。他们展示了各种各样的深度学习训练应用程序,包括深度网络和更大的数据集(ILSVRC类问题),与基线FP32结果相比,损失最小。此外,这表明FP16/FP32混合精度需要损失缩放Ginsburg等人(2017)来实现接近SOTA的精度。这确保了反向传播的梯度值被移到FP16可表示的范围内,并捕获了对精度至关重要的小幅度(负指数)值。这种尺度是不动点表示固有的,使得它更适合和更适合深度学习训练。

自定义定点表示(Custom fixed point representations)提供了更大的灵活性—在提高精度和动态范围方面。这允许更好地将表示映射到底层应用程序,从而使其比基于浮点的方案更健壮和准确。Vanhoucke等人(2011)已经表明,由Williamson(1991)提出的动态缩放不动点表示对于卷积神经网络非常有效——在通用CPU硬件上,与积极调整的浮点实现相比,其性能提高了4倍。Gupta等人(2015)对低精度不动点计算对深度学习的影响进行了全面的研究,并成功地在专门的硬件上使用16位不动点训练出了较小的网络。随着比特宽度的进一步减小,这种不动点数据表示更有吸引力——用更大的尾数位和动态缩放的共享指数提供更高的精度能力。

已经有一些出版物具有<16位精度,而且几乎所有的出版物都使用这种自定义定点方案。Courbariaux等人(2014)使用一种动态不动点格式(DFXP),使用12位操作进行低精度乘法。在此基础上,Courbariaux等人(2015)提出了仅使用二进制权的训练,而所有其他张量和操作都是完全精确的。Hubara等人(2016a)进一步扩展了这一点,也使用了二进制激活,但梯度和权重仍然保持完全精度。Hubara等人(2016b)提出了激活和权重量化到6位和梯度的训练。Rastegari等人(2016)对包括梯度在内的所有组件使用二进制表示。然而,上述所有方法都使用了较小的基准模型/数据集,并且使用较大的ImageNet数据集Deng等人(2009)和分类任务鲁萨科夫斯基等人(2015),导致精度明显下降。Koster等人(2017)已经表明,为深度神经网络(Flexpoint)设计的不动点数值格式优于FP16,并在广泛的应用中实现了与FP32的数值奇偶性。然而,这是专门为专门的硬件而设计的,并且发布的结果是通过软件模拟来实现的。在这里,我们提出了一个更一般的动态不动点表示和相关的计算原语,它可以利用使用智能计算管道的通用硬件。此外,我们提供了实际的准确性和性能,以训练大型网络的ILSVRC分类任务,在可用的硬件上测量。

3 THE DYNAMIC FIXED POINT FORMAT(动态定点格式)

3.1 DFP TENSOR PRIMITIVES(dfp张量原语)

4 NEURAL NETWORK TRAINING USING DYNAMIC FIXED POINT(使用动态顶点进行神经网络训练)

4.1 TRAINING WITH DYNAMIC FIXED POINT(动态顶点训练)

4.2 CORE COMPUTE KERNELS(核心计算内核)

4.3 HANDLING OVERFLOWS IN INT16-INT32 FMAS(在Int-16与Int32FMAS(频段)的处理溢出)

5 EXPERIMENTS AND RESULTS(实验和结果)

5.1 ACCURACY RESULTS FOR CNNS(cnns的精度结果)

5.2 PERFORMANCE DISCUSSION(性能讨论)

6 CONCLUSIONS(结论)

       我们在大型网络/数据集上降低基于int的精度训练结果。在存储精度相当或更好,在计算、通信和存储方面可能节省2×。此外,我们提出了一种通用的动态顶点表示方案,与相关的计算原语和算法的共享指数管理。这个DFP解决方案可以与通用硬件一起使用,利用整数计算管道。我们通过对ResNet-50、GoogLeNet-v1、VGG-16和AlexNet进行CNN训练来演示这一点;用混合精度的DFP16训练这些网络,用于ImageNet-1K分类任务。虽然这项工作的重点是视觉理解cnn,但在未来,我们计划展示这种方法对其他类型的网络的有效性,如rnn、lstm、gan,并将其扩展到更广泛的应用集。


分享:

低价透明

统一报价,无隐形消费

金牌服务

一对一专属顾问7*24小时金牌服务

信息保密

个人信息安全有保障

售后无忧

服务出问题客服经理全程跟进