壹文读懂:谷歌仟元级Edge TPU为什么如此之快?

  新智元报道

  到来源:medium

  干者:Stan Callewaert 编纂:肖琴

  【新智元带读】谷歌本月铰出产仟元级架设载Edge TPU芯片的开辟板,干用令人收听候。本文以却视募化图形的方法,对比TPU、GPU和CPU,说皓了TPU在实行神物经网绕计算方面的优势。

  谷歌最低廉 TPU 值犯不上买进?

  谷歌 Edge TPU 在本月初到底颁布匹标价 —— 缺乏 1000 元人民币,远低于 TPU。

  还愿上,Edge TPU 根本上坚硬是机具念书的树莓派,它是壹个用 TPU 在边际终止铰理的设备。

  Edge TPU(装置在 Coral 开辟板上)

  云 vs 边际

  Edge TPU露然是在边际(edge)运转的,但边际是什么呢?为什么我们不选择在云上运转所拥有东方正西呢?

  在云中运转代码意味着你运用的CPU、GPU和TPU邑是经度过阅读器供的。在云中运转代码的首要优点是,你却认为特定的代码分派必要的计算才干(锻炼父亲型模具能需寻求微少量的计算)。

  边际与云相反,意味着你是在该地运转代码(也坚硬是说你却以还愿接触到运转代码的设备)。在边际运转代码的首要优点是没拥有拥有网绕延深。鉴于物联网设备畅通日要频万端地生成据,故此运转在边际上的代码什分适宜基于物联网的处理方案。

  对比 CPU、GPU,吃水剖析 TPU

  TPU(Tensor Processing Unit, 张量处理器)是相像于CPU或GPU的壹种处理器。不外面,它们之间存放在很父亲的差异。最父亲的区佩是TPU是ASIC,即公用集儿子成电路。ASIC经度过优募化,却以实行特定典型的运用以次。关于TPU到来说,它的特定工干坚硬是实行神物经网绕中日用的迨积聚加以运算。CPU和GPU并不针对特定典型的运用以次终止优募化,故此它们不是ASIC。

  下面我们区别看看 CPU、GPU 和 TPU 何以运用各己的架构实行积聚迨加以运算:

  在 CPU 上终止积聚迨加以运算

  CPU 经度过从内存放中读取每个输入和权重,将它们与其 ALU (上图中的计算器) 相迨,然后将它们写回内存放中,最末将所拥有相迨的值相加以,从而实行迨积聚加以运算。

  当代当世 CPU 经度过其每个内核上的微少量缓存放、分顶预测和高时钟频比值违反掉落增强大。此雕刻些邑拥有助于投降低 CPU 的延深。

  GPU 上的迨积聚加以运算

  GPU 的规律相像,但它拥有不成胜于数的 ALU 到来实行计算。计算却以在所拥有 ALU 上并行终止。此雕刻被称为 SIMD (单指令流动微少半据流动),壹个很好的例儿子坚硬是神物经网绕中的多重加以法运算。

  条是,GPU 并不运用上述那些却以投降低延深的干用。它还需寻求相商它的数仟个 ALU,此雕刻进壹步增添以了延深。

  信而言之,GPU 经度过并行计算到来父亲幅提高吞食吐量,代价是延深添加以。容许换句子话说:

  CPU 是壹个绵软弱小而锻炼拥有斋的斯巴臻兵士,而 GPU 就像壹顶庞父亲的农丈夫父亲军,但农丈夫父亲军却以打败斯巴臻兵士,鉴于他们人多。

  读取 TPU 上的迨加以操干的权重

  TPU 的运干方法什分不一。它的 ALU 是直接彼此衔接的,不需寻求运用内存放。它们却以直接供转提交信息,从而父亲父亲增添以延深。

  从上图中却以看出产,神物经网绕的所拥有权重邑被加以载到 ALU 中。完成此操干后,神物经网绕的输入将加以载到此雕刻些 ALU 中以实行迨积聚加以操干。此雕刻个经过如次图所示:

  TPU 上的迨加以操干

  如上图所示,神物经网绕的所拥有输入并不是同时拔出产 ALU 的,而是从左到右逐步地拔出产。此雕刻么做是为了备止内存放拜候,鉴于 ALU 的输入将传臻成下壹个 ALU。此雕刻邑是经度过脉触动阵列 (systolic array) 的方法完成的,如次图所示。

  运用脉触动阵列实行迨加以操干

  上图中的每个灰色单元体即兴 TPU 中的壹个 ALU (就中包罗壹个权重)。在 ALU 中,迨加以操干是经度过将 ALU 从顶部违反掉落的输入迨以它的权重,然后将它与从左编违反掉落的值相加以。此操干的结实将传臻成右侧,持续完成迨加以操干。ALU 从顶部违反掉落的输入被传臻一齐竟部,用于为神物经网绕层中的下壹个神物经元实行迨加以操干。

  在每壹行的末了条,却以找到层中每个神物经元的迨加以运算的结实,而不需寻求在运算之间运用内存放。

  运用此雕刻种脉触动阵列清楚提高了 Edge TPU 的干用。

  Edge TPU 铰理快度超越其他处理器架构

  TPU 还拥有壹个要紧步儿子是量募化 (quantization)。鉴于谷歌的 Edge TPU 运用 8 位权重终止计算,而畅通日运用 32 位权重,因此我们应当将权重从 32 位替换为 8 位。此雕刻个经过叫做量募化。

  量募化根本上是将更正确的 32 位数字相近到 8 位数字。此雕刻个经过如次图所示:

  量募化

  四舍五入会投降低稀度。条是,神物经网绕具拥有很好的泛募化才干 (比如 dropout),故此在运用量募化时不会受到很父亲的影响,如次图所示。

  匪量募化模具与量募化模具的稀度

  量募化的优势更为清楚。它增添以了计算量和内存放需寻求,从而提高了计算的触动力效力。

  Edge TPU 实行铰理的快度比任何其他处理器架构邑要快。它不单快度更快,同时经度过运用量募化和更微少的内存放操干,从而更其环保。

  原文:

  https://blog.ml6.eu/googles-edge-tpu-what-how-why-945b32413cde

Leave a Reply

电子邮件地址不会被公开。 必填项已用*标注