当前位置：动态资讯

深度神经网络每秒分类近20亿张图像，新型类脑光学分类器芯片登上Nature

发布时间：2022-06-21

应用从计算机视觉到医学诊断的深度神经网络，通常使用基于时钟的处理器来实现，其中计算速度主要受时钟频率和内存访问时间的限制。在光学领域，尽管光子计算取得了进步，但缺乏可扩展的片上光学非线性和光子器件的损耗限制了光学深度网络的可扩展性。

在这里，宾夕法尼亚大学的研究团队报告了一种集成的端到端光子深度神经网络（PDNN），该网络通过直接处理撞击在片上像素阵列上的光波，在它们通过神经元层传播时执行亚纳秒级图像分类。

在每个神经元中，光学执行线性计算，光电实现非线性激活函数，允许分类时间低于 570 ps，与最先进的数字平台的单个时钟周期相当。均匀分布的供应光可提供相同的每个神经元光输出范围，从而可扩展到大规模 PDNN。证明了手写字母的二类和四类分类，准确率分别高于 93.8% 和 89.8%。

光学数据的直接、无时钟处理消除了模数转换和对大内存模块的需求，从而为下一代深度学习系统提供更快、更节能的神经网络。

该研究以「An on-chip photonic deep neural network for image classification」为题，于 2022 年 6 月 1 日发布在《Nature》。

模仿人脑工作的深度神经网络现在通常为计算机视觉、语音识别等提供支持。然而，它们越来越受到用于实现它们的硬件的限制。现在，科学家们已经在光子微芯片上开发了一种深度神经网络，可以在不到一纳秒的时间内对图像进行分类，这与最先进的电子设备中的时钟的单个滴答时间大致相同。

在人工神经网络中，被称为「神经元」的组件被输入数据并协同解决问题，例如识别人脸。神经网络反复调整其神经元之间的联系，并查看由此产生的行为模式是否能更好地找到解决方案。随着时间的推移，网络会发现哪些模式最适合计算结果。然后它采用这些作为默认值，模仿人脑中的学习过程。如果一个神经网络拥有多层神经元，它就被称为「深度」。

尽管这些人工智能系统越来越多地找到现实世界的应用程序，但是鉴于运行它们的硬件，它们面临着许多重大挑战。首先，它们通常使用基于数字时钟的平台来实现，例如图形处理单元（GPU），这将它们的计算速度限制在时钟频率上——对于大多数最先进的 GPU 来说小于 3 GHz。其次，与可以计算和存储数据的生物神经元不同，传统电子设备将内存和处理单元分开。在这些组件之间来回穿梭数据会浪费时间和精力。

此外，原始视觉数据通常需要转换为数字电子信号，耗时较长。此外，通常需要大内存单元来存储图像和视频，从而引发潜在的隐私问题。

受人脑中分布式数据处理的启发，深度神经网络旨在使用互连的神经元（节点）层来处理输入数据，这些神经元可以使用一组训练数据进行训练以学习特定任务。一旦经过训练，该网络就可以在一组新的数据上以高精度执行相同的任务。

深度神经网络的一般架构：首先排列输入数据，然后使用第一层的神经元进行处理，然后是中间（隐藏）层。分类结果出现在最后（输出）层的输出。网络中的每个神经元通过将其输入的加权和传递给非线性激活函数来生成输出。

图 1：传统和光子-电子深度神经网络。（来源：论文）

深度神经网络通常使用基于数字时钟的平台来实现，例如图形处理单元 (GPU) 或专用集成电路 (ASIC)。GPU 是高度可重构的处理器，能够并行执行大量计算，但它们的计算时间主要受时钟频率（最先进的 GPU 大多小于 3 GHz）和内存访问时间的限制。与 GPU 相比，使用 ASIC 实现深度网络可以在单位能耗性能方面提供一到两个数量级的改进。

然而，它们通常面临与 GPU 类似的挑战，对于具有大量神经元层的更复杂的网络来说，GPU 变得更加显著。此外，对于数字实现平台，原始输入数据通常需要转换为电域、数字化和处理。通常，需要一个大的内存单元来存储数据集，这限制了处理时间，并且在图像或视频分类的情况下，可能会带来隐私问题。

光学频率下可用的大带宽以及纳米光子波导（用作互连）的低传播损耗，使光子集成电路成为实现快速和节能处理单元的有前途的平台，可以增强传统数字处理器的性能。

据报道，深度神经网络的光子实现提供了关键特性，例如网络内的高速线性操作和低损耗高带宽连接。然而，到目前为止，神经网络的所有演示仅限于台式设置或深度学习网络部分的集成，并且由于缺乏可扩展的片上非线性功能和级联光子器件的无补偿损耗，尚未演示用于数据分类的可扩展、完全集成的光子深度学习系统。

宾夕法尼亚大学的研究人员报告了第一个集成的端到端 PDNN 的演示，它使用传播计算来执行亚纳秒图像分类。目标图像在用作输入像素的光栅耦合器阵列上形成，其中照射在不同像素上的光波被耦合到相应的纳米光子波导中，并在光通过 PDNN 芯片上不同层的神经元传播时进行处理。通过供应光的均匀分布，网络中的所有神经元具有相同的光输出范围，从而可以扩展到大量层。

作为概念验证，PDNN 芯片用于手写字母的二类和四类分类，准确率分别高于 93.8% 和 89.8%。测量表明，PDNN 系统能够实现 570 ps 的端到端分类时间；这与最先进的数字平台的单个时钟周期相当。

作为比较点，使用 Keras 在 Python 环境中实现的传统深度神经网络分类器在相同数据集上实现了 96% 的准确率。已实现的 PDNN 具有直接、无时钟的输入图像处理功能，无需进行光电检测、缩放和放大、模拟到数字转换、数据对齐和大型内存模块；从而为下一代深度学习系统实现更快、更节能、更具隐私意识的神经网络。PDNN 芯片集成在 9.3 mm^2 的封装内。

实现的 PDNN 芯片的架构和 PDNN 芯片内的 N 输入光子神经元的结构分别如图 1c、d 所示。目标图像在输入的 5 × 6 像素阵列上形成，该阵列分为四个重叠的 3 × 4 像素子图像。输入纳米光子波导布置成将每个子图像的像素路由到输入层中的 12-input 神经元，形成卷积层。

卷积层通常用于图像/模式识别应用程序的深度网络中，允许更少的连接数和更有效的特征提取。第一层的输出完全连接到第二层的三个神经元。同样，第二层的三个输出与第三层的两个神经元全连接，产生两个网络输出，Out1 和 Out2。

图 2：光子-电子神经元的实现。

具有 N 个光学输入（Ini）和一个光学输出的光子神经元的结构如图 2a 所示，其中光学执行线性计算，光电实现非线性激活函数。首先，使用 500 微米长的 P 掺杂-本征-N 掺杂（PIN）电流控制衰减器阵列来单独调整神经元每个输入纳米光子波导中的光功率。

PIN 衰减器的横截面及其显微照片如图 2b 所示。通过正向偏置 PIN 结和注入载流子，可以调整每个神经元输入的光波功率（即信号权重）。为了添加权重调整后的信号，衰减器的输出使用硅锗（SiGe）光电二极管（PD）进行光电检测，并将产生的光电流组合以生成神经元输入的加权和 isum。

为了生成神经元输出，神经元输入的加权和通过非线性激活函数传递；这里，提供快速收敛的整流线性单元（ReLU）函数用作非线性激活函数，并通过使用 PN 结微环调制器（MRM）的电光非线性响应来实现。

在图 2a 中，电流 isum（即输入的加权和）被放大并使用线性跨阻放大器 (TIA) 转换为电压。MRM（驱动正向偏置 PN 结）的输入电压 VM 是通过将直流电压 Vb 添加到 TIA 输出电压 VTIA 来生成的。耦合到芯片中的激光功率均匀分布在所有神经元（在所有层内），为每个神经元中的 MRM 输入提供电源光。

考虑 MRM 的谐振波长 λres 最初与供应光波长 λlaser 对齐的情况。当 MRM 的输入电压 VM 小于阈值电压 VTH 时，PN 结保持关闭状态，没有载流子注入 PN 结。因此，λres 保持与 λlaser 对齐，并且神经元光输出功率 POut 保持低，因为供应光被 MRM 的陷波响应过滤。

当isum足够大以至于VM超过VTH时，PN结开启并且注入的载流子改变PN结中光波导的折射率。结果，λres 移动，神经元光输出功率增加。配置为电光 ReLU 的 MRM 的测量响应如图 2h 所示，其中 POut/PS 密切遵循作为 VM 函数的整流线性特性。可以通过设置 Vb 来调整 ReLU 阈值 (VTH)。

图 3：实现的光子分类器芯片。（来源：论文）

一般来说，所提出的 PDNN 芯片的分类速度主要受 MRM、SiGe PD 和 TIA 带宽的限制，因为处理是在波在芯片内传播时执行的。整个端到端 PDNN 分类器（即直接成像，将输入数据光学传输到第一层，几层线性和非线性操作）的传播时间（对应于端到端分类时间）测得约为 570 ps。

「它每秒可以对近 20 亿张图像进行分类。」该研究的资深作者、费城宾夕法尼亚大学的电气工程师 Firooz Aflatouni 说，「作为参考，传统的视频帧速率为每秒 24 到 120 帧。」

此外，每层线性运算的计算速度低于 60 ps，这对应于每层的线性计算密度和能量效率分别约为 3.5 TOPS mm-2 （TOPS：每秒万亿次操作）和 345 fJ OP-1。使用提供电子和光子器件单片集成的商业 SOI 制造工艺，可以实现数十千兆赫兹的总带宽，允许类似 PDNN 架构的总分类时间低于 100 ps。

PDNN 架构可以扩展为具有更多像素的分类器，用于对更高分辨率的图像和更复杂的模式进行超快速分类。与全电子实现相比，PDNN 架构中低损耗纳米光子波导和分离器的可用性显著降低了信号扇出和分配的挑战。将重叠子图像路由到输入层的神经元（以执行卷积）的复杂性可以通过使用具有多个光子路由层的制造过程来解决，允许更复杂的光子路由，和/或通过平铺多个像素阵列。

「通过传播计算，计算发生在波通过介质传播时，可以以光速执行计算。」Aflatouni 说。

研究人员现在正在尝试使用这些设备对视频和 3D 对象进行分类，并使用具有更多像素和神经元的更大芯片对更高分辨率的图像进行分类。此外，「这项技术的应用不仅限于图像和视频分类。」Aflatouni 说，「任何可以转换到光域的信号，例如音频和语音，都可以使用这项技术几乎瞬间进行分类。」

论文链接：https://www.nature.com/articles/s41586-022-04714-0

来源：ScienceAI

新闻公告

深度神经网络每秒分类近20亿张图像，新型类脑光学分类器芯片登上Nature