АННОТАЦИЯ
Искусственные нейронные сети (ИНС) широко используются в промышленности и играют более важную роль в фундаментальных исследованиях. Хотя большинство аппаратных систем ИНС основаны на электронике, их оптическая реализация особенно привлекательна из-за их собственного параллелизма и низкого энергопотребления. Здесь демонстрируется полностью функционирующая полностью оптическая нейронная сеть (ПОНС), в которой линейные операции программируются пространственными модуляторами света и линзами Фурье, в то время как нелинейные функции оптической активации реализуются в атомах с лазерным охлаждением с электромагнитно-индуцированной прозрачностью. Поскольку все ошибки от разных оптических нейронов независимы, можно увеличить размер такой ПОНС. Кроме того, наша аппаратная система реконфигурируема для различных приложений без необходимости изменять физическую структуру. Подтверждается его возможности и осуществимость в приложении машинного обучения, успешно классифицируя фазы порядка и беспорядка статистической модели Изинга. Продемонстрированная схема ПОНС может быть использована для построения различных архитектур ИНС с собственными оптическими параллельными вычислениями.
Оптическая нейронная сеть; Искусственная нейронная сеть; ИНС; Оптика; Машинное обучение; Новые разработки
ВВЕДЕНИЕ
Методы машинного обучения, особенно искусственные нейронные сети (ИНС), значительно выросли за последнее десятилетие и были продемонстрированы как мощные или даже превосходящие интеллект человека в различных областях, таких как распознавание изображений, медицинская диагностика и машинный перевод. ИНС также показывают большой потенциал в научных исследованиях, особенно в открытии новых материалов, классификации фаз вещества, представляющих вариационные волновые функции, и ускорении моделирования Монте-Карло (МК). Они могут быть использованы для решения проблем, которые неразрешимы в традиционных подходах. Сила ИНС заключается в ее обширных взаимосвязях между большим количеством нейронов, требующих огромных вычислительных ресурсов (времени и энергии), когда они реализуются в электронном виде.
В отличие от электронов в цифровом компьютере, фотоны, как невзаимодействующие бозоны, естественно могут быть использованы для реализации множественных взаимосвязей и одновременных параллельных вычислений со скоростью света. Ключевыми компонентами ИНС являются искусственные нейроны, которые выполняют как линейные, так и нелинейные преобразования для входных сигналов. В большинстве гибридных оптических нейронных сетей (ОНС) оптика в основном используется для линейных операций, а нелинейные функции обычно реализуются электронным способом. Недавно для эффективного машинного обучения были продемонстрированы ОНС на основе нанофотонных схем и линейной дифракции и интерференции световых волн, но нелинейные функции оптической активации все еще отсутствуют в глубоких сетях. Хотя были предложения по реализации нелинейных функций оптической активации, их экспериментальные реализации стали узким местом для дальнейшего расширения ОНС в практических приложениях.
В этой работе демонстрируется полностью оптическая нейронная сеть (ПОНС) с настраиваемыми линейными операциями и нелинейными функциями активации в оптике. Для реализации линейных операций используются пространственные модуляторы света (ПМС) и линзы Фурье. Нелинейные оптические функции активации реализуются на основе электромагнитно-индуцированной прозрачности (ЭИП) - индуцированного светом эффекта квантовой интерференции среди атомных переходов. Чтобы проверить возможности и осуществимость схемы ПОНС, реализуется плотный (полностью связанный) двухслойный ПОНС и используется для успешной классификации различных фаз для прототипной модели Изинга.
В типичном ИНС, как показано на рис. 1 (а), нейроны обычно располагаются в слоистых структурах без связей между разными нейронами в одном слое, а выход нейронов в одном слое служит входом для нейронов в следующий слой. Принцип работы искусственного нейрона можно абстрагировать в следующие два этапа: (1) получение нескольких взвешенных IjWij входные сигналы vj от нейронов в предыдущем слое с помощью линейной операции с некоторым смещением bi, то есть
= + ∑ zi = bi + ∑jWijvj
и (2) генерирование нового выходного сигнала ai, обрабатывающего все входные сигналы с помощью нелинейных функций активации = ( ) ai = ? (zi). В оптической конфигурации линейная операция реализуется с помощью СЛП, за которым следует линза Фурье, а нелинейная функция оптической активации реализуется с помощью EIT, как показано на рис. 1 (b).
В отличие от традиционных дифракционных ОНС, где нейроны электрического поля являются сложными, в нашем ПОНС сигналы кодируются в силе света; таким образом, , , ≥0vi, zi, ai≥0 и вещественные матричные элементы удовлетворяют 1≥ ≥01≥Wij≥0.
Рис. 1. Общие положения (а) Типичная двухслойная нейронная сеть; (б) схема экспериментальной реализации оптического нейрона, включающая линейные и нелинейные операции.
Линейная операция = + ∑ zi = bi + ∑jWijvj достигается путем комбинирования программируемого СЛП и объектива Фурье. φ - нелинейная функция активации.
В процессе линейной работы мощности падающего света в разных областях в СЛП представляют узлы входного уровня vj. Наложением нескольких фазовых решеток падающий световой пучок vi можно разделить на разные направления j с весом Wij. СЛП размещается в задней фокальной плоскости объектива, который выполняет преобразование Фурье и суммирует все дифрагированные лучи в одном и том же направлении на месте в своей передней фокальной плоскости в виде линейного суммирования = ∑ zi = ∑jWijvj, как показано на рис. 1 (б). Линейное смещение bi может быть реализовано аналогично из дополнительных входов. Получаются данные матричные элементы Wij, следуя алгоритму итеративной обратной связи Герхберга – Сакстона, в котором высокая точность (> 95%> 95%) может быть достигнута менее чем за 10 итераций. Кроме того, стоит упомянуть, что одним большим преимуществом этого метода является то, что ошибка для данного пятна не зависит от общего количества пятен, если разрешение СЛП достаточно высоко, что качественно отличается от предыдущих реализаций.
Рисунок 2 (а) показывает оптическую схему для выполнения линейной операции. Не теряя общности, берем в качестве примера линейную операцию от 8 до 4. Выходной сигнал лазерного луча связи из одномодового волокна ОМВ(SMF) коллимируется и падает на первый СЛП (SLM1), который избирательно отражает восемь отдельных пятен луча. Эти восемь точек затем отображаются на второй СЛП (SLM2) в качестве входа vj через систему оптических линз 4-f (L2 и L3). Откидное зеркало (ОЗ) и первая камера (C1) используются для контроля и измерения jvj. Рассеянный свет связи блокируется в плоскости Фурье линзы L2. После SLM2 каждый лазерный луч делится на четыре луча. Линза Фурье L4 выполняет операцию суммирования, и четыре выходных пятна записываются второй камерой (C2). Чтобы охарактеризовать точность входных векторов vj, измеряется распределение ошибок 2000 случайных восьмимерных входных векторов с элементами, одинаково дискретизированными от 0 до 1 [Рис. 2 (б)]. Как показано на рис. 2 (с), получаем очень точные входные векторы со стандартным отклонением всего 0,017. Среднее значение ошибки слегка отличается от нуля из-за возможного отклонения мощности лазера во время измерения.
Рис. 2. Линейная оптическая операция и характеристика. (а) Оптическая установка. FM, откидное зеркало; М, зеркало; L1 – L4, оптическая линза; SMF, одномодовое волокно; C1 – C2, камера.
Связывающий лазерный луч, испускаемый SMF, коллимируется линзой L1 ( = 10 см, f = 10 см) и освещает поверхность SLM1, где он избирательно отражается до восьми отдельных световых пятен на поверхности SLM2 с помощью системы визуализации 4 -4-f с линзами L2 ( = 30 см, F = 30 см) и L3 ( = 25 см, F = 25 см). FM вставляется в оптический тракт, чтобы дополнительно отражать луч на камеру C1, которая расположена в эквивалентном положении SLM2. SLM2 выполняет линейную операцию для преобразования восьми входов в четыре выходных луча, которые записываются камерой C2. (б) гистограмма 2000 случайных входных векторов с элементами, равномерно распределенными от 0 до 1; (c) распределение ошибок входных векторов. Стандартное отклонение (STD) составляет 0,012. (d) Распределение ошибок выходных векторов для работы матрицы Ханкеля. STD составляет 0,014. (e) Распределение верности выходных векторов для операции матрицы Ханкеля.
Далее подтверждается, что произвольная положительно оцененная матрица 4 × 84 × 8 (1≥ ≥01≥Wij≥0) может быть реализована путем программирования SLM2. В качестве примеров берем два типа линейных операций. Первая - это матрица Ганкеля A, типичная симметрическая матрица в математике, элементы которой удовлетворяют
= + , − ( = 0,…, − ) Aij = Ai + k, j − k (k = 0 ,…, J − i).
Поскольку невозможно непосредственно измерить матричные элементы, берем распределение ошибок выходных векторов, используя 2000 случайных входных векторов, описанных ранее. Как показано на рис. 2 (d), ошибки − zi − zi ′ очень малы со стандартным отклонением 0,014, где zi и ′ zi ′ являются точными и измеренными компонентами вектора, соответственно. Впечатляет, что они почти такие же, как ошибки входных векторов, хотя здесь задействовано гораздо больше операций. Этот результат дополнительно указывает на то, что ошибка может сохраняться на небольшом уровне даже для множества линейных операций, что является критическим для крупномасштабных ПОНС. Для производства матрицы направления выходных векторов более полезны, чем точное значение различных элементов, точность которых может быть отражена в точности воспроизведения
→ · → ′ | → || → ′ | z → · z → '| г → || г →' |.
Как показано на рис. 2 (e), распределение верности уже ошибки, а среднее значение верности составляет около 0,998 для ганкелевой матрицы. Высокая точность позволяет предположить, что, хотя существуют определенные неопределенности для отдельных элементов, выходные векторы фактически нечувствительны к этим колебаниям. Также выполним те же измерения для случайной матрицы и получаем аналогичные результаты. Таким образом, мы проверяем, что различные матрицы могут быть реализованы путем переконфигурирования SLM2 без изменения физической компоновки.
Нелинейные оптические функции активации EIT реализуются атомами Rb85Rb85 с лазерным охлаждением в двумерной магнитооптической ловушке (ДМЛ) с темной линией с продольной длиной 1,5 см и соотношением сторон 25: 1, как показано на рис. 3 (а). Атомы подготовлены в основном состоянии | 1〉 | 1〉, как показано на диаграмме уровня атомной энергии на рис. 3 (б). Лучи лазера с циркулярно поляризованной (σ σ) связью (cωc), которые поступают с выходов линейной операции, находятся в резонансе с передачей атома | 2〉↔ | 3〉 | 2〉↔ | 3〉 и падают на атом облако в поперечном направлении. Встречный зондирующий лазерный луч ( , ωp, σ) находится на резонансе с | 1〉 → | 3〉 | 1〉 → | 3〉. В отсутствие пучка связи атомная среда непрозрачна для резонансного зондирующего пучка, который максимально поглощается атомами, как показано сплошной кривой в спектре пропускания на рис. 3 (с). Наоборот, в присутствии пучка связи квантовая интерференция между путями перехода приводит к спектральному окну EIT, как показано пунктирной кривой на рис. 3 (c), где передача на пике резонанса происходит и ширина полосы контролируется интенсивностью лазера связи. Выход лазерного луча на резонансном зонде может быть выражен как
(1)
p, out = p, in − OD4 12 13Ω2 4 12 13 = (Ω2 ), Ip, out = Ip, ine-OD4γ12γ13Ωc2 4γ12γ13 = φ (Ωc2),
где p, inIp, in и p, outIp, out - интенсивность входного и выходного зондирующего пучка, ОГ(OD) - атомная оптическая глубина на переходе | 1〉 → | 3〉 | 1〉 → | 3〉, а γij - дефазировка скорость между состояниями | 〉 | i〉 и | 〉 | j〉. Для атомов Rb85Rb85 13 = 2 × 3 МГцγ13 = 2π × 3 МГц, а ненулевая скорость дефазировки основного состояния 12γ12 может быть настроена магнитным полем рассеянного фона. Ω Ωc - частота Раби поля связи, и ее площадь пропорциональна интенсивности лазера связи (Ω2 ∝ Ωc2∝Ic). Как показано в формуле (1) интенсивность зондирующего пучка нелинейно контролируется интенсивностью пучка связи. Нелинейная функция активации φ достигается за счет того, что интенсивность связи берется за вход, а интенсивность переданного зонда - за выход. В эксперименте входной зондирующий луч коллимируется, и его размер достаточно велик, чтобы покрыть весь профиль связующего луча. Кроме того, уравнение (1) также указывает, что нелинейная функция активации определяется OD(ОГ) и OD12γ12, значения которых варьируются в разных положениях ДМЛ. Следовательно, размещая встречные пучки соединительных зондов в разных положениях ДМЛ, можем достичь разных нелинейных функций активации для разных нейронов. На рисунке 3 (d) показаны почти идентичные нелинейные функции активации, полученные путем разумного позиционирования четырех входных соединительных лучей. Также можно назначить эти четыре нейрона с различными нелинейными функциями активации, как показано на рис. 3 (д). Понятно, что ошибки от разных нелинейных функций активации также не зависят. Вместе с теми же преимуществами линейных операций, которые реализуются с помощью СЛП и объективов, ожидается, что схема ПОНС увеличится до большого размера с ошибкой, поддерживаемой на небольшом уровне.
Рис. 3. Реализация EIT-функций нелинейной оптической активации. (а) EIT экспериментальная конфигурация с холодными атомами Rb85Rb85 в МОТ; (б) трехуровневая диаграмма уровней энергии EIT ΛΛ-типа,
Атомные состояния Rb85Rb85 имеют
| 1〉 = | 5 1 / 2, = 2〉 | 1〉 = | 5S1 / 2, F = 2〉, | 2〉 = | 5 1 / 2, = 3〉 | 2〉 = | 5P1 / 2, F = 3〉 и | 3〉 = | 5 1 / 2, = 3〉 | 3〉 = | 5S1 / 2, F = 3 〉.
И лазер с круговой поляризацией ( + σ +) ( ωc) и зонд (pωp) находятся в резонансе с переходами | 2〉 → | 3〉 | 2〉 → | 3〉 и | 1〉 → | 3〉 | 1〉 → | 3〉 соответственно. (c) Спектр пропускания EIT зондирующего луча. Сплошная (пунктирная) линия получается без (с) пучка связи. (d) и (e) являются нелинейными передающими функциями для четырех резонансных зондирующих пучков, размещенных в разных положениях ДМЛ. Входной сигнал и выход датчика масштабируются для подгонки диапазона ввода-вывода нейронной сети.
После демонстрации линейных и нелинейных операций можно собрать полнофункциональный ПОНС, используя СЛП, линзы, ДМЛ, а также лазерные лучи связи и зонда. Здесь показывается, что на самом деле мы можем применить такой ПОНС для классификации различных фаз в физике конденсированных сред. Недавно было продемонстрировано, что нейронные сети имеют большой потенциал для идентификации различных фаз, включая как фазы нарушения симметрии, так и топологические фазы. В качестве примера для демонстрации берем прототип двухмерной модели Изинга на квадратной решетке. Модель Изинга может быть записана как
(2)
(σ) = - Σ〈 〉σ σ H (σ) = - JΣ〈ij〉σiσj,
где = ± 1σi = ± 1 представляет локализованный спин на сайте i, а 〈 〉〈ij〉 суммирует по всем ближайшим соседям. Хорошо известно, что будет иметь место непрерывный фазовый переход с критической температурой при = 2 | | ln (1 + 2√) Tc = 2 | J | KB ln (1 + 2). В следующих моделированиях и экспериментах сила взаимодействия устанавливается равной = 1J = 1, и в качестве примера берем размер решетки = 4L = 4 с периодическими граничными условиями. Понятно, что плотная (полностью связная) двухслойная нейронная сеть могла бы работать лучше при использовании экспериментально измеренных нелинейных функций активации на рис. 3 (д). Как и в обычном электронном компьютере, наш двухслойный ПОНС состоит из одного входного слоя, одного скрытого слоя и одного выходного слоя. Оптический сигнал распространяется от одного слоя к следующему слою через оптические операционные блоки. На скрытом слое оптическая информация обрабатывается оптическими нелинейными функциями активации перед распространением на выходной слой.
Подробная оптическая реализация двухслойного ПОНС показана на рис. 4 (а). Входной слой содержит 2L2 нейроны с L в качестве размера линейной системы. Для скрытого и выходного слоев есть четыре и два нейрона, соответственно. В этой конкретной конфигурации, поскольку входные значения являются двоичными (0 или 1), вектор входа луча связи и первая линейная операция могут быть реализованы одним СЛП, как показано как SLM1 на рис. 4 (a). Горизонтально поляризованный выходной соединительный луч проходит через поляризующий светоделитель (РПЛ) и падает на холодные атомы в ДМЛ после четвертьволновой ( / 4λ / 4) пластины. Четыре передаваемых встречных и вертикально поляризованных зондирующих луча отражаются РПЛ и поступают в SLM2 для второй линейной операции, которая уменьшает четыре входа до двух выходов, записанных камерой C3. FM и камеры C1 и C2 используются для настройки параметров сети.
Рис. 4. Полностью функционирующий двухслойный ПОНС.
Экспериментальная конфигурация двухслойного ПОНС. Входной слой - это шаблон, закодированный в SLM1, область которого разделена на несколько подрайонов. Первый уровень состоит из линейной операции, выполняемой функциями нелинейной оптической активации SLM1 и EIT в ДМЛ. Второй слой содержит SLM2, который преобразует четыре луча в два выходных луча на камере C3. Линза прохождения коллимированного связующего лазерного луча L1 ( = 10 смс = 10 см) падает на SLM1, который генерирует четыре луча в фокальной плоскости L3 (75 = 75 смс = 75 см). FM и камера C1 используются для контроля этой линейной операции. Четыре луча отображаются на MOT через систему 4-4 × f, состоящую из L4 (75 см = 75 см) и L5 (5 см = 5 см). Коллимированный зондирующий лазерный луч распространяется вдоль противоположного направления пучка связи, который отображается на камере C2 через L5 и L6 (45 = 45 смс = 45 см). При дальнейшем увеличении на L7 (= 7,5 см = 7,5 см) и L8 (= 45 см = 45 см) четыре луча падают на SLM2 и генерируют два луча, а затем фокусируются на камере C3. (b) и (c) - средняя вероятность фаз (синий) и беспорядка (красный) как функции температуры для конфигураций 100 и 4000 соответственно. Сравнение проводится между результатами ПОНС (круг) и компьютера NN (квадрат).
Получаем оптимизированную матрицу линейных операций в двухслойной плотной нейронной сети, выполняя контролируемое обучение на компьютере с измеренными нелинейно-оптическими функциями активации EIT [Рис. 3 (е)]. Обозначенные исходные обучающие конфигурации генерируются с помощью моделирования MC. Используя только конфигурации, генерируемые при низких и высоких температурах, нейронная сеть учится маркировать их как упорядоченные или неупорядоченные для определения оптимизированных линейных матричных элементов. Затем для оптической реализации настраиваем ПОНС в соответствии с алгоритмом итеративной обратной связи Герхберга – Сакстона. После этого применяется двухслойный ПОНС для идентификации различных фаз из конфигураций, отобранных с помощью моделирования MC при промежуточных температурах, и находится критическая температура фазового перехода. Доля упорядоченных или неупорядоченных конфигураций среди всех выборок может рассматриваться как вероятность нахождения в упорядоченном или беспорядочном состояниях. Температура пересечения с обеими вероятностями в 50% указывает на точку фазового перехода.
На рисунках 4 (b) и 4 (c) показана средняя вероятность конфигурационных наборов, сгенерированных при разных температурах для 2 = 42 = 16L2 = 42 = 16 входов. Результаты эксперимента воспроизводят всю фазовую диаграмму, хотя мы обучаем ПОНС только при температурах, далеких от критической температуры. Экспериментальная температура фазового перехода близка к аналитическому термодинамическому пределу, представленному вертикальной пунктирной линией, когда число узлов становится бесконечным. Это говорит о том, что ПОНС может успешно уловить существенные признаки, которые различают фазы порядка и беспорядка. Чтобы четко показать производительность нашего ПОНС, мы сначала намеренно проводим эксперимент, используя только 100 конфигураций; результаты показаны на рис. 4 (б). Что касается классификации фаз, результаты немного отличаются от термодинамического предела. Разумно иметь большие флуктуации, потому что используется очень мало конфигураций в очень большом сконфигурированном пространстве (100 из 24 × 4,10% 24 × 4,10%). Тем не менее, результаты нашего ПОНС и компьютерной плотной нейронной сети для одинаковых конфигураций практически идентичны для всех температур, что ясно показывает, что наша ПОНС имеет ту же точность, что и хорошо обученный компьютерный ПОНС. Чтобы дополнительно продемонстрировать возможности нашего ПОНС, повторим эксперимент с 4000 конфигурациями. Как и ожидалось, кривые фазовых переходов становятся более плавными, поскольку случайные ошибки от статистических флуктуаций сильно уменьшаются, а оптические результаты почти такие же, как компьютерные данные, как показано на рис. 4 (с). Все результаты подтверждают, что наша реализация ПОНС успешна и способна классифицировать различные фазы для модели Изинга.
Таким образом, мы демонстрируем схему ПОНС как с настраиваемыми линейными оптическими операциями, так и с нелинейными оптическими функциями активации. Линейные соединения реализуются с использованием СЛП и оптических линз. Нелинейные оптические функции активации EIT основаны на квантовой интерференции. Хотя в этой демонстрации мы работаем с холодными атомами, которые позволяют нам иметь нелинейно-оптическую функцию EIT аналитически как уравнение. (1), горячая ячейка атомного пара также будет хорошо работать. В качестве доказательства принципа действия мы построили двухслойный ПОНС для классификации фаз прототипной модели Изинга. В принципе, можно построить самообучающийся ПОНС с высокоскоростной СЛП обратной связью. Однако скорость работы большинства коммерчески доступных СЛП не такая высокая, как у компьютера. Поэтому в этой работе контролируемое обучение нейронной сети было предварительно выполнено обычным компьютером, и затем мы следуем алгоритму итеративной обратной связи Герхберга-Сакстона для настройки оборудования ПОНС. Мы сосредоточились главным образом на возможности линейных операций и нелинейных функций активации, которые являются ключевыми компонентами ANN; ПОНС масштабируется до большего размера системы с большим количеством СЛП и EIT нелинейных каналов. Причины двояки: (1) Поскольку вычислительная мощность ИНС обусловлена обширными взаимосвязями между большим количеством нейронов, ИНС устойчивы к ошибкам и устойчивы к небольшим локальным случайным ошибкам, что означает, что, хотя локальные параметры не являются точными, мы все еще можем получить очень хорошие результаты, пока число нейронов достаточно велико. Для большинства проблем больше нейронов в ПОНС обычно дают лучшую производительность; (2) как ясно продемонстрировано в наших экспериментах, конечная ошибка нашей ПОНС нечувствительна к общему количеству нейронов, и ошибка может поддерживаться на уровне, аналогичном одному нейрону, даже для крупномасштабных ПОНС. Такое большое преимущество вытекает из того факта, что все линейные и нелинейные функции оптической активации в наших ПОНС независимы, и ошибки от разных оптических нейронов не будут накапливаться, но могут взаимно компенсировать друг друга. Кроме того, в нашей системе линейные матричные элементы и нелинейные функции могут быть независимо запрограммированы для реализации различных архитектур и приложений ПОНС. Внедрение крупномасштабного ПОНС требует больших технических ресурсов, что возможно благодаря недавним усилиям по разработке миниатюризации устройств с холодным атомом и EIT на кристалле.
Примечание добавлено. Нам стало известно, что в процессе подготовки рукописи была опубликована работа над полностью оптической шипующей нейросинаптической сетью, основанной на нелинейных материалах с фазовым переходом, в которой была продемонстрирована только однослойная система. Здесь мы демонстрируем двухслойный ПОНС с 16 входами, четырьмя промежуточными нейтронами с нелинейными оптическими функциями активации и двумя выходами. Кроме того, мы используем квантовую интерференцию EIT для реализации нелинейных оптических функций активации, что полностью отличается от подхода, описанного в только что опубликованной статье. Благодаря емкости квантовой памяти EIT наша система может быть расширена для реализации квантовой нейронной сети.
СПИСОК ЛИТЕРАТУРЫ