
Как же мы можем это сделать? В конечном счете нейронная сеть представляет собой связанную совокупность нейронов, обычно расположенных слоями. Простой пример выглядит так:

Каждый «нейрон» производит вычисление простой числовой функции. Чтобы задействовать всю сеть, мы просто вводим числа (например, наши координаты x и y) на самом верхнем слое, затем заставляем нейроны каждого следующего слоя вычислять простую числовую функцию и передавать результаты вычисления дальше по сети и в итоге в самом низу получаем:

В традиционной (вдохновленной биологией) установке каждый нейрон фактически имеет определенный набор входящих соединений от нейронов предыдущего уровня, причем каждому соединению присваивается вес, который может быть выражен положительным или отрицательным числом. Значение конкретного нейрона определяется путем умножения значений предыдущих нейронов на их веса, затем сложения результатов, далее добавления константы и, наконец, применения функции порогового значения (или активации). В математических терминах: если у нейрона есть входные данные x = {x1, x2 …}, то мы вычисляем f[wx + b], где обычно вес w и константа b выбираются по-разному для каждого нейрона в сети, а функция f не меняется.
Вычисление wx + b – это всего лишь вопрос умножения и сложения матриц. Функция активации f вводит нелинейность, и в конечном счете именно это приводит к нетривиальному поведению. Обычно используются различные функции активации (на иллюстрации ниже – их примеры). Здесь мы просто применим Ramp (или ReLU):

Для каждой задачи, которую нейронная сеть должна выполнить (или, что эквивалентно, для каждой общей функции, которую мы хотим вычислить), у нас будут разные варианты весов. И, как мы обсудим позже, эти веса обычно определяются путем «обучения» нейронной сети на примерах нужных нам выходных данных.
В конечном счете каждая нейронная сеть просто соответствует некоей общей математической функции (хотя ее может быть сложно записать). Для приведенного выше примера это была бы следующая запись:

Нейронная сеть ChatGPT так же просто реализует математическую функцию, подобную этой, но с миллиардами данных.
Однако давайте вернемся к отдельным нейронам. Вот несколько примеров функций, которые нейрон с двумя входными данными (представляющими координаты x и y) может вычислять при различных вариантах весов и констант (и Ramp в качестве функции активации):

Но как насчет более крупной сети сверху? Вот что у нас получается:

Это не совсем правильно, но близко к функции ближайшей точки, которую мы описали выше.
Давайте посмотрим, что происходит с некоторыми другими нейронными сетями. Как вы узнаете позднее, в каждом случае мы используем машинное обучение, чтобы найти наилучший выбор весов. Здесь мы можем увидеть, что вычисляет нейронная сеть с этими заданными весами:

Крупные сети, как правило, лучше выполняют эту функцию, и в центре каждого аттрактора мы обычно получаем именно тот ответ, который хотим. Но на границах – там, где нейронной сети «трудно принять решение», – ситуация может быть еще более запутанной.
При помощи простой с математической точки зрения задачи на распознавание мы получаем «правильный» ответ. Но в задаче на распознавание рукописных цифр все не так однозначно. Что, если кто-то написал цифру 2 так плохо, что она выглядит как 7? Тем не менее мы можем задаться вопросом, как нейронная сеть различает цифры, и вот как это может выглядеть:

Можем ли мы сказать, что сеть вычисляет различия математически? Не совсем. Математические вычисления – это то, что лежит в основе работы нейронной сети. Но оказывается, что способ того, как нейронная сеть находит различия, очень схож с тем, как это делаем мы, люди.
Давайте возьмем более сложный пример. Допустим, у нас есть изображения кошек и собак и нейронная сеть, которая была обучена различать их. Вот что сеть могла бы сделать с этими изображениями:

Теперь стало еще непонятнее, какой ответ правильный. А что насчет собаки, одетой в кошачий костюм? Какие бы входные данные ни вводились, нейронная сеть генерирует ответ. И, как выясняется, она делает это таким образом, что ее ответ очень похож на тот, который мог бы дать человек. Как уже упоминалось выше, мы не можем логически вывести этот факт из теоретических положений. Это просто то, что эмпирически было признано верным, по крайней мере в определенных областях. Но это ключевая причина, по которой нейронные сети полезны: они каким-то образом воспроизводят человеческие действия.
Возьмите фотографию кошки и спросите самого себя: «Почему это кошка?» Возможно, вы начнете так: «Ну, я вижу заостренные уши», – и так далее. Не очень-то легко объяснить, как вы распознали на изображении кошку. Просто ваш мозг каким-то образом догадался об этом. Но у нас нет возможности (по крайней мере, пока) заглянуть внутрь мозга и понять, как он это сделал. Как насчет искусственной нейронной сети? Что ж, несложно увидеть, что делает каждый нейрон, когда вы загружаете в сеть фотографию кошки. Но получить даже базовую визуализацию уже очень сложно.
В сети выше, которую мы использовали для нахождения ближайшей точки, насчитывается 17 нейронов. В сети для распознавания рукописных цифр 2190 нейронов. А в сети, которую мы используем для распознавания кошек и собак, их 60 650. В обычной жизни было бы довольно сложно визуализировать то, что составляет 60650-мерное пространство. Но поскольку эта сеть создана для работы с изображениями, то многие из слоев нейронов организованы в массивы, подобные массивам пикселей, которые сеть визуализирует.
Возьмем типичное изображение кошки:

Мы можем представить состояние нейронов на первом слое с помощью набора производных изображений, многие из которых легко интерпретировать как «кошка без фона» или «контур кошки»:

На десятом слое уже довольно тяжело интерпретировать картинку:

Но в целом мы могли бы сказать, что нейронная сеть «выделяет некоторые черты» (возможно, среди них есть и заостренные уши) и использует их для определения того, что находится на изображении. Однако можно спросить, те же ли это черты, которые выделяем мы, люди? По большей части нет.
Использует ли наш мозг аналогичные функции? Мы этого не знаем. Но примечательно, что первые несколько слоев нейронной сети, подобной той, которую мы показываем здесь, похоже, выделяют аспекты изображений (например, края объектов), которые кажутся похожими на те, которые, как известно, наш мозг выделяет первыми при обработке визуальной информации.
Но давайте предположим, что нам нужно создать «теорию распознавания кошек» нейронными сетями. Мы можем сказать: «Смотрите, целая отдельная сеть только распознает кошек», – и это дает нам некоторое представление о том, насколько проблема сложная (и, например, о том, сколько нейронов или их слоев может потребоваться). Но – по крайней мере на данный момент – мы не можем дать словесного описания того, что именно делает сеть. Вероятно, причина заключается в том, что это действительно невозможно определить и нет другого способа узнать, что делает сеть, кроме как просто проследить за каждым этапом ее работы. Или, может быть, дело в том, что мы еще не разобрались, как работают нейросети, и не определили те законы, которые ими управляют.
Мы столкнемся с такими же проблемами, когда будем