Как устроен ChatGPT? Полное погружение в принципы работы и спектр возможностей самой известной нейросети в мире - Стивен Вольфрам, страница 9 читать на LibraBook.info

вычислительных систем, таких как клеточные автоматы.

Но это не совсем правильный вывод. Вычислительно несводимые процессы по-прежнему являются таковыми и по-прежнему принципиально сложны для компьютеров – даже если компьютеры могут легко вычислить отдельные этапы. Вывод, который мы должны сделать, заключается в том, что задачи (например, написание текстов), которые мы могли выполнять, но считали, что компьютеру они не под силу, на самом деле с точки зрения вычислений проще, чем мы предполагали.

То есть причина, по которой нейронная сеть может хорошо писать тексты, заключается в том, что написание текстов оказывается более простой с вычислительной точки зрения задачей, чем мы думали. И в некотором смысле это приближает нас к формулированию теории о том, как нам, людям, удается создавать тексты и в целом работать с языком.

Если бы у нас была достаточно большая нейронная сеть, она могла бы делать все, что под силу простым людям. Но она бы все равно не смогла охватить все то, на что способен мир природы в целом – или что могут делать инструменты, которые мы создали, опираясь на законы природы. Именно применение этих инструментов – как практических, так и концептуальных – позволило нам за последние столетия выйти за границы того, что доступно чистой человеческой мысли без посторонней помощи, и использовать для человеческих целей больше того, что существует в физической и вычислительной вселенной.

Концепция эмбеддингов

Нейронные сети – по крайней мере в том виде, в каком они существуют сейчас, – основаны на числах. Следовательно, если мы собираемся использовать сети для работы с чем-то вроде текста, нам понадобится представить текст в виде чисел. Конечно, можно начать с простого присвоения каждому слову в словаре номера (как это делает ChatGPT). Однако существует концепция (и она является центральной для ChatGPT), которая выходит за данные рамки. Это так называемая идея эмбеддингов. Эмбеддинг можно объяснить как способ представить сущность чего-либо с помощью массива чисел, где подобные объекты представлены близлежащими числами.

Так, например, мы можем объяснить эмбеддинг как попытку разместить слова в своего рода пространстве значений, где близкие по значению слова находятся рядом. Реальные эмбеддинги, которые используются, скажем, в ChatGPT, состоят из больших списков чисел. Но если мы спроецируем это в двумерную модель, то вот как это будет выглядеть:

То, что мы здесь видим, вполне соответствует нашей картине мира. Но как создать подобный эмбеддинг? Грубо говоря, идея состоит в том, чтобы просмотреть большие объемы текста (в данном случае пять миллиардов слов из интернета), а затем выяснить, насколько похожи контексты разных слов. Так, например, «аллигатор» и «крокодил» будут встречаться в похожих предложениях, и это означает, что они окажутся рядом друг с другом в эмбеддингах. Напротив, «репа» и «орел», как правило, не встречаются в одном предложении, поэтому в эмбеддинге они будут расположены далеко друг от друга.

Но как реализовать нечто подобное с помощью нейронных сетей? Давайте начнем с того, что поговорим об эмбеддингах не для слов, а для изображений. Мы хотим найти способ охарактеризовать изображения с помощью списков чисел таким образом, чтобы изображениям, которые мы считаем похожими, присваивались похожие списки чисел.

Как можно определить, какие изображения похожи друг на друга? Если они состоят, скажем, из рукописных цифр, мы могли бы считать два изображения похожими, если на них изображена одна и та же цифра. Ранее мы говорили о нейросети, которая обучена распознавать цифры, написанные от руки. Она может быть настроена таким образом, чтобы в качестве конечного результата распределять изображения в десять различных групп – по одной для каждой цифры.

Но что, если мы «перехватим» те процессы, которые происходят внутри нейронной сети, до того, как сеть примет окончательное решение, что это, скажем, цифра 4? Мы могли бы ожидать, что внутри нейронной сети есть числа, которые характеризуют изображения как «в основном похожие на 4, но немного похожие на 2» или что-то в этом роде. И идея состоит в том, чтобы подобрать такие числа для использования в качестве элементов при эмбеддинге.

Итак, концепция будет заключаться в следующем: вместо того чтобы пытаться понять, какое изображение похоже на другое, мы рассматриваем четко поставленную задачу (в данном случае распознавание цифр), для которой можем получить четкие обучающие данные, и при выполнении этой задачи нейронная сеть должна принять неявное решение о схожести изображений. Таким образом, мы уже не говорим о близости изображений, вместо этого мы обсуждаем конкретный вопрос о том, какая цифра соответствует изображению, а затем оставляем нейронной сети определить, что подразумевается под близостью изображений.

Как же будет работать сеть при распознавании цифр? Мы можем представить, что сеть состоит из 11 последовательных слоев, которые можно символически изобразить следующим образом (функции активации показаны в виде отдельных слоев):

Вначале мы загружаем в первый слой наши изображения, представленные двумерными массивами значений пикселей. В конце – из последнего слоя – мы получаем массив данных из десяти значений, которые сообщают нам, насколько сеть уверена в том, что изображение соответствует каждой из цифр от 0 до 9.

Когда мы вводим изображение

, значения нейронов в последнем слое будут следующие.

{1,42071 × 10^-22, 7,69857 × 10^-14, 1,9653 × 10^-16, 5,55229 × 10^-21, 1.,

8,33841 × 10^-14, 6,89742 × 10^-17, 6,52282 × 10^-19, 6,51465 × 10^-12, 1,97509 × 10^-14}

Другими словами, нейронная сеть к этому моменту однозначно «уверена» в том, что это изображение цифры 4, и, чтобы действительно получить результат «4», нам просто нужно выбрать позицию нейрона с наибольшим значением.

Но что, если мы сделаем еще один шаг? Самая последняя операция в сети – это так называемый softmax, который пытается форсировать определенность. До того как мы применили эту операцию, значения нейронов были следующими:

{–26,134, –6,02347, –11,994, –22,4684, 24,1717, –5,94363, –13,0411, –17,7021, –1,58528, –7,38389}

Нейрон, представляющий цифру 4, по-прежнему имеет наибольшее числовое значение. Но информация также есть и в других нейронах. И мы можем ожидать, что этот список чисел может быть использован для характеристики сути изображения и таким образом дать нам что-то, что мы можем использовать уже в качестве эмбеддинга. Например, приведенные ниже четверки мало отличаются друг от друга, однако все они сильно отличаются от восьмерок:

Здесь мы, по сути, десятью числами характеризуем наши изображения. Но нередко лучше использовать больше. Например, в нашей сети распознавания цифр мы можем получить массив из 500 чисел, перейдя на предыдущий слой. И это, вероятно, разумный размер массива для эмбеддинга изображений.

Если мы хотим создать визуализацию пространства изображений для рукописных цифр, то должны уменьшить размерность и спроецировать полученный 500-мерный вектор в трехмерное пространство:

Выше мы говорили о создании характеристики (и, следовательно, эмбеддинга) изображений, основанной на выявлении сходства изображения путем определения их соответствия (согласно нашему обучающему набору) одной и той же рукописной цифре. Мы можем сделать то же самое для гораздо более широкого спектра изображений, если у нас есть обучающий набор, который определяет, скажем, к какому из 5000 распространенных типов объектов (кошка, собака, стул и так далее) относится каждое изображение. Таким образом мы способны создать эмбеддинг изображения, который привязан к определенной категории, но затем «обобщается» в соответствии с поведением нейронной сети. Дело в том, что такое поведение согласуется с тем, как мы, люди, воспринимаем и интерпретируем изображения. В конечном счете этот эмбеддинг покажется нам правильным и полезным при выполнении «человеческих» задач.

Итак, как по такому же принципу найти эмбеддинг слов? Главное – постановка задачи, в соответствии с которой мы сможет обучить сеть. Стандартной задачей в данном случае будет «подсказывание слов». Представьте, что у нас есть словосочетание «the ___ cat [англ.