Как устроен ChatGPT? Полное погружение в принципы работы и спектр возможностей самой известной нейросети в мире - Стивен Вольфрам. Страница 14


О книге
Да и если бы ChatGPT выдал что-то подобное, это вряд ли можно было бы назвать успехом: предложение абсолютно бессмысленно.

Но как определить, имеет ли предложение смысл? Здесь нет общей теории. Однако можно предположить, что ChatGPT разработал «теорию» после обучения миллиардам (предположительно значимых) предложений из интернета и так далее.

Что это за теория? Существует один четкий принцип, который известен уже два тысячелетия, – принцип логики. В той форме, в которой ее открыл Аристотель, логика – это, по сути, способ определить, что одни предложения, следующие каким-либо моделям, логичны, а другие – нет. Так, например, вполне логичным и осмысленным является предложение типа «Все X – это Y. Это не Y, поэтому это не X» (например, «Все рыбы синие. Это нечто не синее, значит это не рыба»). И точно так же, как можно предположить, что Аристотель открыл силлогистику, рассматривая (по типу машинного обучения) множество примеров риторики, и что во время обучения ChatGPT смог обнаружить силлогистическую логику, просматривая большое количество текста в интернете, и так далее. (Несмотря на то что мы вполне можем ожидать от ChatGPT создания текста с выводами, основанными на силлогистической логике, с примерами, где требуется более сложная формальная логика, ситуация совсем другая: здесь мы может ожидать неудач по тем же причинам, по которым ChatGPT терпит неудачу при парентезисе.)

Что еще можно сказать о систематическом конструировании (или распознавании) правдоподобно выглядящего текста? Программы наподобие Mad Libs® используют очень специфические фразовые шаблоны. Но каким-то образом ChatGPT нашел более удобный способ это сделать. И возможно, нам нечего сказать об этом способе, кроме как «это просто каким-то образом работает, если у вас есть 175 миллиардов весов нейронной сети». Но я сильно подозреваю, что за этим кроется более простое и понятное объяснение.

Смысловое пространство и семантические законы движения

Ранее мы говорили о том, что внутри ChatGPT любой фрагмент текста – это массив чисел, которые мы можем представить как некие координаты в некоем пространстве лингвистических признаков. Когда ChatGPT генерирует продолжение текста, то в этом пространстве лингвистических признаков прослеживается определенная траектория. Что заставляет эту траекторию выстраиваться в соответствии с текстом, который мы, люди, впоследствии посчитаем читабельным? Возможно, существуют какие-то семантические законы движения, которые определяют (или, по крайней мере, ограничивают) то, как могут перемещаться точки в пространстве лингвистических признаков, не теряя при этом смысла и значения.

Итак, на что похоже это пространство лингвистических признаков? Ниже мы можем видеть, как будут расположены отдельные слова (в данном случае нарицательные существительные), если мы спроецируем такое пространство на плоскость:

Ранее мы уже рассматривали похожий пример со словами, обозначающими растения и животных. В обоих случаях мы можем увидеть, что семантически близкие слова расположены рядом.

Вот пример, как в пространстве лингвистических признаков располагаются слова, относящиеся к разным частям речи:

Конечно, в английском языке большинство слов имеют не одно значение и могут относиться к нескольким частям речи. Глядя на то, как предложения, содержащие некое слово, располагаются в пространстве лингвистических признаков, мы можем выделить различные значения этого слова, как показано в приведенном ниже примере для английского слова crane, которое в зависимости от контекста может означать «журавль» или «портовый кран»:

Мы можем думать о пространстве лингвистических признаков как о размещении близких по значению слов рядом друг с другом. Но нет ли здесь какой-нибудь дополнительной структуры? Существует ли, например, понятие параллельного переноса, которое отражало бы однородность пространства? Давайте обратимся к аналогиям, чтобы разобраться в этом:

Даже когда мы проецируем лингвистическое пространство на плоскость, мы видим намек на близость отдельных элементов, хотя это, конечно, заметно не везде.

Так что же насчет траекторий? Мы можем отследить траекторию, по которой следует запрос для ChatGPT в пространстве лингвистических объектов, а затем увидеть, как ChatGPT генерирует текст:

Неудивительно, что здесь не прослеживается никакого геометрически очевидного закона движения. Все намного сложнее. Даже если семантический закон движения и существует, то непонятно, в каком эмбеддинге (или в каких переменных) он будет наиболее естественно выражен.

На рисунке выше показана часть траектории, где на каждом шаге мы выбираем слово, которое ChatGPT считает наиболее вероятным (случай нулевой температуры). Но мы также можем спросить, какой вероятностью обладают следующие слова в заданной точке:

Здесь мы видим, что существует спектр слов с высокой вероятностью, которые, кажется, движутся в более или менее определенном направлении в пространстве лингвистических признаков. Вот что мы наблюдаем, следуя дальше по этой траектории:

Вот как это выглядит в трехмерном пространстве (всего мы видим здесь 40 шагов):

Все это похоже на полный хаос, так что трудно ожидать, что, изучая происходящее внутри ChatGPT, мы сможем открыть семантические законы движения, столь же четкие, как законы физики. Но, возможно, мы просто смотрим на неправильные переменные (или на неправильную систему координат), а если бы мы только посмотрели на правильную, то сразу бы увидели, что ChatGPT делает что-то математически/физически простое. Но на данный момент мы не готовы на основе внутреннего поведения ChatGPT эмпирически расшифровать его знания о человеческом языке.

Семантика и сила вычислительного языка

Что нужно для создания осмысленного человеческого языка? Раньше бы мы предположили, что потребуется лишь человеческий мозг. Однако теперь мы знаем, что нечто похожее может сделать нейронная сеть ChatGPT. Вероятно, это предел наших возможностей и мы не сможем найти ничего более простого – или более понятного человеку, – что смогло бы повторить этот подвиг. Однако я подозреваю, что успех ChatGPT раскрывает важный научный факт: осмысленный человеческий язык гораздо проще и структурированнее, чем мы привыкли думать, и работает в соответствии с довольно простыми правилами.

Как мы упоминали выше, синтаксис дает нам понимание того, как слова разных частей речи могут быть объединены в одно предложение. Однако для того, чтобы понять смысл этих слов, нам нужно копнуть еще глубже и рассмотреть не только синтаксис, но и семантику.

Когда речь идет о синтаксисе, мы должны определить, к какой части речи относится слово (например, это существительное или глагол). Однако для семантического анализа нужны более тонкие градации. Так, мы можем сопоставить понятие «движущийся» и понятие «объект» как связанные семой «сохранение идентичности независимо от местоположения». Существует бесконечное множество конкретных значений каждого из этих лингвистических концептов. Но для нашей семантики примем общее правило, которое гласит, что объекты могут перемещаться. Можно долго объяснять, как все это способно работать (и о многом из этого я уже говорил ранее), однако здесь ограничусь лишь несколькими замечаниями, которые указывают на некоторые потенциальные пути развития.

Нужно отметить, что, даже если предложение соответствует всем правилам семантики, это не значит, что его суть была реализована (или может быть реализована) на практике. Предложение «Слон отправился на Луну», несомненно, выстроено семантически верно, однако на практике у нас нет примеров таких событий (хотя в вымышленном мире это могло бы быть вполне реальным).

Начиная говорить о семантике, мы вскоре задаемся вопросом: что скрывается за этим? Какую «модель мира» она предполагает? Синтаксис – это просто правила, по которым из слов складываются предложения и более крупные единицы текста. Но семантика обязательно связана с некой «моделью мира» – чем-то, что служит скелетом, поверх которого может быть наложен язык.

До недавнего времени мы могли думать, что человеческий язык всегда будет

Перейти на страницу: