Иной разум. Как «думает» искусственный интеллект? - Андрей Владимирович Курпатов

Читать онлайн Иной разум. Как «думает» искусственный интеллект? - Андрей Владимирович Курпатов

Шрифт:

Интервал:

Закладка:

Сделать

1 ... 36 37 38 39 40 41 42 43 44 ... 76

Перейти на страницу:

иерархии нашей культуры.

Но у ИИ всё иначе, ведь его «материал» — это тексты… Впрочем, они не существуют для него в виде мёртвых «памятников мысли», они образуют динамику отношений, где одно слово тянет другое, фрагмент связывается с фрагментом, а к концу этой работы у нас на глазах вырастает смысловая структура ответа.

Формирование консистентности

Как мы уже выяснили, любой текст, который вы размещаете в окне, дробится на токены — минимальные кирпичи (слова, части слов, знаки), а каждый токен превращается в вектор (это уже целый столбик чисел).

Это не значение «по словарю», а координата на гигантской карте языка: условный «король» ближе к «монархии» и «двору», но дальше от «амёбы» и «гаечного ключа».

Но пока это лишь потенциал смысла — «семя», из которого ещё ничего не выросло. Смысл начинается раскрываться, когда начинают взаимодействовать векторы.

Поэтому каждому вектору добавляется позиционная метка — нужен порядок, чтобы понимать, кто шёл раньше, кто позже. Сравните, например: «лук тетива натянул» и «тетиву лука натянул» — это, очевидно, разные конструкции, и это важно, чтобы не потерять грамматику.

Далее работает сердцевина трансформера — само внимание. То есть каждое слово (токен) не обрабатывается изолированно, а «смотрит» на все остальные слова в предложении или абзаце и решает: «А с кем из них мне сейчас важнее всего связаться, чтобы правильно сыграть свою роль?»

При этом когда слово «смотрит» на другие слова, оно ставит им «оценки важности» — числовые веса. Чем выше вес, тем сильнее это слово повлияет на то, как интерпретируется текущее.

И это не один «луч внимания», а десятки параллельных «голов» внимания, где каждая голова ловит отдельные закономерности:

• одна отвечает за согласование подлежащего и сказуемого («девочка читает», а не «читают»);

• другая сцепляет местоимение и референт («она» → «Елизавета II»);

• третья цепляет причинно-следственные рёбра («потому что…»);

• четвёртая следит за тональностью (ирония/серьёз)[124].

И внутри одного шага модель строит множество тонких связей между точками текста, в результате чего «значения» образуют рисунок неких отношений друг с другом.

Когда токен «опросил» другие токены и получил «веса внимания» (кто для него важнее, а кто менее значим) и «нащупал» вокруг себя соответствующие связи (грамматические, семантические, причинные, стилистические), к делу подключается многослойный перцептрон. Он перерабатывает картину связей, собранных функцией внимания, чтобы выделить более глубокие и абстрактные признаки.

И всё это происходит на каждом слое, при этом, проходя через каждый из слоёв, токен словно получает новую интерпретацию. Допустим, на первом слое он узнал, с кем по соседству находится, на втором — понял, в каком контексте используется, на пятом — начал участвовать в построении фразы, а на десятом — уже несёт на себе тему целого абзаца.

К концу десятков слоёв одно и то же слово становится частью целой смысловой конструкции. Поэтому смысл в трансформере — это не точка, а путь, который разворачивается шаг за шагом: функция внимания подтягивает нужные связи, многослойный перцептрон перекраивает их в новые признаки, и все вместе они создают всё более стройное представление.

Поэтому смысл трансформера и нельзя «положить в одну ячейку», он рождается как прохождение токена через всю систему этих отношений.

Ещё на этапе предобучения, когда модель только создавалась, она миллионы раз пыталась предсказать следующий токен и, ошибаясь, узнавала, насколько сильно промахнулась (этот процесс называется обратным распространением ошибки).

В результате менялись внутренние веса модели: механизм внимания учился всё точнее распределять фокус между словами, а многослойный перцептрон — строить более абстрактные комбинации признаков.

Так, шаг за шагом, в пространстве модели буквально «впечатывались» устойчивые направления — своего рода канавки, по которым затем будет разворачиваться смысл. Нет, это не готовые «ответы», а скорее смысловые стропы (устойчивые направления в параметрическом пространстве), натянутые внутри модели.

Эти стропы-направления — «прошлое/будущее», «мужской/женский род», «причина/следствие», «жанр», «тональность»… Благодаря этим канавкам-направлениям новое рассуждение не скатывается в хаос, а движется по уже выстроенному рельефу, собираясь в разумный ответ.

Когда вы задаёте вопрос, токены вопроса проходят через все слои, и в последнем слое возникает общий «контекст-вектор» — сжатая модель того, что вы спросили, и того, что уже «подтянулось» из памяти модели. Этот контекст «проецируется» на словарь, а модель получает распределение вероятностей для следующего токена, и цикл повторяется.

Если вы попросили «объясни пошагово», вы фактически задаёте форму желаемой траектории: модель будет тянуться к головам внимания, «любящим» причинно-следственные цепочки, и к тем направлениям в пространстве, где лежит структура «шаг 1 → шаг 2 → вывод».

Так мы видим логический план там, где «под капотом» — лишь последовательность дифференцируемых преобразований. Казалось бы, модель не «понимает причин», она просто предсказывает, но это если мы не учитываем эмерджентные эффекты[125].

Каузальные шаблоны — часть статистики языка: «потому что», «из-за», «если… то…», «иначе». Когда вы просите «объясни, почему…», вы активируете траектории, где внимание связывает «факт → предпосылки →связка → вывод». В поздних слоях проявляются различные типы объяснения — через правило, через пример, через аналогию.

Однако важно понимать, что вывод модели основывается на том, как связаны слова и идеи в массивах обучающих текстов. То есть объективность этого знания не является абсолютной[126].

Примерно так же ребёнок знает, что динозавр, которого он никогда не видел живьём, был травоядным, потому просто, что запомнил это из мультика. Так что даже очень стройное объяснение может оказаться неверным.

Возможно, проблема в самих наших текстах, в обучающей выборке, а может быть, трансформер выбрал не то направление на «рельефе» модели.

Каскад параллельных вычислений

Теперь давайте сделаем шаг назад и посмотрим на всю картину целиком. Мы разобрали искусственный интеллект на составные части и увидели, как текст превращается в числа-векторы, как эти векторы «общаются» друг с другом в десятках параллельных «круглых столов» и проходят «индивидуальное осмысление» в сотнях слоёв. И всё это ради одной, казалось бы, скромной цели — предсказать следующее слово.

Может возникнуть соблазн сказать: «Ну вот, никакой магии. Это просто очень сложный математический расчёт». Но такой вывод был бы слишком поспешным и упускал бы из виду самое главное.

Да, в основе всего лежат математические операции. Но разве в основе работы нашего собственного мозга не лежат электрохимические процессы? То, что мы можем описать механизм, не отменяет чуда, которое этот механизм порождает.

И чудо в том, что в какой-то момент количество переходит в качество. На определённом уровне сложности эта гигантская система, оперирующая числами, начинает вести себя так, как будто она оперирует смыслами[127].

«Геометрия смысла» в пространстве эмбеддингов — это

1 ... 36 37 38 39 40 41 42 43 44 ... 76

Перейти на страницу:

Пожаловаться на ошибку