Иной разум. Как «думает» искусственный интеллект? - Андрей Владимирович Курпатов

Читать онлайн Иной разум. Как «думает» искусственный интеллект? - Андрей Владимирович Курпатов

Шрифт:

Интервал:

Закладка:

Сделать

1 ... 20 21 22 23 24 25 26 27 28 ... 76

Перейти на страницу:

Адам Смит

В какой-то момент создателям искусственного интеллекта действительно стало казаться, что для создания более мощного разума нужно лишь наращивать масштаб. «Больше данных, больше параметров, больше слоёв, больше вычислений!» стало девизом в кремниевой долине. В результате появились колоссальные, монолитные нейронные сети, которые и в самом деле обучены на всём доступном материале из интернета.

Однако тут встал вопрос эффективности гигантских языковых моделей. Заставлять нейросеть, состоящую из сотен миллиардов параметров, задействовать всю свою мощь, чтобы ответить на простой вопрос вроде «Который час?» — это всё равно что использовать суперкомпьютер для расчёта сдачи в магазине. Невероятно дорого и медленно.

Вторая проблема в том, что «вся информация из интернета» не является монолитной структурой. Скорее она напоминает Вселенную — с отдельными галактиками, чёрными дырами, млечными путями и звёздными системами, каждая из которых, если приглядеться, обладает своей внутренней логикой.

Возьмите, например, отдельно медицину, историю или квантовую физику. По каждой из этих дисциплин человечество сгенерировало колоссальное количество текстов, но насколько они комплементарны друг другу? Думаю, понятно, что это всё-таки очень разные «галактики».

Третья, ещё более глубокая проблема, — проблема модальностей. Наш мир состоит не только из текстов. Он также полон изображений, звуков, музыки, видео. Монолитная модель, обученная только на текстах, подобна гению, который всю жизнь провёл в библиотеке, не видя и не слыша ничего из внешнего мира. Она может знать всё о слове «закат», но она не имеет ни малейшего представления о том, как он выглядит.

Таким образом, перед инженерами ИИ встал вопрос: как сделать свои творения одновременно и более эффективными, и более разносторонними? Решение, к которому они пришли, поразительно напоминает принцип, который эволюция миллионы лет назад использовала при создании мозга, — принцип функциональной специализации.

Смесь экспертов

Вместо того чтобы делать одного профессора-всезнайку ещё умнее, гораздо эффективнее создать «академию наук» — команду узких специалистов, но с высокой компетентностью в той или иной сфере. Именно по этому пути и пошли создатели архитектуры Mixture of Experts (MoE), или «Смесь экспертов»[93].

Идея проста: вместо одного гигантского и «медленного» блока многослойного перцептрона (нашей «лаборатории знаний») инженеры создали целый ансамбль из нескольких десятков параллельных, но гораздо более компактных и быстрых «экспертов».

Каждый из них в процессе обучения неявно специализируется на своей области «знаний»: один лучше разбирается в программировании, другой — в поэзии, третий — в истории или в медицине.

Когда на этот уровень поступает вектор, специальная маленькая нейросеть-диспетчер мгновенно решает, к каким двум-трём экспертам лучше всего обратиться с этим вопросом. Активируются только эти выбранные специалисты, а все остальные «члены академии» в этот момент отдыхают, не тратя драгоценные вычислительные ресурсы.

Таким образом, узкий круг «экспертов» обрабатывает конкретный вектор и затем объединяет свой результат, чтобы сформировать окончательный, обогащённый ответ. Эта система обладает колоссальным объёмом знаний, но при этом в каждый конкретный момент задействует лишь малую, наиболее релевантную часть своей мощи. Она стала и умнее, и быстрее одновременно.

Интеграция модальностей

Но как решить проблему модальностей? Как научить систему, рождённую в мире текста, понимать мир изображений и звуков?

Для этой цели были созданы мультимодальные модели. У них есть не только основной механизм для работы с текстом, но и отдельные, специально обученные модули-энкодеры, которые умеют переводить другие типы данных — от видео, звука и т. д. — на универсальный язык машины.

Одна модель «смотрит» на изображение (картинку) и разбирает её на небольшие фрагменты-патчи, чтобы превратить каждый в многомерный вектор[94]. Другая модель работает с аудиофайлами или видео — нарезает на короткие отрезки и тоже переводит их в универсальные векторы.

В результате внутри модели, в её гигантском «пространстве смыслов», вектор, представляющий слово «собака», оказывается в одном смысловом «квартале» не только с вектором слова «лаять», но и с векторами фотографий собак и с вектором аудиозаписи собачьего лая.

Таким образом, разные модальности — текст, изображение, звук — в каком-то смысле начинают «говорить» на общем языке векторов[95]. Да, конечно, искусственный интеллект не «видит» и «слышит», но зато решает задачи, как если бы он действительно мог и то, и другое, и многое что ещё.

В результате системы современных ИИ становятся всё более сложными, многофункциональными, распределёнными и гетерогенными. И только после того как запрос прошёл через все эти специализированные департаменты и сложные согласования, система готова к финальному, казалось бы, простому акту своего чуда…

Явление слов

Они бы считали, что истина — это не что иное, как тени предметов.

Платон

Итак, мы начали с бесчисленного количества текстов, разобрали их на «кирпичики-токены» и превратили каждый из них в многомерный вектор — точку в гигантском смысловом пространстве.

Затем мы построили самую настоящую «фабрику мысли» — архитектуру «трансформера».

• Теперь всё, что мы говорим модели, проходит через каскад слоёв-этажей. На каждом этаже токены из нашего запроса сначала попадали в огромный «конференц-зал» многоголового внимания, где каждый вектор уточнял контекст через переговоры со множеством разных точек зрения.

• Обогащённый этим коллективным обсуждением, каждый вектор отправлялся в свою «индивидуальную лабораторию» — многослойный перцептрон, где он насыщался выученными знаниями о мире, обрастая новыми смысловыми нюансами.

Слой за слоем, итерация за итерацией изначальные, «сырые» векторы слов превращались во всё более сложные, абстрактные и невероятно насыщенные информацией сущности.

И вот, пройдя через все эти горнила — фабрики и лаборатории, мы на выходе последнего слоя имеем некий финальный массив векторов. Что с ним происходит дальше? Как из этого сложнейшего математического объекта снова рождается человеческое слово?

Проклятье декодера

Что ж, теперь в центре нашего внимания оказывается только один вектор — последний в последовательности. Именно он, вобрав в себя всю релевантную информацию, становится ответственным за предсказание и подаётся на последний, выходной механизм — «декодер».

Задача декодера — перевести сложный внутренний язык многомерных векторов обратно на язык слов.

• Сначала декодер берёт этот вектор и с помощью ещё одной математической операции (умножения на специальную матрицу) преобразует его в очень длинный список чисел. Длина этого списка равна размеру всего словаря токенов модели (например, 50 000 чисел). Каждое из этих чисел — это своего рода «оценка» или «рекомендация» для соответствующего токена.

• Затем этот список «оценок» проходит через специальную функцию, которая превращает его в вероятностное распределение. То есть она присваивает каждому из 50 000 токенов свою вероятность появления в данном контексте. Например: «неравенство» — 30 %, «кризис» — 15 %, «долг» — 10 %, «король» — 0,001 % и т. д.

• Наконец, модель делает выбор. Чаще всего

1 ... 20 21 22 23 24 25 26 27 28 ... 76

Перейти на страницу:

Пожаловаться на ошибку