Модели разума. Как физика, инженерия и математика сформировали наше понимание мозга - Lindsay Grace
Шрифт:
Интервал:
Закладка:
Нейроны, выделяющие дофамин, обычно производят около пяти всплесков в секунду, когда ничего особенного не происходит. В начале процесса обучения, сразу после того, как животное, сделав движение рукой, получило, как казалось, неожиданную порцию сока, этот показатель ненадолго подскочил примерно до 20 шипиков в секунду. Однако свет, предшествующий движению, ничего не вызывал. Но после достаточного количества пар, когда животное поняло, как связаны между собой свет, достижение и сок, эта картина изменилась. Нейроны дофамина перестали реагировать на сок. Это изменение полностью соответствует представлению о том, что они сигнализируют об ошибке предсказания, поскольку, как только животное может правильно предсказать появление сока, ошибки больше нет. И они начали реагировать на свет. Почему? Потому что свет стал ассоциироваться с вознаграждением, но - что очень важно - они не знали, когда он включится. Когда он появился, это была ошибка. Точнее, это ошибка в предсказанном значении состояния животного. Сидя в экспериментальном кресле и занимаясь своими делами, обезьяна ожидает, что следующий момент будет более или менее похож на текущий. Когда включается свет, это ожидание нарушается. Как если бы вы услышали первые несколько тактов песни "С днем рождения" в коридоре своего офиса - приятный сюрприз, но тем не менее сюрприз.
Последний анализ, проведенный при спорадическом отказе от сока после достижения, был направлен на то, чтобы увидеть, как кодируются неприятные сюрпризы. Если дофамин кодирует ошибки, то он должен указывать и на то, когда ситуация хуже, чем ожидалось. И когда сок отсутствовал, нейроны именно это и делали. У них наблюдался спад в стрельбе как раз в то время, когда сок должен был быть доставлен. Точнее, в ответ на свет нейроны сбрасывали от пяти до 20 импульсов в секунду; затем, когда животное протягивало руку, их количество возвращалось к пяти. Но примерно через полсекунды после протягивания руки, когда становилось ясно, что сок не поступает, они полностью отключались. Ожидание было нарушено, и дофаминовые нейроны давали об этом знать.
Это исследование показало, что срабатывание дофаминовых нейронов может сигнализировать об ошибках - как положительных, так и отрицательных - относительно прогнозируемых значений, которые необходимы для обучения. Таким образом, оно стало важным моментом в изменении понимания дофамина от молекулы удовольствия до педагогического.
Однако если смысл кодирования ошибки заключается в том, чтобы извлечь из нее уроки, то где происходит это обучение? Оказывается, это не так просто определить, потому что дофамин-выделяющие нейроны выделяют дофамин во многих уголках мозга; их проекции пронизывают мозг, как трубы, затрагивая близкие и далекие области.Тем не менее,сайте есть место, которое кажется особенно важным, - это стриатум. Стриатум - это группа нейронов, которая служит первичным входом для целого ряда областей мозга, участвующих в управлении движениями и действиями. Нейроны в стриатуме способствуют формированию поведения, связывая сенсорные сигналы с действиями или действия с другими действиями.
Как мы видели в главе 4, гебистское обучение - это простой способ закодировать ассоциации между идеями в связях между нейронами. По правилам Хеббиана, если один нейрон регулярно срабатывает раньше другого, вес связи от первого ко второму усиливается. Однако в обучении с подкреплением нам нужно не просто знать, что два события произошли в близкое время. Нам нужно знать, как эти события связаны с вознаграждением. В частности, мы хотим обновить вес связи между сигналом и действием (например, увидеть свет и потянуться к нему) только в том случае, если эта пара окажется связанной с вознаграждением.
Таким образом, нейроны в стриатуме не следуют базовому гебистскому обучению. Вместо этого они следуют модифицированной форме, при которой срабатывание одного нейрона перед другим укрепляет их связь только в том случае, если это происходит в присутствии дофамина. Таким образом, дофамин, который кодирует сигнал об ошибке, необходимый для обновления значений, также требуется для физических изменений, необходимых для обновления, которые происходят в синапсе. Таким образом, дофамин действительно действует как смазка для обучения.
Появление языка изучения временных различий, на котором можно говорить о работе мозга, изменило разговор на такие клинические темы, как зависимость. Одна из теорий, выдвинутая в 2004 году нейробиологом Дэвидом Редишем, пытается объяснить вызывающие зависимость свойства таких наркотиков, как амфетамин и кокаин, с точки зрения их влияния на высвобождение дофамина. Он утверждает, что эти наркотики вызывают выброс дофамина, который не зависит от истинной ошибки предсказания. Точнее, перегружая дофаминовые нейроны, эти наркотики посылают в остальной мозг ложный сигнал о том, что наркотический опыт всегда лучше, чем ожидалось. Этот ошибочный сигнал об ошибке все еще стимулирует обучение, подталкивая оценочную стоимость состояний, связанных с употреблением наркотиков, все выше и выше. Подобная деформация функции ценности гарантированно оказывает пагубное влияние на поведение, подобное тому, что наблюдается при наркомании.6
* * *
Дэвид Марр - британский нейробиолог с математическим образованием. Его книга "Видение: A Computational Investigation into the Human Representation and Processing of Visual Information" была опубликована в 1982 году, через два года после его смерти. В первой главе он излагает компоненты, необходимые для успешного анализа нейронной системы. По мнению Марра, чтобы понять любой кусочек мозга, мы должны быть в состоянии объяснить его на каждом из трех уровней: вычислительном, алгоритмическом и реализационном. На вычислительном уровне спрашивается, какова общая цель этой системы, то есть что она пытается сделать? На алгоритмическом уровне спрашивается, как, то есть с помощью каких шагов, она достигает этойцели. И наконец, уровень реализации спрашивает, какие именно части системы - какие нейроны, нейротрансмиттерыи т. д. - выполняют эти шаги.
Объяснение, охватывающее все уровни Марра, - это стремление, к которому стремятся многие нейробиологи. Системы, осуществляющие обучение с подкреплением, - редкий случай, когда они могут приблизиться к этой высокой планке. На вычислительном уровне у обучения с подкреплением есть простой ответ: максимизировать вознаграждение. Это то, что Беллман считал целью последовательных процессов принятия решений, и то, чего вы должны достичь, следуя функции ценности. Но как узнать функцию ценности? Вот