- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Модели разума. Как физика, инженерия и математика сформировали наше понимание мозга - Lindsay Grace
Шрифт:
Интервал:
Закладка:
Это техническое определение стоимости - с учетом состояний, рекурсии и коэффициентов дисконтирования - может показаться далеким от того, что мы используем в повседневном языке. Но эти разговорные коннотации в значительной степени присутствуют в этом уравнении. Почему мы ценим деньги? Не потому, что бумажка или монета доставляют нам удовольствие, а потому, что мы можем представить себе будущее, когда у нас будет эта бумажка или монета. Деньги стоят только того, что они могут дать нам позже, а то, что мы можем получить позже, заложено в определении стоимости Беллмана.
Работа Беллмана по формулированию последовательных процессов принятия решений таким образом действительно позволила ему стать "современным интеллектуалом", которым он стремился стать, перейдя в RAND. В годы после его первых публикаций, описывающих это решение, бесчисленные компании и правительственные организации начали применять его в мире. К 1970-м годам идеи Беллмана использовались для решения таких разнообразных задач, как проектирование канализационных систем, составление расписания авиаперевозок и даже управление исследовательскими отделами в таких крупных компаниях, как Monsanto. Техника получила название "динамическое программирование" - довольно банальное словосочетание, которое Беллман придумал для того, чтобы отгородиться от некоторых математически фобизированных военных. 1950-е годы были не самыми удачными для математических исследований", - написал Беллман в своей автобиографии. Корпорация RAND работала на ВВС, а начальником ВВС был [Чарльз] Уилсон. Поэтому я чувствовал, что должен сделать что-то, чтобы оградить Уилсона и ВВС от того факта, что я действительно занимаюсь математикой в корпорации RAND. ... Таким образом, я решил, что динамическое программирование - это хорошее название. Это было то, против чего не мог возразить даже конгрессмен. Поэтому я использовал его как зонтик для своей деятельности".
Применяя метод в каждой из этих ситуаций, инженеры должны были найти способ вычислить функцию стоимости. В некоторых случаях, как в примере с метро, приведенном выше, ландшафт проблемы достаточно прост, и расчеты не представляют сложности. Но простые проблемы редко бывают реалистичными. Реальный мир имеет большое количество потенциальных состояний; эти состояния могут соединяться друг с другом сложными и даже неопределенными способами; и они могут делать это посредством множества возможных действий. Много усилий было потрачено на поиск функции стоимости в этих сложных ситуациях. Однако даже при использовании хитроумных методов применение динамического программирования обычно упиралось в предел вычислительных мощностей того времени. Вычисление функции ценности всегда было узким местом в процессе. А без способа нахождения функции стоимости весь потенциал вклада Беллмана оставался бы нераскрытым.
* * *
В наследии Павлова есть своя ирония. Его непосредственным следствием стало возникновение бихевиоризма - религиозного движения, стремящегося игнорировать разум и сосредоточиться только на непосредственно измеряемом поведении. Однако порожденная им линия математических моделей добилась успеха в другом направлении, все больше углубляясь в сознание; чтобы отразить обучение с подкреплением в уравнениях, потребовалось использовать термины, обозначающие скрытые ментальные понятия.
Одно из известных расширений модели Буша-Мостеллера появилось 20 лет спустя, в 1972 году, и было разработано другим дуэтом, психологами из Йельского университета Робертом Рескорлой и Алланом Вагнером. Рескорла и Вагнер обобщили модель Буша-Мостеллера, сделав ее применимой к более широкому кругу экспериментальных условий и способной охватить большее количество результатов. Первое изменение, которое они внесли, касалось самого показателя, который модель пыталась объяснить.
Вероятность реакции" Буша и Мостеллера была слишком конкретной и ограниченной. Рескорла и Вагнер вместо этого стремились зафиксировать более абстрактную величину, которую они назвали "ассоциативной силой". Сила ассоциации между подсказкой и вознаграждением - это то, что существует в сознании участника, что не позволяет измерить ее напрямую, но в разных экспериментах ее можно попытаться определить разными способами. Это может включать измерение вероятности ответа, например, вероятности слюноотделения, а также другие показатели, такие как количество слюны или поведение, например, лай или движение. Таким образом, Рескорла и Вагнер включили модель Буша-Мостеллера в более широкую структуру.
Модель Рескорла-Вагнера также расширилась, включив в себя известную особенность экспериментов по обучению, называемую "блокированием". Блокирование происходит, когда первоначальная подсказка сопряжена с вознаграждением, а затем вместе с первой подсказкой дается вторая, и обе они сопряжены с вознаграждением. Например, после того как собака научилась ассоциировать звук зуммера с едой, экспериментатор одновременно со звуком зуммера включал свет, а затем давал еду. В модели Буша и Мостеллера сигналы рассматривались совершенно отдельно. Таким образом, если свет и зуммер были сопряжены с едой достаточное количество раз, собака должна была ассоциировать свет с едой так же, как она усвоила ассоциацию со зуммером. Тогда можно было бы ожидать, что показ одного только света вызовет у собаки слюноотделение. На самом деле все обстоит иначе: у собак не возникает слюноотделения в ответ на один только свет. Присутствие зуммера блокирует способность света ассоциироваться с едой.
Это служит еще одним доказательством того, что обучение происходит благодаря ошибкам. В частности, ошибки, связанные с прогнозируемым вознаграждением. Когда животное слышит звуковой сигнал, оно знает, что скоро будет еда. Поэтому, когда пища прибывает, нет никакой ошибки в предсказании вознаграждения. Как мы уже видели, это означает, что животное не обновляет свои убеждения относительно зуммера. Но это также означает, что он не обновляет свои убеждения ни о чем другом. Был ли свет включен одновременно со звуковым сигналом или нет, не имеет значения. Свет никак не влияет на предсказанное вознаграждение, полученное вознаграждение или разницу между ними, которая определяет ошибку предсказания - а без ошибки все остается как есть. Ошибка предсказания - это смазка, которая смазывает колеса обучения.
Таким образом, Рескорла и Вагнер сделали так, что обновление ассоциативной силы между одной подсказкой и вознаграждением зависело не только от текущей ассоциативной силы этой подсказки, но и от суммы ассоциативных сил всех присутствующих подсказок. Если одна из этих ассоциаций имеет высокую силу (например, если присутствует зуммер), то присутствие награды не изменит ни одну из них (ассоциация со светом не будет усвоена). Такое суммирование по нескольким сигналам также должно происходить внутри животного, что еще больше отражает отказ от бихевиоризма и переход к разуму.
Но переломный момент в обучении с подкреплением наступил в середине 1980-х годов благодаря работе канадского компьютерщика с хвостиком по имени Ричарди его советника по докторской диссертации Эндрю

