Сигнал и шум. Почему одни прогнозы сбываются, а другие – нет - Нейт Сильвер
Шрифт:
Интервал:
Закладка:
Создавая такие сюжеты, мы можем утратить способность к критическому осмыслению имеющихся фактов. Обычно выборы представляют собой конкуренцию различных повествований. Что бы вы ни думали в 2008 г. о Бараке Обаме, Саре Пейлин, Джоне Маккейне или Хиллари Клинтон, у каждого из них имелась убедительная история жизни – повествования о ходе кампании (типа «Game Change») читаются как отлично написанные бестселлеры. Кандидаты кампании 2012 г. были менее привлекательными, однако все равно смогли представить аудитории обычный ансамбль драматических клише от трагедии (Герман Кейн?) до фарса (Рик Перри).
Порой в таких повествованиях можно запутаться. Политика может быть особенно уязвимой к плохим предсказаниям из-за присущих ей человеческих элементов: наличие качественного выбора заставляет нас включать сильные чувства. Это не значит, что хорошее предсказание политического события требует от вас полной бесстрастности. Но это не значит и то, что отстраненный подход «лис» всегда будет приносить свои дивиденды.
«Лисий» подход к прогнозированию
Идея FiveThirtyEight[24] возникла у меня в зале ожидания международного аэропорта имени Луи Армстронга в Новом Орлеане в феврале 2008 г., где я ждал объявления на посадку на задержанный рейс. По какой-то причине, возможно, свою роль в этом сыграла порция мартини, мне вдруг показалось очевидным, что кто-то должен создать сайт, на котором оценивались бы шансы Хиллари Клинтон и Барака Обамы (жестко конкурировавших на тот момент в борьбе за пост кандидата от демократической партии) против Джона Маккейна.
При этом мой интерес к электоральной политике возник несколько раньше – и был скорее результатом разочарования, а не привязанности к политическому процессу. В 2006 г. я тщательно наблюдал за попыткой Конгресса запретить интернет-покер (бывший на тот момент одним из основных источников моего дохода). Я нашел анализ политических событий даже более интересным, чем анализ спорта (качество которого значительно улучшилось благодаря так называемой «Революции Moneyball»).
Во время подготовки к предварительным выборам я обнаружил, что все чаще и чаще смотрю политические телевизионные программы, в основном на каналах MSNBC, CNN и Fox News. Как правило, освещение событий было довольно скучным и бессодержательным. Несмотря на то что выборы должны были состояться через несколько месяцев, многие комментаторы говорили о неизбежности победы Клинтон и игнорировали неопределенность, присущую подобным ранним этапам выборной кампании. Слишком много внимания уделялось полу Клинтон и расе Обамы{170}. Некоторые комментаторы пытались навязчиво определить, удалось ли тому или иному кандидату «выиграть день», произнеся успешную фразу на пресс-конференции или переманив на свою сторону одного из не особо известных сенаторов (притом что это не волновало 99 % избирателей).
Политические новости, и особенно важные и действительно влияющие на кампанию, появляются нерегулярно. Однако новости создаются каждый день. Зачастую это всего лишь «наполнитель», упакованный в форме историй, призванных скрыть незначительность информации[25]. Часто это приводит не только к утрате сигнала, но и к усилению шума. Если в каком-то штате проводится некое количество опросов, показывающих верховенство республиканцев, то нет ничего интересного в том, что вы скажете то же самое, что говорят все остальные. Если же результаты вашего опроса покажут, что верх начинают брать демократы, вам обеспечено место в заголовках новостей – несмотря на то что ваш опрос представляет собой всего лишь информационный выброс и не может предсказать исход с должной степенью точности.
Иными словами, планка, установленная в конкурентной борьбе, казалась достаточно низкой. Любой человек мог произвести впечатление гения, занявшись самыми простыми базовыми исследованиями того, что действительно обладает предсказуемостной способностью в политической кампании. Поэтому я начал вести блог на сайте Daily Kos, рассказывая о детальном и управляемом данными анализе таких вопросов, как опросы или данные по сбору средств кандидатами. Я выяснил, какие опросы показывали в прошлом самые точные результаты и насколько победа в одном штате – к примеру, Айове – могла привести к изменению расстановки сил в другом. Мои статьи быстро стали популярными, хотя чаще всего комментарии читателей сайтов, подобных Daily Kos, носят качественный (и довольно предвзятый) характер. В марте 2008 г. я начал выставлять аналитические данные на собственном сайте (FiveThirtyEight), где размещались прогнозы, касающиеся различных выборных кампаний.
Поначалу модель прогнозирования FiveThirtyEight была довольно простой – по сути, она брала среднее значение из результатов всех опросов и рассчитывала вес каждого опроса в зависимости от его соответствия последующим событиям. Затем она стала более изощренной, однако при этом всегда соблюдались три довольно широких принципа (которые можно назвать «лисьими»).
Принцип 1. Учитывайте вероятностность события
Почти все публикуемые мной прогнозы, как в политике, так и в других областях, являются вероятностными.
Вместо того чтобы «выплеснуть» одну цифру и утверждать, что я точно знаю, что произойдет далее, я показываю диапазон возможных результатов. Например, 2 ноября 2010 г. мой прогноз о возможном количестве мест республиканцев в Конгрессе США выглядел так, как показано на рис. 2.1.
Предполагалось, что наиболее вероятное количество мест, которое наберут республиканцы, находилось в диапазоне, перекрывающем почти половину всех возможных вариантов, – от 45 до 65 (в реальности они получили 63 места). Однако также имелась возможность выигрыша республиканцами 70 или 80 мест – но уж точно не предсказанной Диком Моррисом сотни. И существовала вероятность того, что демократы удержат достаточно мест для сохранения контроля над Конгрессом.
Рис. 2.1. Прогноз количества мест республиканцев в Конгрессе США на 2 ноября 2010 г. от FiveThirtyEight
Широкий разброс исходов выборов отражал неопределенность, присущую реальному миру. Прогноз был создан на основе индивидуальных прогнозов для каждого из 435 мест в Конгрессе – и в большинстве кампаний разрыв межу конкурировавшими кандидатами был минимальным. В результате судьба 77 мест в Конгрессе определялась разрывом голосов менее чем в 10 %{171}. Если бы демократы обогнали собственные прогнозы в самых конкурентных регионах всего на пару процентов, то смогли бы легко удержать за собой Конгресс. Если бы то же самое смогли сделать республиканцы, то превратили бы свою победу в невероятный триумф. Небольшие колебания политических течений могли бы привести к существенно иному результату; поэтому было бы глупо сводить описание происходящего к точной цифре.
Этот вероятностный принцип также сохраняется в случаях, когда я прогнозирую, чем завершатся отдельные кампании. Например, насколько велика вероятность выигрыша кандидата, если он, по итогам опросов, опережает конкурента на пять пунктов? Именно такие вопросы и призваны решать модели типа FiveThirtyEight.
Ответ на подобный вопрос в значительной степени зависит от типа гонки, в которую вовлечен кандидат. Чем ниже уровень выборов, тем более волатильными становятся результаты: данные опросов на предвыборной гонке в Конгресс менее точны, чем данные опросов при выборах в Сенат, а те, в свою очередь, менее точны, чем опросы перед выборами президента. Также считается, что, в целом опросы в ходе предварительных партийных выборов (праймериз) значительно менее точны, чем опросы в ходе общих выборов. Во время праймериз Демократической партии в 2008 г. средняя величина ошибки в данных опроса составляла около восьми пунктов – значительно больше, чем подразумевается при оценке ее погрешности. Проблема опросов в ходе республиканских праймериз 2012 г. была еще масштабнее{172}. Фактически во многих важных штатах – включая Айову, Южную Каролину, Флориду, Мичиган, Вашингтон, Колорадо, Огайо, Алабаму и Миссисипи – кандидат, лидировавший в ходе опросов за неделю до выборов, проигрывал гонку.
Однако опросы становятся более точными по мере приближения дня выборов. В табл. 2.3 представлены некоторые результаты, полученные с использованием упрощенной версии модели прогнозирования FiveThirtyEight для выборов в Сенат, использовавшей данные за период с 1998 по 2008 г. В модели рассчитывалась вероятность выигрыша кандидата на основе значения средней величины его опережения в ходе опросов. Допустим, кандидат в Сенат, имевший пятипроцентное опережение, выигрывал гонку в 95 % случаев – это было почти гарантировано, хотя пресса часто называла предвыборную гонку «непредсказуемой». Напротив, в случае преимущества в пять пунктов за год до выборов, шансы на победу составляют лишь 59 % – чуть лучше, чем при гадании с помощью подбрасывания монетки.