Сигнал и шум. Почему одни прогнозы сбываются, а другие – нет - Нейт Сильвер
Шрифт:
Интервал:
Закладка:
И все же, если трагедия «Юлий Цезарь» и была посвящена древней идее предсказания, связанной с фатализмом, гаданием и суеверием, в ней прозвучала и более современная и значительно более радикальная мысль о том, что мы должны интерпретировать эти знаки так, чтобы получать какие-нибудь преимущества. «Порой своей судьбою люди правят. Не звезды, милый Брут, а сами мы виновны в том, что сделались рабами», – говорит Кассий, надеясь убедить Брута принять участие в заговоре против Цезаря.
Идея человека – хозяина своей судьбы – быстро набрала популярность. Слова предсказание (prediction) и прогноз (forecast) в наши дни используются чуть ли не как синонимы, однако во времена Шекспира они обозначали разные вещи. Предсказаниями занимались прорицатели, а прогноз напоминал идеи Кассия.
Слово прогноз (forecast) в английском языке имеет германские корни{20}, а слово predict (предсказывать) пришло из латыни{21}. Прогнозирование отражало скорее новый мирской протестантский взгляд на мир, приземленность, а не ту отрешенность от мира сего, что была характерна для Священной Римской империи. Создание прогноза обычно предполагало работу в условиях неопределенности. Оно основывалось на благоразумии, мудрости и трудолюбии и больше напоминало процесс, который мы в наши дни часто связываем с понятием предвидения{22}.
Теологические последствия этой идеи достаточно сложны{23}. Однако они не были довольно значимыми для тех, кто надеялся обрести благо в земном мире. Эти качества оставались тесно сплетены с протестантской рабочей этикой, которую Макс Вебер воспринимал как основу зарождения капитализма и промышленной революции{24}. Подобное определение прогнозирования непосредственно связано с понятием прогресса. Вся информация, содержавшаяся в массе книг, должна была помочь так планировать свою жизнь, чтобы получить прибыль.
Протестанты, пережившие столетия священных войн, учились использовать накопленное ими знание с целью изменения общества. Промышленная революция началась в протестантских странах и в странах со свободной прессой, в которых и религиозные, и научные идеи могли распространяться без оглядки на цензуру{25}.
Важность промышленной революции сложно переоценить. На протяжении практически всей человеческой истории экономический рост составлял около 0,1 % в год. Этого было достаточно для обеспечения постепенного прироста населения, но не для роста уровня жизни на душу населения{26}. А затем внезапно, почти на пустом месте возник прогресс (рис. В. 2). Экономический рост начал происходить значительно быстрее, чем темпы роста населения (так продолжается и по сей день, если не обращать внимания на краткосрочный глобальный финансовый кризис){27}.
Как оказалось, взрывообразный рост информации, возникший благодаря появлению печатного станка, принес нам массу хорошего. Однако для того, чтобы все это благо реализовалось, потребовалось 330 лет – и миллионы погибших на полях сражений по всей Европе.
Парадокс продуктивности
Всякий раз, когда информационный рост происходит быстрее, чем развивается наше понимание того, как именно обрабатывать получаемые данные, нас поджидает опасность. Последние 40 лет человеческой истории показывают, что для превращения информации в полезное знание может потребоваться немалое время и что если мы не будем достаточно осторожны, то легко сможем сделать шаг назад.
Понятие «информационная эпоха» вряд ли можно считать таким уж новым. Оно получило определенное распространение уже в конце 1970‑х годов. Другой похожий термин – «компьютерная эра» – использовался даже несколько раньше, примерно с 1970 г.{28}. В то время компьютеры уже начали более широко применяться в лабораториях и других научных учреждениях, хотя еще и не стали привычным предметом бытовой техники. В этот раз нам не понадобились 300 лет для того, чтобы рост в области информационных технологий начал приносить человеческому обществу весомые преимущества. Однако нам все равно потребовалось от 20 до 30 лет.
1970‑е гг. были (выражаясь словами Пола Кругмана[1]) «звездным часом множества теорий, созданных вокруг невероятно небольших объемов данных». Мы начали использовать компьютеры для создания моделей мира, однако нам потребовалось время, чтобы понять, насколько неточными и основанными на предположениях они были. Мы не сразу осознали, что точность, на которую способны компьютеры, не может заменить правильность прогнозов. В эту эпоху мы выдвигали множество смелых предположений в целом ряде областей, начиная от экономики и заканчивая эпидемиологией, и очень часто эти предположения оказывались ошибочными. Например, в 1971 г. было заявлено о том, что в течение следующего десятилетия мы научимся достаточно точно предсказывать землетрясения{29}, однако прошло 40 лет, а мы так и не приблизились к решению этой проблемы.
На самом деле компьютерный бум 1970‑х и 1980‑х гг. привел к временному снижению экономической и научной производительности. Экономисты назвали это «парадоксом продуктивности». «Влияние компьютерной эпохи можно было увидеть во всем, за исключением статистики продуктивности», – писал экономист Роберт Солоу в 1987 г.{30}. В период между 1969 и 1982 гг. Соединенные Штаты столкнулись с четырьмя явными рецессиями{31}. Конец 1980‑х гг. был более сильным периодом в экономическом плане для США, но не для многих других стран мира.
Научный прогресс значительно сложнее поддается оценке, чем экономический{32}. Однако одним из его индикаторов может служить количество выданных патентов, особенно в области инвестиций в исследовательскую деятельность. Если после внедрения нового изобретения происходит снижение цен на тот или иной продукт, то это значит, что мы мудро используем имеющуюся информацию и успешно превращаем ее в знание. Если же цены начинают расти, это дает основания считать, что мы видим сигналы в шуме и напрасно тратим время, двигаясь в неверном направлении.
В 1960‑х гг. в Соединенных Штатах было потрачено около 1,5 млн долл. (с учетом инфляции{33}) на каждую патентную заявку{34}, поданную американским изобретателем. Однако на заре информационной эпохи эта цифра скорее росла, а не снижалась, а пиковое значение, достигнутое в 1986 г., составило примерно 3 млн долл. (рис. В. 3){35}.
Рис. В. 3. Расходы на научно-исследовательскую работу, необходимые для подачи заявки на патент
По мере того как мы начали более реалистично оценивать пользу от применения новых технологий, ситуация стала вновь улучшаться в 1990‑е гг. Мы реже оказывались в тупиковых ситуациях; компьютеры сделали нашу повседневную жизнь лучше и стали помогать нашей экономике. Зачастую то, что выглядело прогрессивным в будущем, в скором времени приводило к регрессу. То, что кажется предсказуемым в долгосрочной перспективе, способно нарушить наши самые продуманные планы в настоящем.
Обещания и подводные камни «Больших данных»
В наши времена модным стал термин «Большие данные»[2]. По расчетам компании IBM, мы ежедневно создаем 2,5 квинтильона байтов данных, а 90 % информации, имеющейся в нашем распоряжении, было получено за последние два года{36}.
Этот экспоненциальный рост информации, как и компьютеры в 1970‑е гг., порой представляется нам лекарством от всех болезней. Крис Андерсон, редактор журнала Wired, писал в 2008 г., что сам по себе огромный объем данных способен заменить собой теорию и даже научный метод{37}.
Книга, которую я написал, стои́т на стороне науки и технологии, и я считаю подобную позицию вполне оптимистичной. Однако следует помнить, что мы склонны допускать массу ошибок. Цифры сами по себе не умеют говорить. Именно мы говорим за них. Мы наполняем их смыслом. Как и Цезарь, мы можем трактовать их в свою пользу, что порой уводит нас слишком далеко от объективной реальности.
Управляемые данными предсказания способны обеспечить нам успех – или привести к неудаче. Шансы на неудачу возрастают, когда мы отрицаем собственную роль в процессе. Перед тем как потребовать большего от данных, мы должны потребовать больше от себя.
Если вы знаете мою предысторию, то такая точка зрения может показаться вам довольно странной. Многие слышали о том, что я умею работать с данными и статистически их обрабатывать. Я использую имеющуюся информацию для создания довольно успешных прогнозов. В 2003 г., когда мне уже порядком надоело консультировать клиентов, я занялся созданием системы, получившей название PECOTA, цель которой состояла в предсказании результатов игроков Главной бейсбольной Лиги. Она имела целый ряд инноваций (например, ее прогнозы носили вероятностный характер, и в них указывался диапазон возможных исходов для каждого игрока). Сравнив наши результаты с соответствующими результатами конкурирующих систем, мы обнаружили, что смогли их переиграть. В 2008 г. я создал веб-сайт FiveThirtyEight, призванный предсказать результаты надвигавшихся выборов. Прогнозы FiveThirtyEight правильно назвали победителя президентского голосования в 49 из 50 штатов, а также победителей голосования в 35 штатах по итогам выборов в Сенат.