Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Шрифт:
Интервал:
Закладка:
Это правда: вы вряд ли сорвете джекпот в лотерею, однако некоторые люди в нее все-таки выигрывают. Если учесть количество лотерей, проводимых по всему миру каждый день, вероятность того, что столь редкое событие произойдет с кем-то из жителей планеты, пусть даже не с вами, оказывается не такой уж и низкой.
Мы часто забываем об огромном количестве людей, живущих на Земле. При населении в несколько миллиардов человек события типа «1 на миллион» кажутся гораздо более вероятными. На самом деле, участниками таких событий становится гораздо больше людей, чем мы можем себе представить. В мире, где проживает 7,8 миллиарда человек, событие типа «1 на миллион» может происходить ежедневно с участием 7800 человек.
С другой стороны, то или иное событие очень легко представить чрезвычайно редким, чтобы придать ему драматизма (а возможно, даже ввести в заблуждение). Например, в американском футболе очень часто встречаются комментарии, намекающие на редкость происходящего на экране события. «Это первый раз, когда 28-летний новичок пробежал 30 ярдов после двух выездных игр и всего одной игры в предсезонке». Если сформулировать это так, то данное событие действительно может показаться редким.
Не перемножайте вероятности без необходимости
Не перемножайте вероятности прошлых событий без особой необходимости. В противном случае вы можете сделать то или иное событие практически невероятным.
Давайте прикинем вероятность того, что вы читаете именно эту строку на этой странице этой самой книги. Помимо данной строки на этой странице еще примерно 35 строк (1/35), в книге – еще 300 страниц (1/300), а в мире – миллионы книг. Если вы перемножите эти вероятности, то получите бесконечно малое число. Очевидно, мы были созданы друг для друга!
Подведение итогов
Эта глава должна была научить вас не только основам теории вероятностей, но и смирению. Вероятности – это сложная тема. Однако важное условие успешного изучения новой темы – осознание того, что что-то может пойти не так. Информация, которую вы узнали из этой главы, поможет вам найти дополнительные сведения, прежде чем принимать решения относительно вероятности, особенно в тех случаях, которые на первый взгляд кажутся интуитивно понятными.
В этой главе мы показали, как легко можно ошибиться при определении вероятностей. Иногда ошибка заключается в самой формулировке вопроса, а иногда – в предположениях, основанных на предоставляемой информации. Чтобы избежать недоразумений, пользуйтесь нашими рекомендациями при анализе вероятностей:
– Будьте осторожны, делая предположения о независимости событий.
– Знайте, что все вероятности являются условными.
– Убедитесь в том, что вероятности имеют смысл.
Глава 7
Бросайте вызов статистике
Кент Брокман: Мистер Симпсон, как вы ответите на обвинения в том, что мелкого вандализма вроде граффити стало меньше на 80 %, в то время как количество случаев избиения тяжелыми мешками выросло на шокирующие 900 %?
Гомер: О, люди могут придумать любую статистику, чтобы доказать что угодно, Кент. Сорок процентов людей знают это.
– Мультсериал «Симпсоны»
Вы когда-нибудь сталкивались со статистическим утверждением в новостях или на рабочем месте, которое вы хотели бы понять, оценить и, возможно, даже подвергнуть сомнению? Данная глава научит вас именно этому. В ней мы поговорим о статистическом выводе, о том, как пользоваться индуктивной статистикой и оспаривать ее результаты, а также перечислим вопросы, которые вам следует задать для полного понимания сделанных выводов.
Краткие уроки по статистическому выводу
Как было сказано в главе 3 «Готовьтесь мыслить статистически», индуктивная статистика позволяет нам собирать данные о мире, в котором мы живем, и делать на их основании предположения об этом мире.
В данном разделе мы разберем ряд примеров, чтобы показать, насколько интуитивным может быть процесс построения статистического вывода при постепенном введении формальных статистических терминов (часть из них вы узнали ранее в книге, но напоминание никогда не бывает лишним). Хорошая новость – вы без проблем сможете проследить представленную далее логику статистического вывода вне зависимости от ваших знаний в области статистики.
Обеспечьте себе простор для маневра
Один из самых распространенных и важных примеров применения индуктивной статистики – проведение опросов. Вы не можете опросить всех – только участников выборки, к которым у вас есть доступ. С ее помощью мы пытаемся лучше понять окружающий мир. Иначе говоря, эта выборка помогает нам больше узнать о популяции.
Рассмотрим пример опроса. Случайной выборке, состоящей из 1000 студентов вводных курсов по статистике, проводящихся по всей стране, задают вопрос: «Вам уже надоело то, что статистики используют примеры опросов для объяснения основных статистических концепций?»
Результаты данного опроса таковы: 655 студентов сказали «да». (А как бы проголосовали вы?)
Стали бы вы, основываясь лишь на одной выборке из 1000 студентов, заявлять о том, что истинный процент всех студентов вводных курсов по статистике (популяция), которым надоели примеры с опросами, составляет ровно 65,5? Или вы хотите иметь некоторое пространство для маневра, делая свое предположение?
Скорее всего, второе. Это хорошо, потому что неделю спустя при опросе еще 1000 студентов утвердительный ответ дали 670 человек. Разумеется, 655 и 670 – это весьма близкие значения, и, возможно, вы полагаете, что проведение этих опросов позволило вам приблизиться к истинной доле студентов, готовых утвердительно ответить на задаваемый вопрос. Однако, если бы вы провели этот опрос еще раз, вы получили бы разные ответы вследствие вариации выборки. И с этим ничего нельзя сделать, кроме как представить полученные результаты в контексте. Опросные агентства понимают это и указывают «погрешность» результатов опроса в пределах +/– 3 %, которая отражает неопределенность, обусловленную вариацией и случайностью.
В случае с первым опросом значение 65,5 % – точечная оценка, и мы могли бы представить результаты как 65,5 % +/– 3 %, или (62,5 %, 68,5 %). Интервал (62,5 %, 68,5 %) называется доверительным и является примером индуктивной статистики. Он позволяет получить некоторые сведения об окружающем мире на основе информации, предоставленной выборкой. Мы надеемся, что этот доверительный интервал отражает истинный процент всех студентов вводных курсов по статистике, которые устали от примеров с опросами.
Мораль: при использовании выборок наблюдаются вариации, делающие неопределенной вашу оценку количества студентов вводных курсов по статистике, уставших от примеров с опросами. К счастью, доверительные интервалы определяют диапазон правдоподобных значений, в которых может лежать их истинная доля, то есть дают вам некоторое