Категории
Самые читаемые
Лучшие книги » Компьютеры и Интернет » Программирование » Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Читать онлайн Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 11 12 13 14 15 16 17 18 19 ... 69
Перейти на страницу:
среди которых четверо согласны с рекламным утверждением

Открытия с помощью статистики

Статистика часто делится на описательную и индуктивную. Скорее всего, вы уже знакомы с описательной статистикой, даже если не используете это выражение. Описательная статистика – это числа, обобщающие некие данные, значения, которые вы видите в газете или на проекционном экране в офисе. Средние объемы продаж за последний квартал, рост по сравнению с прошлым годом, уровень безработицы и так далее. Такие показатели, как среднее значение, медиана, размах, дисперсия и стандартное отклонение, относятся к описательной статистике, и для их расчета требуются специальные формулы, которые во множестве встречаются в соответствующих учебниках.

Описательная статистика предполагает преднамеренное упрощение данных и позволяет, например, свести всю электронную таблицу с данными о продажах компании в несколько ключевых показателей. В аналогии с шариками описательная статистика предполагает простое суммирование шариков, оказавшихся в вашей руке.

Несмотря на полезность этой операции, мы редко на ней останавливаемся. Мы хотим сделать дополнительный шаг и понять, как мы можем сделать предположение о содержимом мешка на основании информации о шариках, оказавшихся в нашей руке. В этом заключается суть индуктивной статистики, которая позволяет «перейти от мира к данным, а затем от данных обратно к миру»[24]. (Подробнее об этом мы поговорим в главе 7.)

А пока давайте рассмотрим пример. Представьте, как бы вы отреагировали на заголовок «75 % американцев верят в существование НЛО!», зная о том, что этот результат был получен в ходе опроса 20 посетителей Международного музея и исследовательского центра НЛО в Розуэлле, штат Нью-Мексико. Как вы думаете, можно ли на основе подобного исследования сделать вывод об истинном проценте американцев, верящих в НЛО?

Главный по данным отнесся бы к такому результату весьма скептически, поскольку в данном случае показатель 75 % основан на:

– Предвзятой выборке. Люди, посещающие Розуэлл, с гораздо большей вероятностью верят в НЛО, чем среднестатистические жители США.

– Небольшой выборке. Вы уже знаете, какая значительная вариация может наблюдаться в выборке небольших размеров. Нет смысла делать выводы о том, что думают миллионы, на основе мнений 20 человек.

– Основополагающих допущениях. В заголовке говорится о том, что «американцы» верят в НЛО просто потому, что опрос был проведен в Америке. Однако данный музей – международная достопримечательность. Вы не можете быть уверены в том, что участники опроса были американцами.

Такие понятия, как предвзятость и размер выборки, – инструменты статистического вывода, помогающие нам понять, заслуживают ли доверия те статистические данные, которые мы видим или получаем в результате вычисления. Они – важная часть нашего инструментария. Основополагающие допущения также важно учитывать. Если вы хотите мыслить как главный по данным, не стоит принимать за чистую монету допущения, лежащие в основе высказанного вывода.

Сталкиваясь с какими-либо данными в своей работе, старайтесь не принимать предложенную информацию на веру и не прислушиваться к собственной интуиции.

Думайте статистически. Задавайте вопросы. Именно это делают главные по данным. В следующих главах вы найдете вопросы, которые помогут вам освоить статистический образ мышления.

Ресурсы для освоения статистического образа мышления

Ранее в этой главе мы сказали о том, что в ходе дальнейшего обсуждения статистического мышления мы собираемся лишь коснуться поверхности. К счастью, есть несколько отличных книг, в которых эта тема рассматривается более подробно. Больше всего нам нравятся следующие:

• «Damned Lies and Statistics: Untangling Numbers from the Media, Politicians, and Activists», Joel Best (University of California Press, 2001);

• «Как не ошибаться. Сила математического мышления», Джордан Элленберг (Издательство: Манн, Иванов и Фербер, 2021);

• «Как лгать при помощи статистики», Дарелл Хафф (Издательство: Альпина Паблишер, 2015);

• «Голая статистика. Самая интересная книга о самой скучной науке», Чарльз Уилан (Издательство: Манн, Иванов и Фербер, 2022);

• «Proofiness: How You’re Being Fooled by the Numbers», Charles Seife (Penguin Books, 1994);

• «(Не)совершенная случайность. Как случай управляет нашей жизнью», Леонард Млодинов (Издательство: Livebook, 2021);

• «Сигнал и Шум. Почему одни прогнозы сбываются, а другие – нет», Нейт Сильвер (Издательство: КоЛибри, 2016);

• «Думай медленно… решай быстро», Даниэль Канеман (Издательство: АСТ, 2014).

Подведение итогов

В этой главе мы заложили основы для освоения статистического образа мышления, от которых будем отталкиваться в следующих главах книги.

В частности, мы поговорили о важности вариаций и понимания их существования в контексте измеряемых нами вещей. Мы показали, что результаты опросов клиентов могут иметь широкий разброс не потому, что обслуживание было плохим (хотя и это возможно), а потому, что сам вопрос предрасполагает к даче совершенно разных ответов, которые до измерения могут характеризоваться как похожие.

Мы также поговорили о вероятности и статистике, которые помогают нам управлять вариациями, демонстрируя то, что некоторые из этих вариаций являются предсказуемыми, а некоторые не имеют значения в долгосрочной перспективе.

Теория вероятности позволяет нам двигаться от общего к частному, то есть делать выводы о небольшом фрагменте данных на основе знаний о совокупности информации. А статистика позволяет нам двигаться от частного к общему, то есть делать выводы о совокупности информации на основе доступных нам фрагментов. И теория вероятности, и статистика – инструменты, которые помогают нам узнать больше о полной картине, пока она остается для нас неясной. Наконец, мы поговорили об использовании знаний о теории вероятности и статистике для оттачивания навыка критического мышления.

Часть II

Говорите как главный по данным

Часть II, «Говорите как главный по данным», так же, как и первая, побуждает вас мыслить статистически и подвергать все сомнению. В ней вы найдете вопросы, которые следует задать, и вещи, которые следует обдумать независимо от того, о чьем проекте по работе с данными идет речь – о вашем или о чужом. Многие из этих вопросов отражены в названиях будущих разделов. Считайте это своеобразной подсказкой. Данная часть книги состоит из следующих глав:

Глава 4. Сомневайтесь в данных.

Глава 5. Исследуйте данные.

Глава 6. Изучайте вероятности.

Глава 7. Бросайте вызов статистике.

Прочитав эти главы, вы научитесь задавать правильные вопросы относительно данных и аналитики, с которыми будете сталкиваться на работе.

Глава 4

Сомневайтесь в данных

«Для извлечения разумного ответа из имеющейся совокупности данных одного страстного желания недостаточно»

– Джон Тьюки, известный статистик

Как главный по данным, именно вы должны подвергать сомнению данные, используемые в рамках того или иного проекта.

1 ... 11 12 13 14 15 16 17 18 19 ... 69
Перейти на страницу:
На этой странице вы можете бесплатно скачать Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман торрент бесплатно.
Комментарии