- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Шрифт:
Интервал:
Закладка:
Рис. 5.8. Набор данных Datasaurus можно загрузить бесплатно[43]. Как и в случае с «Квартетом Энскомба», оба представленных здесь набора данных имеют идентичные сводные статистические показатели
Осторожно: корреляция не означает причинность
Скорее всего, вы уже слышали фразу «корреляция не означает причинность»[44]. Однако повторить ее будет нелишним, учитывая, как часто ее игнорируют и неправильно понимают.
Когда две переменные коррелируют между собой, пусть даже и сильно, это не означает, что одна влияет на другую. Однако многие люди попадают в эту ловушку, пытаясь объяснить корреляцию между двумя переменными наличием причинно-следственной связи между ними. Чтобы показать, что корреляция не подразумевает причинность, статистики используют максимально абсурдные примеры. В частности, продажи мороженого коррелируют с нападениями акул (в обоих случаях пик приходится на летние месяцы). Размер обуви коррелирует с навыками чтения (и то и другое увеличивается с возрастом). Однако предположения о том, что сокращение объема продаж мороженого может снизить риск нападения акул, а покупка обуви большего размера может улучшить навыки чтения, абсурдны. Очевидно, что помимо температуры воздуха на улице в примере с мороженым и возраста в примере с размером обуви есть и другие факторы, играющие роль в формировании этих мнимых взаимосвязей.
Однако в тех случаях, когда в основе корреляции не лежит откровенная шутка, а истинный причинный фактор не известен, о мантре «корреляция не означает причинность» очень часто забывают.
Например, в ходе анализа данных о недвижимости вы обнаруживаете, что показатели школьной успеваемости коррелируют со стоимостью домов. Означает ли это, что близость хорошей школы повышает стоимость дома? Хорошие школы, по-видимому, делают район более привлекательным. А может быть, наоборот: более высокие цены на жилье способствуют повышению школьной успеваемости? Возможно, благодаря увеличению налоговых поступлений школе выделяется больше ресурсов. А может быть, причинно-следственная связь действует в обоих направлениях, создавая петлю обратной связи? В большинстве случаев мы точно этого не знаем. Здесь сочетаются многие факторы, и в имеющемся у нас наборе данных редко можно найти все ответы.
Всегда безопаснее предполагать, что между двумя коррелирующими переменными «нет причинно-следственной связи», если только кто-то не провел эксперимент, доказывающий обратное. Однако не стоит впадать в крайности. Мы по собственному опыту знаем, что иногда компании, академики и СМИ предполагают наличие причинно-следственной связи там, где этого делать не следует, а иногда наоборот – отвергают важную взаимосвязь, приняв ее за ошибку. Пример подобного необоснованного игнорирования взаимосвязи описан в следующей врезке.
Курение и рак легких
Рональд Э. Фишер, один из ведущих статистиков XX века, участвовавший в разработке ряда методов, описанных в этой книге, довольно скептически относился к исследованиям, связывавшим курение табака с заболеваемостью раком.
Больше всего Фишера заботили смешивающиеся переменные. Например, что, если некоторые люди генетически предрасположены к развитию рака легких и курят для того, чтобы облегчить симптомы болезни? По словам Фишера, ранние исследования рисков употребления табака содержали «издавна известную ошибку, выражавшуюся в том, что вывод о причинности делался на основе корреляции»[45].
Однако теперь мы точно знаем, что связь между ними есть. Итак, нам следует проявлять осторожность не только для того, чтобы не увидеть причинность там, где ее нет, но и чтобы не проигнорировать ее там, где она пока еще не доказана.
Обнаружили ли вы новые возможности в данных?
Разведочный анализ данных – это не просто процесс, позволяющий лучше разобраться в данных и наметить путь решения стоящих перед нами проблем. Это еще и шанс найти дополнительные возможности в этих данных, которые могут оказаться ценными для вашей организации. Дата-сайентист может обнаружить что-то интересное или странное в наборе данных и сформулировать проблему.
Однако вы не сможете оценить важность найденного вами решения до тех пор, пока не выполните действия, описанные в главе 1 «В чем суть проблемы?»
Подведение итогов
Чтобы стать главным по данным, вам необходимо постоянно заниматься разведочным анализом данных. Это позволит вам:
– Наметить более четкий путь решения проблемы.
– Уточнить исходную бизнес-задачу с учетом выявленных в данных ограничений.
– Сформулировать новые проблемы, которые можно решить с помощью этих данных.
– Отменить проект. Хотя это не приносит удовлетворения, EDA считается успешным, если он предотвращает трату времени и денег на решение тупиковой проблемы.
Мы провели вас через весь процесс, используя набор данных о ценах на недвижимость (к которому вернемся в главе 9 для построения предсказательной модели), и рассказали о тех препятствиях, с которыми вы можете столкнуться.
Содержание этой главы предполагает ваше участие во всех этапах процесса EDA. Однако иногда это невозможно, особенно для старших руководителей, курирующих множество проектов. Тем не менее пропуск ранних этапов не освобождает главных по данным от обязанности придерживаться исследовательского образа мышления. Подключаясь к проекту на завершающих этапах его реализации, спросите аналитиков, почему они выбрали тот или иной метод анализа данных и с какими проблемами столкнулись. Так вы можете узнать о предположениях, которые сами бы не сделали.
Глава 6
Изучайте вероятности
«Представления многих людей о вероятности настолько скудны, что они допускают только [одно] из двух ее значений: 50 на 50 и 99 %, то есть абсолютную случайность и практически полную уверенность»
– Джон Аллен Паулос, математик и автор книги «Математическое невежество и его последствия»[46]
Давайте поговорим о вероятности – языке неопределенности – и вернемся к теме, рассмотрение которой мы начали в главе 3 «Готовьтесь мыслить статистически». Напомним, что во всем присутствует вариация. Вариация порождает неопределенность. А теория вероятности и статистика – это инструменты, помогающие нам управлять неопределенностью.
Тот краткий раздел, посвященный вероятности, закончился следующим напутствием: будьте внимательны и помните о том, что интуиция может сыграть с вами злую шутку.
Это справедливое утверждение, однако такие темы, как вероятность, заслуживают больше этого предупреждения. Полное ее понимание, если оно вообще возможно, требует прочтения огромного количества учебников, прослушивания длинных лекций и посвящения всей жизни исследованиям и дебатам. И даже это не гарантирует согласия экспертов относительно интерпретации и философии вероятности[47]. У вас, скорее всего, нет времени или желания вникать в подробности этого спора; у нас его тоже нет. Поэтому мы избавим вас от них и сосредоточим внимание на том, что поможет вам отточить интуицию и добиться успеха в своей работе.
Итак, цель этой главы

