- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Шрифт:
Интервал:
Закладка:
Урок: проверка того, что p-значение не превышает уровня значимости, с целью отбрасывания нулевой гипотезы – ключевая часть процесса построения статистического вывода. Разумеется, наличие вариаций и произвольный выбор уровня значимости чреваты ошибками при принятии решений.
Сбалансируйте ошибки, допускаемые при принятии решений
Когда вариация приводит к неправильному выводу, это называется ошибкой при принятии решения.
Существуют два типа подобных ошибок, названия которых мало о чем говорят: ошибка первого рода (ложноположительное заключение) и ошибка второго рода (ложноотрицательное заключение). Поскольку описательность названия имеет большое значение, мы предпочитаем называть ошибки первого и второго рода именно ложноположительными и ложноотрицательными заключениями.
Ложноположительное заключение возникает тогда, когда доказательства подтверждают альтернативную гипотезу, которую следовало бы отвергнуть (например, у мужчины оказывается положительный тест на беременность). С другой стороны, ложноотрицательное заключение имеет место тогда, когда вы принимаете ложную нулевую гипотезу (например, у беременной женщины оказывается отрицательный тест на беременность). В табл. 7.2 приведены дополнительные примеры ошибок первого и второго родов.
Вы как лицо, принимающее решения, выбираете вероятность ложноположительного заключения, устанавливая уровень значимости. Со статистической значимостью тесно связано такое понятие, как мощность – вероятность отклонения нулевой гипотезы, когда альтернативная гипотеза верна. Чем выше мощность теста, тем ниже вероятность ложноотрицательного заключения.
Табл. 7.2. Ложноположительные и ложноотрицательные заключения при принятии решения
Балансирование ошибок первого и второго родов предполагает компромисс, и, если вы не соберете больше данных, то не сможете уменьшить вероятность одного, не увеличив вероятность другого. Например, вы хотите обеспечить низкий уровень ложноположительных заключений в случае спама. Нулевая гипотеза заключается в том, что «электронное письмо не является спамом». В связи с этим ложноположительное заключение может привести к тому, что электронное письмо от вашей матери окажется в папке со спамом. Обратная сторона этого – большее количество спама в вашем почтовом ящике (больше ложноотрицательных заключений), но вы готовы мириться с этим ради того, чтобы получать большую часть своей личной электронной почты. Однако в случае скрининга заболеваний медицинское сообщество может допустить больше ложноположительных заключений, чтобы уменьшить количество ложноотрицательных (пропущенный диагноз). Если у кого-то есть заболевание, медики хотят его обнаружить.
Мораль: вариации усложняют процесс принятия решений. Иногда вам будет казаться, что ваша альтернативная гипотеза верна, хотя это не так (ложноположительное заключение), а иногда будете ошибочно думать, что верна нулевая гипотеза (ложноотрицательное заключение).
Процесс построения статистического вывода
В предыдущих пяти кратких уроках мы рассмотрели несколько компонентов процесса статистического вывода. Пришло время понять, как эти компоненты сочетаются друг с другом. Давайте попробуем обобщить их, чтобы вы как главный по данным могли понять и четко объяснить весь процесс построения статистического вывода.
Если вкратце, то в ходе этого процесса вы должны выполнить следующие действия:
1. Задайте осмысленный вопрос.
2. Сформулируйте гипотезы для проверки, используя статус-кво в качестве нулевой гипотезы, а свое предположение – в качестве альтернативной.
3. Задайте уровень значимости. (Чаще всего используется произвольное значение в 5 % или 0,05.)
4. Вычислите p-значение на основе результата статистического теста.
5. Вычислите соответствующие доверительные интервалы.
6. Отклоните нулевую гипотезу в пользу альтернативной, если p-значение оказалось меньше уровня значимости; в противном случае не отклоняйте нулевую гипотезу.
Остановитесь на мгновение и подумайте о перечисленных выше шагах. Если вы можете прочитать и понять все шесть шагов – поздравляем! Вы делаете успехи в изучении языка статистики. Единственное, что мы до этого упускали из виду, – это идея статистического теста, механизма вычисления p-значения. Мы использовали его при определении базовой вероятности в примере со стажером-баскетболистом (возведя 50 % в 10-ю степень). Однако существуют сотни статистических тестов, используемых для описания, сравнения, оценки рисков и взаимосвязей в данных. Именно этим инструментам уделяется основное внимание в учебниках по статистике. Мы не стали сосредоточиваться на статистических тестах здесь, поскольку вы можете и должны понимать логику, лежащую в основе статистики, независимо от метода расчета p-значения.
Возвращаясь к поставленной задаче, мы признаем, что главные по данным чаще всего будут потребителями статистических результатов, а не их создателями. Поэтому в следующем разделе мы перечислим вопросы, которые вам следует задать, чтобы бросить вызов тем статистическим показателям, с которыми вы сталкиваетесь. Если вы хорошо усвоили материал, изложенный в предыдущих разделах, вы уже должны быть готовы задавать эти вопросы.
Вопросы, позволяющие бросить вызов статистическим показателям
Мы составили список вопросов, которые вы можете задать своим товарищам по команде с целью критической оценки представленных статистических показателей:
– Каков контекст этой статистики?
– Каков размер выборки?
– Что вы тестируете?
– Какова нулевая гипотеза?
– Каков уровень значимости?
– Сколько тестов вы проводите?
– Каковы доверительные интервалы?
– Имеет ли это практическое значение?
– Предполагаете ли вы наличие причинно-следственной связи?
Давайте рассмотрим каждый из этих вопросов и разберемся в том, почему они важны.
Каков контекст этой статистики?
Контекст статистики не менее важен, чем сами показатели. Услышав фразу: «Продажи выросли на 10 %!» – вы должны спросить: «По сравнению с чем?»
Рассмотрим следующий пример. Маркетолог-аналитик сообщает своему начальнику о том, что продажи выросли на 10 % по сравнению с прошлым кварталом, но не говорит о том, что объем продаж его крупнейшего конкурента увеличился на 15 %. Начальник наверняка предпочел бы знать этот дополнительный контекст. Однако попытки обобщить информацию могут привести к путанице. Главные по данным должны выяснять контекст и базовые показатели для проведения сравнения.
Рассмотрим другой пример. Предположим, новая реклама на YouTube повышает вероятность клика по объявлению на 50 %. Без знания контекста это звучит весьма впечатляюще. Однако если рассматривать данный статистический показатель в контексте, становится ясно, что кликабельность рекламы (отношение числа людей, щелкнувших по объявлению, к числу людей, просмотревших рекламу) улучшился с 0,1 до 0,15 % (то есть с 10 из 10 000 до 15 из 10 000) или на 0,05 % в абсолютных величинах. Данный результат следует преподносить именно так. Указание относительного процентного изменения (0,0015–0,0001)/0,0001 × 100 = 50 % создает неверное представление о нем.
Вероятно, в своей работе вы уже сталкивались с подобными примерами, когда вы видите точный, однозначный и впечатляющий статистический показатель, но не знаете, что он на самом деле означает. В таких случаях смело спрашивайте: «Каков контекст

