- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Шрифт:
Интервал:
Закладка:
Вот почему всегда важно спрашивать: «Каков уровень значимости?»
С практической точки зрения понижение уровня значимости, скажем, с 5 до 1 % сокращает количество ложноположительных заключений. Это задает более высокую планку для отклонения нулевой гипотезы. В этом случае данные должны быть более экстремальными (или, по крайней мере, убедительными), чтобы вы отвергли нулевую гипотезу. Звучит не так уж и плохо, правда? Однако обратная сторона этого – увеличение числа ложноотрицательных заключений. Достичь компромисса в данном случае непросто, и какой-то универсальной рекомендации дать нельзя. Достижение правильного баланса зависит от конкретной проблемы и вашей способности справляться с последствиями ошибок, связанных с ложноотрицательными и ложноположительными заключениями.
Сколько тестов вы проводите?
После выяснения уровня значимости спросите своих специалистов по работе с данными, сколько тестов они проводят. Поскольку они смотрят на данные по-разному, они могут провести десятки, а то и сотни неформальных статистических тестов с уровнем значимости в 5 %. Например, предположим, что исследователь тестирует большой набор данных о больных раком и типах пищевых продуктов, которые они едят, пытаясь выявить те продукты, которые могут быть связаны с более высокими показателями выживаемости. При наличии в базе данных 100 различных видов продуктов питания и использовании уровня значимости в 5 %, 5 продуктов покажутся статистически значимыми в борьбе с раком, даже если ни один из них не оказывает реального эффекта[67].
Каковы доверительные интервалы?
Ранее мы уже немного поговорили о доверительных интервалах и некоторых их компонентах. Пришло время собрать все фрагменты вместе.
Что мы подразумеваем под словом «доверие»? Как и в случае с понятием «значимость», смысл этого слова в статистике несколько отличается от повседневного. В статистике значимость и доверие неразрывно связаны. На самом деле между уровнем значимости и уровнем доверия существует симметрия – уровень значимости в 5 % соответствует уровню доверия в 95 %. Если более формально, то уровень доверия = 1 – уровень значимости. Поэтому вместо фразы «Мы отвергли нулевую гипотезу на уровне значимости 5 %» вы можете услышать фразу: «Мы отвергли нулевую гипотезу на уровне доверия 95 %».
Теперь давайте разберемся, почему человеку, анализирующему статистические результаты, следует запрашивать доверительные интервалы. Как говорилось ранее, доверительный интервал должен содержат истинное значение интересующего вас параметра популяции. В примере с опросом, который рассматривался ранее в главе, 95 % доверительный интервал при размере выборки N = 1000 составлял (62,5 %, 68,5 %). Предположим, что вместо 1000 студентов нам удалось опросить только 100, и 65 % из них сказали «да». В данном случае 95 % доверительный интервал составляет (54,8 %, 74,2 %). Данный интервал намного шире исходного из-за гораздо меньшего размера выборки. В связи с этим мы допускаем больший диапазон значений, которому, по нашему мнению, должна принадлежать интересующая нас доля популяции. Однако по мере увеличения размера выборки N доверительный интервал сокращается. Больше данных – больше доказательств и меньше неопределенности. Логично, не правда ли? Если вам удастся собрать данные обо всей популяции, то необходимость в доверительном интервале отпадет: вы найдете истинное значение интересующего вас параметра популяции.
Доверительные интервалы также позволяют оценить размер эффекта в статистическом тесте[68]. Предположим, вы хотите узнать, совпадает ли рост у баскетболисток из США и Европы. Первым делом вы формулируете нулевую и альтернативную гипотезы:
– H0: Средний рост американских баскетболисток = Среднему росту европейских баскетболисток.
– Ha: Средний рост американских баскетболисток ≠ Среднему росту европейских баскетболисток.
Теперь представьте, что ваш аналитик собирает данные и вычисляет p-значение для сравнения с уровнем значимости в 5 %. Согласно результатам этого сравнения p-значение меньше уровня значимости. У баскетболисток из США и Европы разный рост, и результаты являются статистически значимыми[69].
Однако не кажется ли вам, что вы что-то упускаете? Иногда мы рассматриваем статистическую значимость как некое подтверждение. О, ваши результаты статистически значимы? Это означает, что они на 100 % верны. Однако статистические тесты проводятся для обнаружения любой разницы, независимо от степени ее важности. Вот почему вам никогда не стоит довольствоваться p-значениями. Вернемся к примеру с баскетболистками и предположим, что средний рост игроков из США и Европы составляет 72 дюйма (183 см) и 71,5 дюйм (182 см) соответственно, а 95 % доверительный интервал для этой разницы составляет 0,5 +/– 0,4 дюйма (1 см).
Имеет ли размер эффекта в полдюйма (1 см) практическое значение и представляет ли он вообще какой-либо интерес?
Имеет ли это практическое значение?
Крайне небольшие эффекты могут быть обнаружены при исследовании большой выборки. Если вы видите только p-значения, а не доверительные интервалы, то можете подумать, что обнаружили большой эффект, хотя на самом деле выявили лишь незначительное различие, не имеющее практической ценности. Итак, глядя на доверительные интервалы, спросите себя, является ли то, что вы видите, практически значимым эффектом.
Предполагаете ли вы наличие причинно-следственной связи?
Вы уже почти забыли о стажере. Вам интересно, привела ли его работа к повышению уровня удовлетворенности клиентов в этом квартале по сравнению с предыдущим. Чтобы представить вам доказательства улучшения, стажер сформулировал нулевую и альтернативную гипотезы следующим образом:
– H0: Уровень рекомендаций в этом квартале ≤ Уровню рекомендаций в прошлом квартале.
– Ha: Уровень рекомендаций в этом квартале > Уровня рекомендаций в прошлом квартале.
В конце каждого квартала проводился опрос с использованием выборки, состоящей из 100 клиентов. В предыдущем квартале о своей готовности рекомендовать компанию сообщили 50/100 клиентов, а в этом квартале – 65/100. Являются ли результаты статистически значимыми при уровне 5 %?
С помощью статистического теста[70] стажер вычисляет p-значение. Оно равно 0,02, то есть меньше 0,05, что позволяет вам отклонить нулевую гипотезу и признать то, что разница в результатах двух кварталов является статистически значимой. Стажер очень радуется и чувствует, что ему удалось компенсировать свое плохое выступление на баскетбольной площадке. «Похоже, мне удалось повысить уровень удовлетворенности клиентов».
Но так ли это? Корреляция не доказывает наличие причинно-следственной связи. Уровень удовлетворенности клиентов мог повыситься благодаря целому ряду факторов, и если только

