- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Шрифт:
Интервал:
Закладка:
Каков размер выборки?
К этому моменту вы уже должны понимать важность размера выборки. Небольшое значение N, как правило, сопровождается большим количеством вариаций. Нет проблем: вы просто добавляете дополнительные данные. При достаточном количестве данных результаты будут менее вариативными, верно? В эпоху «больших данных» у вас может возникнуть соблазн просто сделать значение N настолько огромным, чтобы выборка учитывала все вероятности.
Однако в тех случаях, когда значение N очень велико, легко подумать, что N = ВСЕ, то есть в вашем распоряжении имеются все возможные точки данных. Однако подобное допущение не освобождает вас от необходимости задумываться о качестве данных и предвзятости. (Вспомните уроки из главы 4.) Действительно ли ваша выборка охватывает людей, относящихся к интересующей вас категории?
Как отмечается в книге «Data Science. Инсайдерская информация для новичков»:[62]
Мы утверждаем, что предположение о том, что N=ВСЕ, – одна из самых больших проблем, с которыми мы сталкиваемся в эпоху больших данных. Прежде всего это способ исключения голосов людей, у которых нет времени, энергии или возможностей для участия во всех неформальных (возможно, даже необъявленных) выборах.
Исключение голосов относится не только к выборам. Нуждающиеся могут быть по ошибке лишены права на получение скидок на еду или одежду; на участие в опросах, касающихся государственной политики; или их голоса просто не будут учтены. Может показаться, что достаточно большой набор точно отражает характеристики популяции, однако размер выборки – это еще не все. Хуже того, в «больших данных» можно очень легко обнаружить ложные зависимости. Если препарировать данные определенным образом, в них всегда можно найти что-то интересное.
В тех редких случаях, когда N действительно равно ВСЕЙ популяции (перепись), можете считать, что вам повезло. Вам не придется заниматься построением статистического вывода, потому что в показателях описательной статистики не будет неопределенности при условии корректного сбора данных.
Что вы тестируете?
В основе любого статистического вывода, с которым вы сталкиваетесь на рабочем месте или в новостях, лежит (как мы надеемся) конкретный вопрос, который можно проверить с помощью данных. Не позволяйте специалисту по работе с данными предоставлять статистический показатель, не озвучивая при этом лежащий в его основе вопрос. Убедитесь в том, что ваша команда знает о причинах, по которым та или иная статистика вообще создается. Задайте вопрос: «Что вы тестируете?» – и попросите предоставить на него четкий ответ, сформулированный в нестатистических терминах[63].
Какова нулевая гипотеза?
В этом квартале ваш стажер в MegaCorp тесно сотрудничал с отделом обслуживания клиентов, предлагая идеи для повышения уровня их удовлетворенности. Вы хотите оценить эффективность его идей с помощью простого опроса клиентов MegaCorp, состоящего из единственного вопроса: «Вы бы порекомендовали нас другу?»
Стажер формализует тест и выдвигает нулевую гипотезу: «Уровень рекомендаций в этом квартале не ниже, чем в прошлом». Таким образом:
– H0: Уровень рекомендаций в этом квартале ≥ Уровню рекомендаций в прошлом квартале.
В случае отвержения нулевой гипотезы будет принята альтернативная гипотеза, которая в данном случае такова: «Уровень рекомендаций в этом квартале ниже, чем в прошлом квартале». Используя статистическую нотацию, альтернативную гипотезу можно записать так:
– Ha: Уровень рекомендаций в этом квартале < Уровня рекомендаций в прошлом квартале.
Остановитесь на мгновение и подумайте о сделанном допущении. Вы не видели никаких данных и статистических показателей, но можете оспорить саму логику подхода вашего стажера. Выдвигая нулевую гипотезу, он изначально настроил себя на победу. Если результаты опросов за два квартала практически не различаются или основаны на небольшой выборке клиентов, то доказательств в пользу отвержения исходного допущения может оказаться недостаточно. Именно поэтому главный по данным должен спросить: «Какова нулевая гипотеза?» Плохо сформулированная нулевая гипотеза может создать обманчивое впечатление истинности некоего утверждения просто в силу отсутствия доказательств обратного.
Помните, что цель науки – бросить вызов существующему положению вещей. Статус-кво соответствует нулевой гипотезе, а альтернативная гипотеза отражает то, во что верите вы. И с помощью собранных данных вы должны доказать, что нулевая гипотеза является маловероятной.
Чтобы доказать эффективность своей работы по повышению уровня удовлетворенности клиентов, ваш стажер должен проверить свою гипотезу следующим образом:
– H0: Уровень рекомендаций в этом квартале ≤ Уровню рекомендаций в прошлом квартале.
– Ha: Уровень рекомендаций в этом квартале > Уровня рекомендаций в прошлом квартале.
(Мы вернемся к этому примеру чуть позже.)
Допущение эквивалентности
Предположим, вы заменяете ключевой ингредиент в пищевом продукте, чтобы сократить расходы. Ваша команда проводит опрос клиентов, предлагая им оценить вкус по 10-балльной шкале, чтобы выяснить, замечают ли они изменение. При использовании предыдущей рецептуры 18 из 20 человек говорили о своей готовности купить продукт. В ходе нового опроса о готовности купить продукт, приготовленный по новому рецепту, заявили 12 из 20 человек.
При использовании нулевой гипотезы: «Коэффициент покупок нового продукта = Коэффициент покупок прежнего продукта» и уровня значимости 0,05 p-значение[64], вычисленное с помощью статистического теста, равно 0,064. Поскольку p-значение превышает 0,05, нулевая гипотеза не отклоняется. Ваш начальник Джордж воспринимает это так: «Моя команда аналитиков показала, что между старым и новым более дешевым рецептом нет никакой статистически значимой разницы. Можно сократить расходы».
Джордж считает старый и новый рецепты эквивалентными, но у него просто может не быть достаточного количества данных, доказывающих обратное. Мораль здесь такова: не суметь опровергнуть статус-кво – это не то же самое, что подтвердить его[65].
Каков уровень значимости?
Как вы помните, уровень значимости – это пороговое значение, до достижения которого мы готовы мириться с тем, что данные не согласуются с нулевой гипотезой, продолжая при этом считать ее верной.
По традиции уровень значимости задается в 5 % или 0,05. В некоторых отраслях может использоваться 1 % или 0,01. Некоторые исследователи используют еще более низкое значение. Например, сотрудники Европейской организации по ядерным исследованиям (ЦЕРН) применяли невероятно низкий уровень значимости в процессе поиска крошечной физической частицы, известной как бозон Хиггса[66]. Чем меньше уровень значимости, тем меньше вероятность ложноположительного заключения.
Скорее всего, вы начнете с уровня значимости в 5 %, однако имейте в виду, что при таком значении вы можете ошибочно отклонять нулевую гипотезу (то есть делать ложноположительное заключение) в 1 случае из 20. Это приемлемо для вас?
Очень легко выбрать уровень значимости, при котором ваши результаты всегда будут статистически значимыми. Во многих инструментах по умолчанию задано значение в 5 %. Однако этот

