- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Шрифт:
Интервал:
Закладка:
Больше данных – больше доказательств
Если в процессе совершения покупок в Интернете вы видите продукт на сайте Amazon с рейтингом в 1 звезду, основанном на единственном обзоре, вы можете проигнорировать этот обзор – мнение одного человека. Однако если вы увидите продукт с низким рейтингом, основанным на сотнях отзывов (скажем, на 300), ваше мнение будет иным. Существует консенсус, согласно которому данный продукт является некачественным. Поэтому вы выбираете другой продукт – с рейтингом 4,9 звезды, основанном на 200 отзывах[58].
Это говорит о том, что вы уже понимаете, как количество точек данных, лежащих в основе рейтинга товара на Amazon, влияет на ваше доверие к нему. Размер выборки мы будем обозначать буквой N. Вы не испытываете доверия к рейтингу, основанному на одном обзоре (N = 1), но вас способны убедить рейтинги, основанные на выборках размером N = 300 и N = 200. Как вы уже догадались, размер выборки играет огромную роль в статистическом выводе. В самом деле, кажется маловероятным, хотя и не невозможным, чтобы продукт с рейтингом 4,9 звезды и N = 200 оказался полным хламом. А как насчет продукта с N = 1? Его обзор мог быть написан случайным интернет-троллем.
Мораль: размер выборки имеет значение. Больше данных – больше доказательств. (Мы же говорили, что это интуитивно понятно.)
Бросьте вызов статус-кво
По сути, наука и создание новых знаний предполагает бросание вызова статусу-кво. Когда накапливается достаточно доказательств в пользу того, что прежний образ мышления ошибочен, мы его адаптируем. Это же верно и для статистического вывода.
Простейшая аналогия – презумпция невиновности в американской системе уголовного права. Обвиняемые «невиновны до тех пор, пока их вина не будет доказана» (статус-кво). Подсудимый объявляется «виновным» лишь тогда, когда доказательства вне всяких обоснованных сомнений указывают на ошибочность статус-кво. Бремя доказывания того, что первоначальное предположение о невиновности подсудимого неверно, возлагается на сторону обвинения.
Табл. 7.1. Вопросы, нулевые гипотезы (H0) и альтернативные гипотезы (Ha)
Исследователи, ученые и компании используют эту логику для создания новых знаний, направленных на улучшение общества или бизнеса. Вот как это работает. Они начинают с постановки вопроса[59], подобного тем, которые перечислены в табл. 7.1, и используют его для так называемой проверки гипотезы.
Статус-кво называется нулевой гипотезой, которая обычно обозначается как H0. Как правило, ее выбирают в надежде впоследствии отбросить в пользу нового знания, называемого альтернативной гипотезой, обозначаемой как Ha. Разумеется, нулевая и альтернативная гипотеза зависят от заданного вопроса. В табл. 7.1 показано, как общие вопросы могут быть преобразованы в соответствующие гипотезы. Исследователи стремятся найти доказательства, позволяющие отвергнуть нулевую гипотезу в пользу альтернативной.
Обратите особое внимание на логику проверки гипотез, представленную в табл. 7.1. Какой бы правдоподобной ни казалась гипотеза, изначально вы предполагаете, что она неверна (то есть отталкиваетесь от статус-кво). При наличии достаточного количества доказательств, говорящих о том, что нулевая гипотеза (H0) очень маловероятна, вы отклоняете ее в пользу альтернативной (Ha).
Мораль: проверка гипотезы – отличительная черта научных экспериментов. Чтобы бросить вызов статус-кво, допустите его истинность в рамках нулевой гипотезы. При наличии достаточного количества доказательств (данных), говорящих о том, что нулевая гипотеза маловероятна, отклоните ее в пользу нового знания, содержащегося в альтернативной гипотезе.
Доказательства обратного
Предположим, вы играете в баскетбол с коллегами, и стажер просится в вашу команду, заявляя о том, что он попадает минимум в 50 % случаев. «Потрясающе», – думаете вы. Вашей команде нужен хороший бомбардир[60].
Перед игрой вы мысленно отмечаете (то есть формулируете нулевую гипотезу): процент реализации бросков стажера ≥ 50 %.
Игра начинается, и вы передаете ему мяч для выполнения открытого броска. Промах. «Ничего страшного», – думаете вы. Но затем он не попадает снова. Потом промахивается еще раз. И… еще. Четыре промаха подряд. Ну и ну. Это просто ужасно.
Ваша вера в него начинает колебаться. Этот парень действительно умеет играть или просто дурачится? Тем не менее даже у профессионалов бывают неудачные дни, и иногда они промахиваются четыре раза подряд. И вы продолжаете давать ему новые шансы. А он продолжает промахиваться. За всю игру стажер промахнулся 10 раз подряд, и ваша команда проиграла. Вы разочарованы и считаете этого парня лжецом.
Вы возвращаетесь за свой стол и решаете количественно оценить то жалкое выступление, свидетелем которого вы только что стали.
Итак, какова вероятность того, что игрок, реализующий 50 % своих бросков, промахнется 10 раз подряд?
Отталкиваясь от базовой вероятности, вы выполняете некоторые расчеты. Вероятность того, что он промахнется один раз, составляет 50 %. Вероятность двух промахов подряд составляет 50 % × 50 % = 25 % (при условии, что результаты бросков не зависят друг от друга, как говорилось в предыдущей главе). Продолжая эту логику, вы умножаете показатель 50 % сам на себя 10 раз: 0,5^10 = 0,00098, то есть 0,1 %, или примерно 1 из 1000.
Таким образом, вероятность данного конкретного результата, то есть 10 промахов подряд, при условии, что стажер, по его словам, способен реализовать 50 % бросков, составляет 1 из 1000.
Эта вероятность, равная 1 из 1000 или 0,001, называется p-значением (p означает probability – «вероятность»). Теперь вы должны решить, был ли у стажера просто неудачный день или ваша нулевая гипотеза, согласно которой процент реализации бросков стажера составляет 50 %, ошибочна?
Десять пропущенных бросков лишь подрывают доверие. Однако то, что вероятность неудачного дня составляет 1 из 1000, довольно убедительно доказывает то, что первоначальное утверждение стажера вряд ли было истинным. Скорее всего, вы отвергли нулевую гипотезу на более ранних этапах игры в пользу альтернативной гипотезы, Ha: процент реализации бросков стажера < 50 %.
Остановитесь на мгновение и спросите себя: когда вы начали сомневаться в способностях стажера вместо того, чтобы оправдывать его? Каким было пороговое число промахов, заставившее вас отвергнуть нулевую гипотезу?
Для примера предположим, что это пороговое значение составляло 5 промахов. Если бы стажер промахнулся только 4 раза подряд, вероятность чего составляет 50 % × 50 % × 50 % × 50 %[61] = 6,25 %, или 1 из 16, вы бы еще могли продолжать верить в то, что он хороший бомбардир. Однако после пятого промаха доказательств обратного стало слишком много. Этот порог в 5 промахов подряд называется уровнем значимости, после превышения которого полученные данные больше не соответствуют исходному утверждению.
Поскольку Вселенная полна вариаций, вы должны смириться с некоторым уровнем

