- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Лягушка в кипятке и еще 300 популярных инструментов мышления, которые сделают вас умнее - Лорен Макканн
Шрифт:
Интервал:
Закладка:
Предположим, что размер выборки остается фиксированным. Снижение вероятности ложноположительной ошибки эквивалентно переносу пунктирной линии вправо с сокращением светло-серой области. Но при этом шанс сделать ложноотрицательную ошибку возрастает (сравните верхний рисунок с оригиналом).
Если хотите уменьшить процент одной из ошибок, не увеличивая другую, придется увеличить размер выборки. При этом каждая из кривых нормального распределения станет у́же (сравните нижний рисунок также с оригиналом).
Статистическая значимость
Увеличение размера выборки и сужение кривых нормального распределения уменьшают наложение двух кривых, в процессе сокращая общую серую область. Конечно, это привлекательно, потому что уменьшается вероятность совершить ошибку. Но, как мы отметили в начале раздела, есть множество причин, по которым увеличение размера выборки может оказаться нецелесообразным (время, деньги, риск для участников и т. д.).
В таблице показано, как изменяется размер выборки для разных пределов уровня ошибки в исследовании приложения для сна. Вы увидите, что, если процент ошибок понизится, размер выборки придется увеличить.
Все значения размеров выборки в следующей таблице зависят от выбранной альтернативной гипотезы с разницей в 15 %. Размеры выборки увеличивались бы и дальше, если бы разработчики хотели обнаружить еще меньшую разницу, и уменьшились бы, если бы хотели найти только большую разницу.
Размер выборки изменяется с мощностью и значимостью
Исследователям часто приходится брать выборку поменьше, чтобы сэкономить время и деньги, из-за чего выбор большей разницы для альтернативной гипотезы становится привлекательным. Но такой выбор сопряжен с высоким риском. Например, разработчики могли бы сократить размер выборки всего до 62 человек (вместо 268), если бы заменили разницу в альтернативной гипотезе на 30 % между двумя группами (а не 15 %).
Но если в действительности приложение дает разницу всего 15 %, с этим меньшим размером выборки они смогут обнаружить такую меньшую разницу только в 32 % случаев! Это меньше, чем изначальные 80 %, и значит, что в 2/3 случаев будет получен ложноотрицательный результат, который не покажет разницу в 15 %. В идеале любой эксперимент нужно разрабатывать так, чтобы обнаруживать малейшую существенную разницу.
Последнее замечание о p-значениях и статистической значимости: большинство статистиков предостерегают, что нельзя чрезмерно полагаться на p-значения при интерпретации результатов исследования. Неспособность найти значимый результат (достаточно малое p-значение) – это не то же самое, что уверенность в отсутствии эффекта.
Отсутствие доказательств не является доказательством отсутствия.
Точно так же, даже несмотря на то, что исследование могло достичь лишь низкого p-значения, этот результат может быть неприменим, что мы рассмотрим в заключительном разделе.
Статистическую значимость не следует путать с научной, человеческой или экономической значимостью. Даже самый мизерный заметный эффект будет статистически значимым, если размер выборки достаточно велик. Например, если в исследовании сна примет участие достаточное количество людей, вы потенциально обнаружите разницу в 1 % между двумя группами, но будет ли это значимо для покупателей? Нет.
И наоборот, больше внимания стоит обратить на разницу, измеренную в исследовании, вместе с соответствующим доверительным интервалом. Потребители приложения хотят знать не только то, будут ли они лучше спать с ним, чем без него, но и насколько лучше. Возможно, разработчикам даже захочется увеличить размер выборки, чтобы гарантировать определенную погрешность в своих оценках.
Кроме того, Американская ассоциация статистики в одном из выпусков своего журнала за 2016 год подчеркнула, что «научные выводы и деловые или политические решения не должны опираться только на то, преодолевает ли p-значение определенный порог». Слишком большое внимание к p-значению поощряет черно-белое мышление и сокращает до одного числа весь объем информации, полученной из исследования. Такой исключительный фокус заставит вас упустить из виду возможные неоптимальные варианты в проекте исследования (например, размер выборки) или погрешности, которые могли закрасться в него (например, систематическую ошибку отбора).
Получится ли воспроизвести?
Вы уже знаете, что результаты некоторых экспериментов – просто счастливая случайность. Чтобы удостовериться в том, что результат исследования не случаен, его необходимо воспроизвести. Интересно, что в некоторых областях, таких как психология, для воспроизведения положительных результатов предпринимались согласованные усилия, но эти усилия показали, что более 50 % положительных результатов невозможно воспроизвести.
Это низкий показатель и такая проблема с исключительно положительными результатами называется кризисом воспроизводимости. В этом последнем разделе мы предлагаем кое-какие модели, которые объясняют, как это происходит и как все равно получить больше доверия в своей области исследований.
Попытки воспроизведения – это попытки отличить ложноположительные результаты от истинно положительных.
Подумайте, каковы шансы воспроизведения в каждой из этих двух групп. Предполагается, что ложноположительный результат повторится – то есть ожидается получение второго ложноположительного результата при повторном эксперименте – всего в 5 % случаев. С другой стороны, ожидается, что истинно положительный результат повторится в 80–90 % случаев, в зависимости от мощности повторного исследования. Предположим, что это 80 %, как в предыдущем разделе.
Кризис воспроизводимости
Таким образом, для 50 % воспроизведения требуется, чтобы около 60 % исследований были истинно положительными, а 40 % – ложноположительными. Чтобы было понятнее, представьте 100 экспериментов: если 60 дадут истинно положительный результат, 48 из них должно быть можно воспроизвести (80 % от 60). Из оставшихся 40 ложноположительных результатов будут воспроизведены 2 (5 % от 40), чтобы в общей сложности получилось 50. Тогда уровень воспроизводимости будет 50 на 100 экспериментов, или 50 %.
Получается, в этом сценарии около четверти неудачных воспроизведений (12 из 50) будут объясняться недостатком мощности усилий для воспроизведения. Это реальный результат, который, скорее всего, будет воспроизведен успешно при проведении дополнительного исследования, или получился бы, если бы у первоначального воспроизведения была более крупная выборка.
Остальные результаты, которые не получилось воспроизвести, изначально и не должны были быть положительными. Многие из этих первоначальных исследований, вероятно, недооценили частоту ошибки типа I и повысили шансы получить ложноположительный результат. Это связано с тем, что при планировании исследования с 5 % шансом ложноположительного результата этот шанс применяется только к одной статистической проверке, но крайне редко такая проверка проводится всего один раз.
Проведение дополнительных проверок для поиска статистически значимых результатов имеет много названий, включая прочесывание, выуживание данных или p-взлом (попытка взломать данные в поисках достаточно малых p-значений). Часто это делается из лучших побуждений, потому что наблюдение за данными эксперимента воодушевляет и побуждает исследователя формировать новые гипотезы. Соблазн проверить дополнительные гипотезы велик, так как необходимые для их анализа данные уже собраны. Однако проблема возникает, когда исследователь преувеличивает результаты этих дополнительных испытаний.
Комикс XKCD[67], приведенный ниже, показывает, чем может обернуться

