- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Том13. Абсолютная точность и другие иллюзии. Секреты статистики - Пере Грима
Шрифт:
Интервал:
Закладка:
В возрасте 29 лет он вместе с женой, которой в то время было 20 лет и которая родила ему троих детей (обычаи того времени отличались от современных), переехал на старую ферму около опытной сельскохозяйственной станции Ротамстед к северу от Лондона. Владельцы станции, производители удобрений, заключили с ним контракт, желая, чтобы Фишер помог им упорядочить огромный объем данных, накопленный за 90 лет работы станции. Ученый показал, что при использованном способе сбора данных влияние дождей и погоды в целом нивелировало возможный эффект от применяемых удобрений. Говорить о влиянии отдельных факторов на основе имеющихся данных было нельзя. Однако Фишер не просто указал, что данные собирались неверно, но и объяснил, какие поправки следует внести. Написанная им книга The Design of Experiments полностью изменила представление о способах сбора экспериментальных данных и оказала огромное влияние на исследования в сельском хозяйстве и промышленности.
* * *
Вес, рост, коэффициент корреляции и его значениеМы знаем, что рост и вес человека связаны и что высокие люди обычно весят больше, чем низкие (разумеется, существуют исключения, но мы говорим об общем правиле). Здесь речь не идет о строгой связи: нет математической формулы, с помощью которой можно вычислить вес человека, зная его рост. Тем не менее существует тенденция, определенная взаимосвязь.
На следующей диаграмме показана связь роста и веса в группе из 92 студентов университета (использовались данные, входящие в пакет статистических программ Minitab, о котором мы уже упоминали в главе 1).
Соотношение между весом и ростом в группе из 92 студентов.
Как вы охарактеризуете эту зависимость? Она «сильная», «заметная» или «слабая»? Как вы понимаете, в подобных ситуациях необходимо оценивать зависимость более точно. Для этого используется показатель, называемый коэффициент корреляции (иногда его называют коэффициентом корреляции Пирсона).
Формула для вычисления коэффициента корреляции несколько громоздка, но вывести ее нетрудно (не беспокойтесь, мы не будем выводить эту формулу). По сравнению с другими похожими показателями коэффициент корреляции обладает многими преимуществами: его значения всегда лежат в интервале от —1 до 1 и не зависят от единицы измерения исходных данных. В нашем случае коэффициент корреляции не изменится, если мы будем использовать сантиметры и килограммы вместо дюймов и фунтов (как в исходных примерах).
Если коэффициент корреляции равен 1, это означает, что между двумя переменными существует строгая зависимость. При увеличении значения одной переменной значение другой также увеличится. В этом случае между переменными действительно присутствует математическая зависимость, и зная значение одной переменной, можно точно вычислить значение другой. Однако в реальности подобная ситуация встречается крайне редко. Если коэффициент корреляции равен, например, 0,8, это означает наличие четкой взаимосвязи. В нашем примере коэффициент корреляции равен 0,785. Если он равен нулю, это указывает на отсутствие какой-либо взаимосвязи. Отрицательные значения означают то же, что и положительные, с единственной разницей: с ростом значения одной переменной значение другой будет не увеличиваться, а уменьшаться.
Расчет коэффициента корреляции с помощью Excel.
Однако этот показатель имеет свои недостатки (ничто не совершенно!). Если взаимосвязь между переменными отсутствует, не следует ожидать, что коэффициент корреляции будет равен нулю. Это будет означать, что данные распределены абсолютно равномерно, что не встречается на практике. Коэффициент корреляции может быть примерно равным нулю, но что именно означает это «примерно равен»?
Кроме того, значение этого коэффициента зависит от объема исходных данных. Если объем исходных данных невелик, а значение коэффициента корреляции далеко от нуля, это не означает наличие корреляции. Если даны всего лишь два значения каждой переменной, то коэффициент корреляции всегда будет равен 1 или —1 вне зависимости от того, присутствует ли корреляция на самом деле.
На следующей диаграмме представлено 35 точек, коэффициент корреляции равен 0,494. Это значение достаточно далеко от нуля, чтобы можно было говорить о присутствии корреляции? Или же это расположение точек можно получить случайным образом и переменные никак не связаны между собой?
Существует ли взаимосвязь между этими переменными?
Чтобы определить, действительно ли полученный коэффициент корреляции свидетельствует о взаимосвязи (или, если говорить на языке статистики, является ли это значение статистически значимым), используем моделирование. Сгенерируем два множества случайных чисел по 35 чисел в каждом. Очевидно, что эти числа будут никак не связаны между собой, однако коэффициент корреляции между ними не будет строго равен нулю, а будет равняться, например, — 0,123. Если мы заново сформируем эти два множества случайным образом и повторим моделирование 10000 раз, то получим 10000 значений коэффициента корреляции между двумя совокупностями из 35 чисел, которые никак не связаны между собой. Чтобы рассчитать эти значения, используем небольшую программу. Результат ее работы представлен на следующей гистограмме. Вертикальной чертой обозначено значение коэффициента корреляции, полученное нами в предыдущем примере, равное 0,494.
Значения коэффициента корреляции для двух совокупностей из 35 не связанных между собой чисел.
Из гистограммы следует, что коэффициент корреляции действительно может принять полученное значение, если переменные не связаны между собой, но очевидно, что вероятность этого крайне мала. Анализ результатов моделирования показывает (на гистограмме это не заметно), что 12 значений больше 0,494, 9 — меньше —0,494. Это означает, что полученное нами значение (или большее) выпадает примерно два раза из 1000, если исходные переменные независимы.
Может ли быть так, что наш случай — именно тот, что выпадает два раза из 1000? Это неизвестно, но маловероятно. Разумнее всего полагать, что проанализированные нами переменные, соответствующие весу и росту 35 женщин в группе из 92 студентов, взаимосвязаны.
Схема рассуждений: проверка статистических гипотезИ в задаче, поставленной перед дегустатором чая, и в задаче о связи между переменными, которую мы только что рассмотрели, нужно ответить, по сути, на один и тот же вопрос: разумно ли считать, что дегустатор может различить вкус чая, приготовленного по-разному? Можно ли считать, что две переменные коррелируют? В обоих случаях, чтобы ответить на этот вопрос, нужно действовать по одной и той же схеме.
1. Нужно сформулировать исходную гипотезу. Чаще выбирается консервативная гипотеза: в задаче о дегустаторе чая мы предполагаем, что он не способен различить чай на вкус, а в задаче о корреляции — что переменные никак не связаны.
2. На основе доступных данных рассчитывается требуемая величина. Если данные отсутствуют или использовать их нельзя, нужно получить подходящие данные. В задаче о связи между переменными искомой величиной является коэффициент корреляции. В задаче о дегустаторе чая искомой величиной является число неверно указанных чашек во время эксперимента.
3. Если полученное значение находится в интервале, соответствующем исходной гипотезе, нет никаких оснований полагать, что исходная гипотеза ошибочна. Следовательно, мы будем по-прежнему ее придерживаться. Если полученное значение маловероятно, мы заменяем исходную гипотезу альтернативной (дегустатор может различить чай на вкус, переменные взаимосвязаны).
В учебниках по статистике исходная гипотеза называется нулевой гипотезой, альтернативная (верная в случае, когда исходная гипотеза не выполняется) совершенно ожидаемо называется альтернативной гипотезой. Вероятность, с которой может быть достигнуто полученное значение статистического показателя (при условии, что нулевая гипотеза верна), называется р-значение. Этому числу уделяется особое внимание в статистических исследованиях, так как именно оно указывает, следует ли придерживаться нулевой гипотезы или будет разумнее отказаться от нее.
В нашем случае, если дегустатор чая правильно указывает 4 чашки из 4, мы можем отвергнуть нулевую гипотезу с р-значением, равным 1,4 %. В задаче о взаимосвязи двух переменных р-значение равно 2 %: если бы переменные не были бы взаимосвязаны (нулевая гипотеза верна), то вероятность того, что коэффициент корреляции был бы равен или больше полученного нами, равнялась бы 2 %.

