- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Шрифт:
Интервал:
Закладка:
57
fivethirtyeight.com/features/when-we-say-70-percent-it-really-means-70-percent
58
Не забудьте оставить отзыв о нашей книге на сайте Amazon.
59
Как вы помните из главы 1, проект по работе с данными должен начинаться с формулирования четкого вопроса.
60
Мы понимаем, что 50 % – это отличный процент реализации бросков в баскетболе. У Леброна Джеймса, например, этот показатель за всю карьеру составляет 50 %. Так что нет, ваш стажер, скорее всего, не играет настолько хорошо, просто значение 50 % облегчает расчеты. Однако хорошо, что вы, как главный по данным, задумались о том, не слишком ли это оптимистично.
61
О'Нил Кэти, Шатт Рэйчел. «Data Science. Инсайдерская информация для новичков» (Издательство: Питер, 2019).
62
О'Нил Кэти, Шатт Рэйчел. «Data Science. Инсайдерская информация для новичков» (Издательство: Питер, 2019).
63
Об уточнении самого вопроса мы говорили в главе 1.
64
Мы использовали двусторонний точный тест Фишера.
65
В этом примере требуется выполнение так называемой проверки эквивалентности, обсуждение которой выходит за рамки данной главы. Однако имейте ее в виду, расскажите о ней своей команде и применяйте ее. Если вам понятна логика этой главы, у вас не возникнет сложностей с пониманием данной концепции.
66
“5 Sigma What’s That?” blogs.scientificamerican.com/observations/five-sigmawhats-that
67
Это можно исправить с помощью так называемой поправки на множественную проверку гипотез.
68
В статистике понятие «размер эффекта» может иметь множество значений. Здесь мы говорим о размере эффекта просто как о разнице между двумя числами.
69
Нет, на самом деле мы не собирали данные и не проводили подобное исследование.
70
Тест проводился с помощью языка программирования R для статистической обработки данных: 'prop.test(c(65, 50), c(100, 100), alternative = «greater»)'
71
Адамс, Скотт. Мультсериал «Дилберт». 3 января 2000 года.
72
Ну вроде того. На самом деле все не так просто.
73
Речь идет о наборе данных mtcars, входящем в состав программы R. http://stat.ethz.ch/R-manual/R-devel/library/datasets/html/mtcars.html. Для упрощения восприятия визуализации мы отображаем только 15 автомобилей из 32.
74
Поскольку признаки имеют разный размах, перед объединением их необходимо привести к одной числовой шкале.
75
Pearson, K. (1901). LIII. On lines and planes of closest fit to systems of points in space. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 2(11), 559–572.
76
Количество сочетаний из 30 по 2 = 30!/((30–2)! 2!) = 435.
77
Ни одна из программ не возвращает результаты АГК, показанные здесь. Чтобы обойтись без множества уравнений и чисел, мы решили сосредоточиться на визуализации.
78
АГК и кластеризация никак не связаны между собой, так что их можно использовать независимо друг от друга.
79
Lloyd, S. (1982). Least squares quantization in PCM. IEEE transactions on information theory, 28(2), 129–137.
80
В этом примере мы делаем множество упрощающих допущений. С технической точки зрения этот метод не подходит для группировки точек на сфере, поскольку координаты широты и долготы не находятся в евклидовом пространстве. Используемая нами метрика расстояния не учитывает кривизну Земли, а также практические ограничения, вроде доступа к автомагистралям.
81
«Голая статистика. Самая интересная книга о самой скучной науке», Чарльз Уилан (Издательство: Манн, Иванов и Фербер, 2022).
82
Когда вы слышите словосочетание «линейная регрессия», чаще всего речь идет именно о регрессии методом наименьших квадратов. Существуют и другие типы линейной регрессии, но метод наименьших квадратов наиболее популярен.
83
При изучении алгебры вы познакомились с уравнением прямой линии: y = mx + b. Для любого входа x вы можете получить выход y, умножив x на m и прибавив b. Если y = 2x + 5, то вход x = 7 дает выход y = 2×7 + 5 = 19.
84
Краткое напоминание по поводу терминологии: выход y называется переменной отклика, целевой или зависимой переменной. Вход x называется признаком, предиктором или независимой переменной. Вы можете столкнуться со всеми этими терминами в своей работе.
85
Использование абсолютных значений также позволило бы сделать отклонения положительными перед агрегированием. Однако возведение в квадрат более предпочтительно с математической точки зрения, поскольку оно имеет свойство дифференцируемости, что было жизненно важно на ранних этапах применения метода линейной регрессии, когда все расчеты приходилось делать вручную.
86
Для простой регрессии с одним входным параметром R2 представляет собой квадрат коэффициента корреляции, который мы обсуждали в главе 5. Однако значение R2 может быть и отрицательным. Такое бывает, когда модель линейной регрессии оказывается менее эффективной, чем предсказание среднего значения.
87
Верхний предел количества признаков/входных параметров в модели линейной регрессии составляет N – 1, где N – количество строк в наборе данных. Таким образом, для прогнозирования ежемесячных объемов продаж на 12-месячный период вы можете использовать до 11 входных параметров.
88
Модели линейной регрессии не вычисляются, если два входных параметра идеально коррелированы, поэтому мы добавили шум в данные в этом примере.
89
Этой идее посвящена целая область статистики под названием «Планирование экспериментов».
90
https://en.wikipedia.org/wiki/Leakage_(machine_learning)
91
Разница между объяснением и предсказанием с помощью моделей подробно описана в статье: Shmueli, G. (2010). To explain or to predict? Statistical science, 25(3), 289–310.
92
Не путайте кластеризацию с классификацией. Помните о том, что кластеризация не предполагает использование меток. При кластеризации если метки и присваиваются, то самим аналитиком и только впоследствии. При решении задач классификации метки изначально присутствуют в наборе данных.
93
Логистическая регрессия, как вы узнаете далее, предсказывает

