- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Шрифт:
Интервал:
Закладка:
Вероятность получения приглашения при данном среднем балле =
Логистическая регрессия уменьшает так называемую логистическую функцию потерь, которая представляет собой способ измерения степени близости предсказанных вероятностей к фактическим меткам. Хотя линейная и логистическая регрессии используют разные методы, их цель одна и та же – максимально приблизить совокупность предсказанных моделью значений к фактическим.
Логистическая регрессия: что дальше?
Логистическая регрессия дает два преимущества: мы получаем формулу, которая помогает делать прогнозы на основе данных, а коэффициенты этой формулы объясняют взаимосвязи между входными и выходными параметрами.
Применить ее можно следующим образом. На рис. 10.2 показана вероятность приглашения на собеседование для студента со средним баллом 2,0, согласно нашей модели логистической регрессии. Шанс получить такое приглашение для этого человека составляет около 4 %. Кандидат, повышающий свой средний балл с 2,0 до 3,0, повышает вероятность получения приглашения на собеседование с 4 до 41 %, то есть разница составляет 37 %. Однако увеличение среднего балла еще на одну единицу, с 3,0 до 4,0, повышает вероятность с 41 до 92 %; здесь разница составляет целых 51 %! Обратите внимание на то, что при использовании моделей логистической регрессии влияние дополнительного балла на вероятность приглашения не является постоянным. В этом заключается еще одно отличие логистической регрессии от линейной: в случае линейной регрессии увеличение входной переменной на одну единицу всегда одинаково влияет на результат, каким бы ни было начальное значение.
Рис. 10.2. Применение модели логистической регрессии для прогнозирования вероятности приглашения при среднем балле равном 2, 3 и 4
Сама по себе логистическая регрессия не скажет вам, следует ли пригласить на собеседование того или иного человека или нет. Скорее она сообщает вам вероятность такого приглашения. Если вы хотите автоматизировать процесс принятия решений с помощью логистической регрессии, вам необходимо задать точку отсечения (пороговое значение), также известное как решающее правило; оно определяет реализацию того, чему научилась ваша модель. Если вы зададите точку отсечения на отметке 90 %, то есть будете рассматривать только те заявки, средний балл в которых предполагает 90 %-ную вероятность приглашения на собеседование, то, скорее всего, сделаете меньше предложений. С другой стороны, если вы готовы рассматривать заявки соискателей, шанс на приглашение которых, исходя из прошлых данных, составляет 60 %, то увидите гораздо больше кандидатов. Задание точек отсечения требует участия экспертов в предметной области.
Как говорилось ранее, коэффициент любой регрессионной функции говорит о взаимосвязях между входными и выходными данными. С первого взгляда понятно, что значение коэффициента для среднего балла в уравнении (2) является положительным и составляет 2,9. Это говорит о том, что более высокий средний балл повышает шансы человека на получение приглашения. В данном случае это не столь уж сногсшибательная новость, однако для исследователей, предсказывающих вероятность развития рака на основе определенных биомаркеров, это может иметь большое значение[96].
На что следует обратить внимание при работе с логистической регрессией
Моделям логистической регрессии свойственны те же проблемы, что и моделям линейной регрессии, которые мы подробно рассмотрели в предыдущей главе, а именно:
• Пропущенные переменные. Алгоритм не может учиться на данных, которых нет.
• Мультиколлинеарность. Коррелированные входные признаки могут сильно исказить вашу интерпретацию коэффициентов модели, а иногда даже сделать положительный коэффициент отрицательным (или наоборот).
• Экстраполяция. В случае с логистической регрессией проблема с экстраполяцией стоит не столь остро, как в случае с линейной, потому что ее выходные данные всегда находятся в пределах диапазона от 0 до 1. Однако расслабляться все-таки не следует. Предсказание значений за пределами диапазона обучающих данных может привести к чрезмерно уверенным оценкам вероятностей, поскольку эти прогнозные значения асимптотически приближаются к единице.
Разумеется, при использовании логистической регрессии следует избегать и других ошибок, которые мы обсудим в конце главы.
Деревья решений
Некоторых людей отталкивает (и, возможно, пугает) математика, связанная с использованием логистической регрессии. Кроме того, далеко не каждую взаимосвязь между входными и выходными данными можно описать с помощью линейной модели y = mx + b. Альтернативный, более понятный и простой для визуализации подход – дерево решений. Деревья решений разбивают набор данных на несколько частей, предоставляя список правил наподобие блок-схемы, которыми можно руководствоваться при прогнозировании.
Возьмем, к примеру, набор данных, приведенных в табл. 10.2. Здесь вы видите выборку данных о десяти студентах (из 300), которые подали заявку и были приглашены на собеседование в вашу компанию. Вместо того чтобы использовать средний балл в качестве единственного входного параметра для своей модели, вы решаете проанализировать все признаки, чтобы выяснить, как приглашения на интервью делались в прошлом. Обратите внимание на то, что в этом наборе данных на собеседование были приглашены 120 студентов (то есть 40 %).
Табл. 10.2. Фрагмент набора данных о стажерах. Специализации студентов таковы: Инф. = Информатика, Экон. = Экономика, Стат. = Статистика и Биз. = Бизнес.
Если вы хотите использовать эти признаки, чтобы понять, кто получил приглашение, а кто нет, вы можете самостоятельно вывести несколько правил. Например, студенты с высоким средним баллом, участвующие во внеклассных занятиях, вероятно, имеют больше шансов получить приглашение. Но какой средний балл вы использовали бы для «разделения» совокупности студентов? 3,0? 3,5? И с помощью какой информации вы бы обосновали свое решение? Как вы уже, вероятно, поняли, самостоятельное выведение правил – чрезвычайно сложная задача. К счастью, алгоритм для создания дерева решений может позаботиться об этом за вас. Он ищет входной признак и его значение, которое наилучшим образом отличает студентов, получивших приглашение на интервью, от тех, кто его не получил. Затем он находит следующий признак, позволяющий разделить уже эти две группы и так далее.
Мы прогнали наш набор данных

