- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Шрифт:
Интервал:
Закладка:
Линейная регрессия: что она дает
Давайте быстро повторим то, что мы обсуждали ранее, в контексте парадигмы контролируемого обучения, представленной на рис. 9.1. У нас был набор данных, состоящий из столбца с входными значениями и столбца с выходными значениями, который мы подали на вход алгоритма линейной регрессии. Этот алгоритм извлек из данных оптимальные коэффициенты для подстановки в линейное уравнение Продажи = m(Температура) + b, создав модель Продажи = 1,03(Температура) – 71,07, которую можно использовать для прогнозирования прибыли от продажи лимонада.
Модели линейной регрессии пользуются популярностью во многих отраслях, потому что они не только делают прогнозы, но и объясняют то, как входные признаки соотносятся с выходными данными. (Кроме того, их совсем не трудно вычислить.) Коэффициент наклона, равный 1,03, говорит о том, что при повышении температуры на один градус можно ожидать увеличения продаж на 1,03 доллара. Это значение сообщает нам как величину, так и направление влияния входных данных на выходные.
Учитывая то, что в мире и в собираемых данных присутствует случайность и изменчивость, можно предположить наличие встроенной изменчивости и в значениях коэффициентов линейной регрессии. Если бы вы собрали новый набор данных о продажах своего лимонада, вы могли бы обнаружить, что при росте температуры на 1 градус ваша выручка увеличивается не на 1,03, а на 1,25 доллара. Данные, подаваемые на вход алгоритма, являются выборкой, поэтому вам следует думать о полученных результатах в терминах статистики. Статистическое программное обеспечение помогает это делать, предоставляя p-значения для каждого коэффициента (нулевая гипотеза, H0: коэффициент = 0) и сообщая о наличии статистически значимого отличия коэффициента от нуля. Например, коэффициент 0,000003 очень близок к нулю и для практических целей может считаться нулевым в вашей модели.
Иными словами, если коэффициент значимо не отличается от нуля, вы можете исключить соответствующий признак из своей модели, поскольку входное значение не влияет на выходное. Разумеется, уроки статистики из главы 6 не теряют при этом своей актуальности. Коэффициент может быть статистически, но не практически значимым. Всегда выясняйте коэффициенты моделей, влияющих на ваш бизнес.
Включение множества признаков
Мы предполагаем, что ваш бизнес не ограничивается простой торговлей лимонадом. Ваши продажи, скорее всего, зависят не только от температуры (если это сезонный бизнес), но и от многих других факторов. К счастью, простую модель линейной регрессии, о которой мы говорили выше, можно расширить, включив в нее множество признаков[87]. Регрессия с одним входным параметром называется простой линейной регрессией, а с несколькими – множественной линейной регрессией.
Рассмотрим пример множественной линейной регрессии на основе данных о жилье, которые мы анализировали в главе 5. Этот набор данных содержит 1234 дома и 81 входной параметр, из которых для упрощения примера мы рассмотрим только 6. (Мы также могли бы использовать АГК для снижения размерности, но не стали этого делать, чтобы не усложнять пример.)
Давайте построим модель для прогнозирования цены продажи дома (выходной параметр) на основе площади участка, года постройки, площади 1-го, 2-го этажа и подвала в квадратных футах и количества полноценных ванных комнат. На основе данных алгоритм линейной регрессии вычисляет наилучшие значения точки пересечения и коэффициентов, перечисленные в табл. 9.2.
Табл. 9.2. Модель множественной линейной регрессии для описания данных о недвижимости. Все соответствующие p-значения статистически значимы на уровне 0,05
Основной принцип модели множественной регрессии состоит в том, чтобы изолировать влияние одной переменной, контролируя при этом остальные. Например, мы можем сказать, что при прочих неизменных значениях входных данных цена продажи дома, построенного годом позднее (в среднем), будет выше на 818,38 доллара. Коэффициенты каждого признака показывают величину и направление его воздействия на цену. Обязательно учитывайте единицы измерения. Добавление 1 единицы площади в квадратных футах отличается от добавления 1 единицы к количеству ванных комнат. Статистик может масштабировать данные при необходимости сравнения сопоставимых коэффициентов.
Каждый коэффициент также подвергается соответствующему статистическому тесту, который сообщает нам о том, имеет ли его значение статистически значимое отличие от нуля. Если нет, мы можем без опасений исключить его из модели, поскольку он не добавляет никакую информацию и не влияет на результат.
Линейная регрессия: какую путаницу она вызывает
Если бы мы были какими-нибудь аферистами, мы бы закончили главу предыдущим разделом, предложив вам приобрести программу для расчета линейной регрессии в качестве панацеи, позволяющей решить все проблемы вашего бизнеса. Наш рекламный слоган был бы таким: «Введите данные, получите модель и начните делать прогнозы относительно своего бизнеса уже сегодня!» Звучит фантастически просто – однако к этому моменту вы уже наверняка понимаете, что при работе с данными ничто не так просто, как кажется (или рекламируется). Как говорилось в эпиграфе к этой главе, при неправильном применении линейная регрессия может оказаться потенциально опасной. Поэтому при создании или использовании регрессионных моделей всегда сохраняйте здоровый скептицизм. Уравнения, терминология и вычисления создают впечатление, будто модель линейной регрессии способна автоматически исправить любую проблему в вашем наборе данных. Но это не так.
Давайте рассмотрим некоторые подводные камни использования линейной регрессии.
Пропущенные переменные
Модели контролируемого обучения не могут выявить взаимосвязь между входной и выходной переменной в случае исключения входной переменной из модели. Рассмотрим нашу простую модель, которая предсказывала уровень продаж лимонада на основе средних значений прошлых продаж без учета температуры.
Главные по данным, будучи осведомленными об этой проблеме, могут предложить для включения в модели информативные, релевантные признаки. Однако не стоит отдавать выбор признаков на откуп аналитикам. Ключ к созданию успешной модели контролируемого обучения – включение в нее правильных данных и наличие опыта в интересующей предметной области.
Например, модель с ценами на жилье, описанная в предыдущем разделе, имеет значение R2, равное 0,75. Это означает, что с помощью нашей модели мы объяснили 75 % вариаций цены продажи. Теперь подумайте о не включенных в эту модель признаках, которые помогли бы предсказать цену дома, – например о таких вещах, как экономические условия, процентные ставки, рейтинги начальных школ и так далее. Эти пропущенные переменные не только влияют

