- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Шрифт:
Интервал:
Закладка:
Иерархическая кластеризация
Прежде чем завершить этот раздел, стоит упомянуть еще об одном популярном алгоритме кластеризации под названием «иерархическая кластеризация». При использовании этого алгоритма количество кластеров не определяется заранее, как в случае с методом k-средних.
Вспомните пример из начала этой главы, в котором вам с другом нужно было упорядочить музыкальные записи при отсутствии обложек альбомов. Вы не знали, сколько существует кластеров. По сути, вы начали с N-групп, каждая из которых состояла из одной записи. Однако в процессе прослушивания пластинок группы начали формироваться естественным образом. Возможно, вы объединили две записи в категорию «современный джаз». Если у вас также была группа из трех записей в жанре «классический джаз», вы могли счесть такую детализацию излишней и объединить две группы в одну под общим названием «джаз».
Подобный способ создания групп «снизу вверх» позволяет произвести иерархическое упорядочение ваших данных. При этом вы сами решаете, на каком уровне иерархии должны находиться конечные группы.
Подведение итогов
В этой главе вы узнали об обучении без учителя, которое часто описывается как способ, позволяющий данным организоваться в группы самостоятельно. Однако, как отмечалось в сноске в начале главы, все не так просто. Способность обнаруживать группы в наборе данных – это большая сила, а, как мы знаем, чем больше сила, тем больше ответственность. Мы надеемся, что вы уловили эту мысль.
Возможность какой-либо группировки данных зависит от выбранного алгоритма, его реализации, качества исходных данных и существующей в них вариации. Это означает, что принятие разных решений может приводить к созданию разных групп. Проще говоря, обучение без учителя требует контроля. Вы не можете просто нажать кнопку на компьютере и позволить данным организоваться самостоятельно. Вам необходимо принять определенные решения, которые мы обобщили (наряду с описанными в этой главе алгоритмами) в табл. 8.3.
Табл. 8.3. Обучение без учителя. Резюме
В завершение следует еще раз сказать о том, что при обучении без учителя не бывает ни правильных группировок, ни правильных ответов. На самом деле вы можете считать подобные упражнения продолжением своего исследовательского путешествия по области анализа данных, описанного в главе 5, позволяющие вам взглянуть на данные под другим углом.
Глава 9
Освойте модели регрессии
«Регрессионный анализ похож на один из тех изощренных мощных инструментов, который относительно легко использовать, но сложно делать это правильно. А его неправильное использование потенциально опасно»
– Чарльз Уилан, цитата из книги «Голая статистика»[81]
Обучение с учителем
Предыдущая глава была посвящена обучению без учителя – способу обнаружения закономерностей или кластеров в наборе данных без использования заранее определенных групп. Помните, что к неконтролируемому обучению мы подходим без каких-либо предвзятых представлений. Вместо этого мы опираемся на основополагающие аспекты данных, задаем некоторые границы и позволяем данным организоваться самим.
Однако во многих случаях о наборе данных что-то известно. Тогда вы можете использовать обучение с учителем или контролируемое обучение для выявления в нем взаимосвязей с помощью входных и известных выходных данных. В данном случае у вас есть правильные ответы, на которых вы можете «учиться». Затем вы можете оценить надежность модели, сравнив ее результаты с тем, что вам известно о реальном мире. Хорошая модель позволит вам делать точные прогнозы и объяснять некоторые основополагающие взаимосвязи между входными и выходными данными.
Как вы, вероятно, помните, обучение с учителем уже упоминалось во введении – в самом начале вашего пути становления главным по данным. Тогда мы попросили вас спрогнозировать, будет ли новый ресторан сетевым или независимым. Чтобы сделать соответствующее предположение, вы сначала изучили местоположения существующих ресторанов (входные данные) и известные метки «сетевой» или «независимый» (выходные данные). Вы обнаружили взаимосвязи между входными и выходными данными и создали «модель» в своей голове, которую использовали для того, чтобы обоснованно спрогнозировать метку для нового местоположения.
Может быть, вас это удивит, но все задачи контролируемого обучения подчиняются одной и той же парадигме. Она представлена на рис. 9.1. Входные и выходные данные, называемые обучающими, подаются на вход алгоритма, который использует взаимосвязи между входными и выходными данными для создания прогностической модели (уравнения). Эта модель может принимать новые входные данные и сопоставлять их с прогнозируемыми выходными данными. Когда выходные данные представляют собой числа, модель контролируемого обучения называется регрессионной. Когда выходными данными являются метки (категориальные переменные), модель называется классификационной.
Рис. 9.1. Базовая парадигма обучения с учителем: сопоставление входных данных с выходными
О регрессионных моделях мы поговорим в этой главе, а о классификационных – в следующей.
Эта парадигма охватывает множество интересных и ценных с практической точки зрения задач контролируемого обучения, применяемых как в старых, так и в новых технологиях. Детектор спама в вашей электронной почте, оценка стоимости вашего дома или квартиры, перевод речи, приложения для распознавания лиц и беспилотные автомобили – все это результат контролируемого обучения. В табл. 9.1 указаны входные и выходные данные, а также типы моделей, используемые в вышеперечисленных сферах.
Табл. 9.1. Области применения контролируемого обучения
По мере развития областей применения контролируемого обучения становится все легче упустить из виду тот факт, что в их основе лежит классический метод линейной регрессии, разработанный примерно в 1800 году. Линейная регрессия, в частности, метод наименьших квадратов[82], – рабочая лошадка контролируемого обучения; она часто применяется в первую очередь при прогнозировании чего-либо. Этот мощный метод используется повсеместно, и им нередко злоупотребляют.
Линейная регрессия: что она делает
Предположим, вы продаете лимонад в торговом центре и предполагаете, что температура влияет на объем продаж. То есть чем жарче на улице, тем больше лимонада вы продаете. Эта закономерность, если она верна, может помочь вам планировать закупки и прогнозировать уровень продаж в те или иные дни.
Вы наносите на график исторические данные (левый график на рис. 9.2) и замечаете нечто, напоминающее линейный тренд. Чтобы провести линию через эти точки данных, вы можете использовать уравнение[83] Продажи = m(Температура) + b. Простое уравнение, подобное этому, является своего рода моделью[84]. Но как выбрать числа m (наклон линии) и b (точка пересечения с осью) для построения этой модели?
Рис. 9.2. Этим данным достаточно хорошо соответствует множество линий, но какая

