- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Шрифт:
Интервал:
Закладка:
Сценарий
Вы работаете в стартапе, занимающемся недвижимостью, и ваша задача – привлечь трафик на сайт. Однако вам трудно конкурировать с такими технологическими гигантами, как американская компания Zillow, чей знаменитый инструмент оценки стоимости жилья Zestimate®[39] привлекает большое количество людей (и денег) на сайт Zillow.com. Чтобы конкурировать с этим, вашему стартапу нужен собственный инструмент прогнозирования. Итак, перед вами поставлена задача построить модель, которая использует в качестве входных данных информацию о доме, а в качестве выходных данных выдает ориентировочную цену продажи.
Начальник присылает вам набор данных, в котором содержится 80 столбцов. Каждый из них описывает те или иные аспекты сотен жилых домов, проданных в городе Эймс, штат Айова, в период с 2006 по 2011 год.
Такое количество данных ошеломит кого угодно. Тем не менее перечисленные выше вопросы могут помочь вам приступить к их анализу.
Давайте разберем каждый их них.
Позволяют ли данные ответить на поставленный вопрос?
Как бы вам ни хотелось поскорее скормить данные новомодному алгоритму (например, воспользоваться методом глубокого обучения, описанным в главе 12), сначала следует спросить: «Позволяют ли данные ответить на поставленный вопрос?» И для получения ответа на него часто бывает достаточно просто взглянуть на имеющиеся данные.
Определитесь с ожиданиями и руководствуйтесь здравым смыслом
Вы должны иметь довольно хорошее представление о том, какая информация необходима для определения цены продажи дома, например, общая площадь, количество спален, количество ванных комнат, год постройки и так далее. Эти характеристики чаще всего интересуют потенциальных покупателей жилья, заходящих на ваш веб-сайт. Без их учета предсказание цены дома не кажется разумным.
Открыв файл, вы видите названия столбцов и типы данных. В нем присутствуют вполне ожидаемые признаки, а также полезные порядковые данные (например, «Общее качество дома, 1–10, где 10 означает «Превосходное»), номинальные данные («Окрестности») и множество других признаков. На первый взгляд, с данными все в порядке.
На следующем этапе вы, вероятно, решите изучить значения, которые принимают переменные. Охватывают ли они те сценарии, которые вы хотите проанализировать? Например, если вы обнаружите, что переменная «Тип здания: тип жилища» принимает только одно значение – «Дом на одну семью», но не включает квартиры, дуплексы или кондоминиумы, то ваша модель будет иметь ограниченный охват по сравнению с моделью компании Zillow. Ее инструмент Zestimate® может предсказать цену продажи кондоминиума – но, если у вас нет исторических данных о них, модель вашей компании не сможет надежно предсказать его цену.
Мораль заключается в следующем: не выуживайте данные, как говорилось в цитате, приведенной в начале главы. Убедитесь в том, что данные позволяют ответить на поставленный вопрос.
Имеют ли данные интуитивный смысл?
Программное обеспечение сгенерирует для вас множество сводных статистических показателей. Ваша задача – поместить эти данные в контекст. Оцените соответствие этой сводной статистики своему интуитивному пониманию проблемы. Еще один ключевой компонент EDA – визуализации. Используйте их для обнаружения аномалий и других странностей в данных.
Визуализация данных
Давайте рассмотрим несколько примеров проведения разведочного анализа данных с использованием гистограмм, диаграмм размаха, столбиковых графиков и диаграмм рассеяния. Если вы уже хорошо знакомы с такими графиками, то можете пропустить этот раздел.
Гистограммы позволяют определить форму распределения непрерывных числовых данных. Рассмотрим гистограмму продажных цен, изображенную на рис. 5.1. На ней мы видим около 125 домов стоимостью до 200 000 долларов и длинный хвост справа, сформированный самыми дорогими домами. Из-за этого хвоста средняя цена продажи (181 000 долларов) превышает медианную цену (163 000 долларов). То есть из-за небольшого количества дорогих домов среднее значение превышает медианное.
Рис. 5.1. Гистограмма, отражающая форму распределения цен на дома
Гистограммы помогают обнаруживать аномалии. Если бы вы увидели отрицательные значения, говорящие о получении покупателем платы за покупку дома, или неожиданно большие значения у правого края графика на рис. 5.1, что бывает при задании максимального значения (например, когда любое значение, превышающее 500 000 долларов, записывается как 500 000 долларов), вам бы захотелось задать дополнительные вопросы.
Диаграммы размаха[40] можно использовать для сравнения данных, принадлежащих нескольким группам. На рис. 5.2 показана диаграмма размаха для каждого рейтинга качества дома, где 1 означает плохое, а 10 – превосходное.
Рис. 5.2. Использование диаграмм размаха для сравнения продажных цен при различных рейтингах качества
В данном случае взаимосвязь между общим качеством дома и его ценой кажется интуитивно понятной. Более качественные дома обычно продаются по более высокой цене. Мы можем обнаружить дом за 200 000 долларов, общее качество которого было оценено на 10 (нижний конец линии). Однако разумно предположить, что он был продан дешевле, чем другие дома с оценкой 10 из-за прочих факторов. Специалистам по работе с данными следует проверять такого рода информацию.
Столбиковые графики (рис. 5.3) отображают распределение категориальных данных.
Рис. 5.3. Столбиковый график, показывающий количество домов с разными типами электроустановок
Не все виды визуализаций могут показаться интересными на первый взгляд. Тем не менее ознакомиться с ними все равно стоит – хотя бы для того, чтобы подтвердить (или оспорить) ответ на вопрос: «Имеют ли данные интуитивный смысл?» Согласно графику на рис. 5.3, почти все дома имеют одинаковое значение указанного признака. Однако с точки зрения поставленной перед вами задачи эта информация полезна. Поскольку значение этой переменной одинаковое для большинства домов, она, вероятно, не будет существенно влиять на разницу в их стоимости.
Рис. 5.4. Линейная диаграмма, отражающая количество домов, проданных в разные месяцы
На рис. 5.4 показана линейная диаграмма, отражающая количество домов, проданных в разные месяцы. Явление, при котором продажи домов увеличиваются летом и сокращаются зимой, называется сезонностью. Линейные диаграммы хорошо отражают такие тенденции.
На следующем этапе мы можем изучить диаграмму рассеяния, демонстрирующую зависимость цены дома от его размера (площади первого этажа в квадратных футах).
Зависимость, отображенная на рис. 5.5, интуитивно понятна. Большие дома обычно стоят дороже. Разумеется, из этого правила есть исключения: иногда небольшие дома стоят дороже, чем большие. Вариации есть всегда, но они не отменяют общую тенденцию. И поскольку в конечном итоге мы пытаемся предсказать цену продажи дома, его площадь – весьма полезная информация.
Рис. 5.5. Диаграмма рассеяния, отражающая площадь

