- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Шрифт:
Интервал:
Закладка:
Знайте свою аудиторию
Работа с данными ведется во множестве предметных областей, в каждой из которых используется профессиональный сленг, поэтому для одних и тех же вещей существует несколько названий. Одни специалисты по работе с данными могут называть столбцы в наборе данных «признаками», а другие – «переменными» или «предикторами». Поэтому главному по данным важно уметь ориентироваться в предпочтениях разных групп.
Табл. 2.1. Пример набора данных о рекламных расходах и прибыли
Точка данных – это место пересечения наблюдения и признака. В данном случае примером точки данных является 150 единиц товара, проданного 01 февраля 2021 года.
Таблица 2.1 имеет заголовок (фрагмент нечисловых данных), который помогает нам понять, что означает каждый признак. Обратите внимание, что строка заголовка не обязательна. В таких случаях заголовок подразумевается, и человек, работающий с набором данных, должен знать, что означает каждый из признаков.
Типы данных
Существует множество способов кодирования информации, однако специалисты по работе с данными используют несколько видов кодировки для хранения информации и передачи полученных результатов. Два наиболее распространенных типа данных – числовые и категориальные.
Числовые данные в основном состоят из чисел, но могут включать дополнительные символы для обозначения единиц. К категориальным данным относятся слова, символы, фразы и (как ни странно) иногда числа – например, почтовые индексы. И числовые, и категориальные данные делятся на дополнительные подкатегории.
Существуют два основных типа числовых данных:
– Непрерывные данные могут принимать любое значение в некотором числовом диапазоне. Они представляют собой принципиально неисчисляемый набор значений. Возьмем, к примеру, погоду. Температура воздуха на улице, преобразованная в данные, будет представлять собой непрерывную переменную. Допустим, она составляет 65,62 градуса по Фаренгейту (18,67 °C). Местная новостная станция может передать это значение как 65 °F (18 °C), 66 °F (19 °C) или 65,6 °F (18,7 °C).
– Счетные (или дискретные) данные, в отличие от непрерывных, ограничивают точность целым числом. Например, количество автомобилей, которыми вы владеете, может быть равно 0, 1, 2 и так далее, но не 1,23. Это отражает основополагающую реальность измеряемой вещи[10].
Категориальные данные также делятся на два основных типа:
– Упорядоченные (или порядковые) данные – это категориальные данные, которым присущ определенный порядок. Такие данные используют, например, организаторы опросов, когда предлагают вам оценить свой опыт по шкале от 1 до 10. Хотя эти данные напоминают счетные, мы не можем приравнять разницу между оценками 10 и 9 к разнице между 1 и 0. Разумеется, порядковые категориальные данные не обязательно кодировать в виде чисел. Например, размер рубашки относится к порядковым данным, но его можно закодировать с помощью слов: маленький, средний, большой, очень большой.
– Неупорядоченные (или номинальные) категориальные данные не имеют присущего им порядка. Например, табл. 2.1 содержит признак «Медиа» со значениями «Печать», «Интернет» и «Телевидение». Другие примеры номинальных переменных – ответы «Да» и «Нет», а также принадлежность к демократической или республиканской партии. Порядок их перечисления всегда является произвольным – нельзя сказать, что одна категория «важнее» другой.
В табл. 2.1 также есть признак «Дата», представляющий собой дополнительный тип данных, который является последовательным и может использоваться в арифметических выражениях в качестве числовых данных.
Сбор и структурирование данных
В предыдущем разделе мы говорили о типах данных в наборах, однако существуют более крупные категории для описания способа сбора и структурирования данных.
Данные наблюдений и экспериментальные данные
В зависимости от способа сбора данные могут называться экспериментальными или данными наблюдений.
– Данные наблюдений собираются в процессе пассивного наблюдения человека или компьютера за каким-либо процессом.
– Экспериментальные данные собираются в соответствии с научным методом с использованием предписанной методологии.
Большая часть данных в вашей компании и в мире вообще относится к данным наблюдений. Их примеры – число посещений веб-сайта, объем продаж на определенную дату и количество электронных писем, которые вы получаете каждый день. Иногда такие данные сохраняются с определенной целью, а иногда – просто так. Порой данные этого типа называют «обнаруженными»; очень часто они являются побочным продуктом продаж, платежей, сделанных с помощью кредитных карт, публикации сообщений в Twitter, лайков и тому подобного. То есть они находятся где-то в базе данных, ожидая, когда их обнаружат и используют с какой-то целью. Иногда данные наблюдений собираются потому, что их сбор ничего не стоит. Но иногда их собирают специально – например, с помощью опросов.
Экспериментальные данные собираются не пассивно, а намеренно и методично, чтобы ответить на конкретные вопросы. По этим причинам экспериментальные данные – золотой стандарт для статистиков и исследователей. Чтобы собрать экспериментальные данные, вы должны оказать воздействие на случайным образом выбранный объект. Распространенным примером в данном случае являются клинические испытания лекарств, в ходе которых пациентов случайным образом делят на две группы – группу активного воздействия и контрольную группу. При этом пациенты из первой группы получают настоящее лекарство, а пациенты из второй группы – плацебо. Случайное распределение пациентов позволяет сбалансировать информацию, не представляющую важность для исследования (такую как возраст, социально-экономический статус, вес и так далее), чтобы две группы были максимально похожи во всех отношениях, за исключением факта применения лекарства. Это позволяет исследователям изолировать и измерить эффект препарата, не беспокоясь о потенциальном смешении признаков, способном исказить результат эксперимента[11].
Такой подход может применяться в разных сферах, начиная с клинических испытаний лекарств и заканчивая проведением маркетинговых кампаний. В сфере цифрового маркетинга веб-дизайнеры часто проводят над нами эксперименты, разрабатывая различные макеты веб-страниц или рекламные баннеры. Когда мы делаем покупки в Интернете, за кулисами происходит своеобразное подбрасывание монеты, от результатов которого зависит то, какой именно вариант из двух рекламных объявлений (назовем их А и Б) будет нам показан. После того как сайт посетят несколько тысяч ничего не подозревающих «морских свинок», веб-дизайнеры увидят, какой из вариантов обеспечил больше «кликов». А поскольку объявления А и Б показывались случайным образом, они могут определить, какое из объявлений более эффективно с точки зрения числа кликов, потому что все остальные потенциально смешивающиеся признаки (время суток, тип веб-пользователя и так далее) были сбалансированы путем рандомизации. Подобный метод часто называется «А/Б-тестированием» или «А/Б-экспериментом».
Подробнее о важности этого различия мы поговорим в главе 4 «Сомневайтесь в данных».
Структурированные и неструктурированные данные
Данные также могут быть структурированными и неструктурированными. Пример структурированных данных – содержимое таблиц, упорядоченное в виде строк и столбцов.

