- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Шрифт:
Интервал:
Закладка:
Эта книга – кульминация множества дискуссий, проведенных с друзьями и коллегами, с которыми мы обсуждали всевозможные вопросы, начиная с целесообразности написания книги об овладении языком науки о данных и заканчивая выбором тем, которые стоит в нее включить. Я выражаю особую благодарность Алтынбеку Исмаилову, Энди Ноймайеру, Брэдли Бёмке, Брэндону Гринвеллу, Бренту Расселу, Кейду Сайе, Калебу Гудро, Карлу Парсону, Дэниэлу Уппенкампу, Дугласу Кларку, Грегу Андерсону, Джейсону Фрилсу, Джоэлу Чейни, Джозефу Келлеру, Джастину Мауреру, Нэйтану Свигарту, Филу Хартке, Сэмюэлу Риду, Шону Шнайдеру, Стивену Ферро и Закари Аллену.
Я также в долгу перед сотнями инженеров, бизнес-профессионалов и специалистов в области науки о данных, с которыми я общался лично или через Интернет, и которые помогли мне стать более эффективным дата-сайентистом и коммуникатором. Я также хочу сказать спасибо своим «студентам» (коллегам), которые предоставили честные отзывы о курсах, которые я преподавал. Я услышал вас и благодарен вам.
Мне посчастливилось иметь множество академических и профессиональных наставников, которые помогли мне обрести собственный голос и уверенность в качестве статистика, дата-сайентиста и тренера. Я выражаю благодарность Джеффри Вейру, Джону Тудоровичу, К. Т. Арасу, Рэймонду Хиллу, Робу Бейкеру, Скотту Кроуфорду, Стивену Чэмбалу, Тони Уайту и Уильяму Бреннеману (который любезно согласился стать техническим редактором этой книги). Общаясь с такими людьми, просто невозможно не стать мудрее.
Я также хочу сказать спасибо команде издательства Wiley: Джиму Минателу за веру в проект и предоставленный нам шанс, Питу Гогану и Джону Слива, которые направляли нас на протяжении всего процесса написания книги, а также производственному персоналу Wiley за тщательную вычитку глав. Также выражаю благодарность нашим техническим редакторам Уильяму Бреннеману и Джен Стиррап за ценные предложения и опыт, благодаря которым книга стала гораздо лучше.
Отдельно хочу поблагодарить своего соавтора Джордана Голдмайера и не только за книгу, которую вы держите в руках. В начале своей карьеры я пожаловался Джордану на то, что люди не разделяют моего интереса к статистике и статистическому образу мышления. На это он сказал, что раз меня это так беспокоит, то я должен это изменить. С тех пор я выполняю это обязательство.
Наконец, я хотел бы снова сказать спасибо своей жене Эрин (потому что лучшее действительно следует оставлять напоследок).
– Алекс
Я хотел бы поблагодарить всех тех людей, благодаря которым эта книга вышла в свет.
Прежде всего я выражаю благодарность моему соавтору Алексу Гутману. В течение многих лет мы обсуждали идею совместного написания книги. Когда подходящий момент настал, мы это сделали. О лучшем соавторе я не мог бы и мечтать.
Спасибо замечательным сотрудникам Wiley, в том числе рецензенту издательства Джиму Минателу и руководителю проекта Джону Слива. Кроме того, я хотел бы выразить признательность нашим техническим редакторам, Уильяму Бреннеману и Джен Стиррап, за их усердную работу по рецензированию книги. Мы учли все ваши комментарии.
И последнее, но не менее важное: я хочу сказать спасибо моему партнеру Кэти Грей, которая всегда верила в этот проект – и в меня.
– Джордан
Примечания
1
Splunk Inc., “The State of Dark Data,” 2019, www.splunk.com/en_us/form/the-state-of-dark-data.html.
2
Venture Beat. “87 % of data science projects failing”: venturebeat.com/2019/07/19/why-do-87-of-data-science-projects-never-make-it-into-production
3
www.brookings.edu/wp-content/uploads/2016/06/11_origins_crisis_baily_litan.pdf
4
Нейт Сильвер написал по этому поводу целую серию статей (fivethirtyeight.com/tag/the-real-story-of-2016). Одна из ошибок социологов заключалась в допущении независимости событий, как и в случае с ипотечным кризисом.
5
Примечание для коллег-статистиков: мы имеем в виду обычную, а не статистическую достоверность.
6
Метод k-ближайших соседей можно использовать для предсказания не только классов, но и чисел. Эти так называемые задачи регрессии мы рассмотрим далее в книге.
7
Эта идея обсуждается в чрезвычайно полезной книге Г. Уилсона «Teaching tech together» (CRC Press, 2019).
8
Надежная стратегия работы с данными способна смягчить эти проблемы. Разумеется, важным компонентом любой подобной стратегии является решение значимых проблем, и именно на этом мы сосредоточим внимание в этой главе. Если вы хотите узнать больше о высокоуровневой стратегии работы с данными, обратитесь к книге Jagare, U. Data science strategy for dummies. (John Wiley & Sons, 2019).
9
2017 Kaggle Machine Learning & Data Science Survey. Результаты доступны по адресу: www.kaggle.com/kaggle/kaggle-survey-2017. Доступ получен 12 января 2021.
10
Существуют дополнительные уровни непрерывных данных, называемые отношением и интервалом. Вы можете ознакомиться с ними самостоятельно, однако, согласно нашим наблюдениям, эти термины довольно редко используются в бизнес-среде. Кроме того, бывают ситуации, когда различие между непрерывными и счетными данными не имеет особого значения. Такие большие числа, как количества посещений веб-сайтов, часто считаются при анализе данных непрерывными, а не счетными. Это различие оказывается важным лишь тогда, когда речь идет о близких к нулю значениях. Мы поговорим об этом подробнее в следующих главах.
11
Пример таких искажающих результаты признаков можно найти в сфере клинических испытаний лекарств. Если группа активного воздействия состоит только из детей и никто из них не заболел, вам останется только гадать, чем это обусловлено – эффективным лекарством или особенностью детского организма. Эффект от использования препарата будет смешан с возрастом. Случайное распределение участников эксперимента на две группы позволяет этого избежать.
12
“Data Is” vs. “Data Are”: fivethirtyeight.com/features/data-is-vs-data-are
13
Ф. Харрелл, профессор и заведующий кафедрой биостатистики Университета Вандербильта: www.fharrell.com/post/introduction
14
«Думай медленно… решай быстро», Даниэль Канеман (Издательство: АСТ, 2014).
15
В США существуют две политические партии.
16
Ссылка на статью в Harvard Data Science Review: hdsr.mitpress.mit.edu/pub/pjl0jtkp
17
Мы уделяем так много внимания клиентскому восприятию потому, что (1) его трудно измерить точно, (2) небольшая группа предвзятых людей оказывает сильное влияние на результаты и (3) руководство очень тщательно его анализирует.
18
В нашей симуляции вероятность получения оценки 8 составляла 15 %, вероятность получения оценки 9–40 %, а вероятность получения оценки 10–45 %. Поскольку мы сами сгенерировали эти данные, мы точно знаем, что истинное значение

