Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Шрифт:
Интервал:
Закладка:
Эта книга – кульминация множества дискуссий, проведенных с друзьями и коллегами, с которыми мы обсуждали всевозможные вопросы, начиная с целесообразности написания книги об овладении языком науки о данных и заканчивая выбором тем, которые стоит в нее включить. Я выражаю особую благодарность Алтынбеку Исмаилову, Энди Ноймайеру, Брэдли Бёмке, Брэндону Гринвеллу, Бренту Расселу, Кейду Сайе, Калебу Гудро, Карлу Парсону, Дэниэлу Уппенкампу, Дугласу Кларку, Грегу Андерсону, Джейсону Фрилсу, Джоэлу Чейни, Джозефу Келлеру, Джастину Мауреру, Нэйтану Свигарту, Филу Хартке, Сэмюэлу Риду, Шону Шнайдеру, Стивену Ферро и Закари Аллену.
Я также в долгу перед сотнями инженеров, бизнес-профессионалов и специалистов в области науки о данных, с которыми я общался лично или через Интернет, и которые помогли мне стать более эффективным дата-сайентистом и коммуникатором. Я также хочу сказать спасибо своим «студентам» (коллегам), которые предоставили честные отзывы о курсах, которые я преподавал. Я услышал вас и благодарен вам.
Мне посчастливилось иметь множество академических и профессиональных наставников, которые помогли мне обрести собственный голос и уверенность в качестве статистика, дата-сайентиста и тренера. Я выражаю благодарность Джеффри Вейру, Джону Тудоровичу, К. Т. Арасу, Рэймонду Хиллу, Робу Бейкеру, Скотту Кроуфорду, Стивену Чэмбалу, Тони Уайту и Уильяму Бреннеману (который любезно согласился стать техническим редактором этой книги). Общаясь с такими людьми, просто невозможно не стать мудрее.
Я также хочу сказать спасибо команде издательства Wiley: Джиму Минателу за веру в проект и предоставленный нам шанс, Питу Гогану и Джону Слива, которые направляли нас на протяжении всего процесса написания книги, а также производственному персоналу Wiley за тщательную вычитку глав. Также выражаю благодарность нашим техническим редакторам Уильяму Бреннеману и Джен Стиррап за ценные предложения и опыт, благодаря которым книга стала гораздо лучше.
Отдельно хочу поблагодарить своего соавтора Джордана Голдмайера и не только за книгу, которую вы держите в руках. В начале своей карьеры я пожаловался Джордану на то, что люди не разделяют моего интереса к статистике и статистическому образу мышления. На это он сказал, что раз меня это так беспокоит, то я должен это изменить. С тех пор я выполняю это обязательство.
Наконец, я хотел бы снова сказать спасибо своей жене Эрин (потому что лучшее действительно следует оставлять напоследок).
– Алекс
Я хотел бы поблагодарить всех тех людей, благодаря которым эта книга вышла в свет.
Прежде всего я выражаю благодарность моему соавтору Алексу Гутману. В течение многих лет мы обсуждали идею совместного написания книги. Когда подходящий момент настал, мы это сделали. О лучшем соавторе я не мог бы и мечтать.
Спасибо замечательным сотрудникам Wiley, в том числе рецензенту издательства Джиму Минателу и руководителю проекта Джону Слива. Кроме того, я хотел бы выразить признательность нашим техническим редакторам, Уильяму Бреннеману и Джен Стиррап, за их усердную работу по рецензированию книги. Мы учли все ваши комментарии.
И последнее, но не менее важное: я хочу сказать спасибо моему партнеру Кэти Грей, которая всегда верила в этот проект – и в меня.
– Джордан
Примечания
1
Splunk Inc., “The State of Dark Data,” 2019, www.splunk.com/en_us/form/the-state-of-dark-data.html.
2
Venture Beat. “87 % of data science projects failing”: venturebeat.com/2019/07/19/why-do-87-of-data-science-projects-never-make-it-into-production
3
www.brookings.edu/wp-content/uploads/2016/06/11_origins_crisis_baily_litan.pdf
4
Нейт Сильвер написал по этому поводу целую серию статей (fivethirtyeight.com/tag/the-real-story-of-2016). Одна из ошибок социологов заключалась в допущении независимости событий, как и в случае с ипотечным кризисом.
5
Примечание для коллег-статистиков: мы имеем в виду обычную, а не статистическую достоверность.
6
Метод k-ближайших соседей можно использовать для предсказания не только классов, но и чисел. Эти так называемые задачи регрессии мы рассмотрим далее в книге.
7
Эта идея обсуждается в чрезвычайно полезной книге Г. Уилсона «Teaching tech together» (CRC Press, 2019).
8
Надежная стратегия работы с данными способна смягчить эти проблемы. Разумеется, важным компонентом любой подобной стратегии является решение значимых проблем, и именно на этом мы сосредоточим внимание в этой главе. Если вы хотите узнать больше о высокоуровневой стратегии работы с данными, обратитесь к книге Jagare, U. Data science strategy for dummies. (John Wiley & Sons, 2019).
9
2017 Kaggle Machine Learning & Data Science Survey. Результаты доступны по адресу: www.kaggle.com/kaggle/kaggle-survey-2017. Доступ получен 12 января 2021.
10
Существуют дополнительные уровни непрерывных данных, называемые отношением и интервалом. Вы можете ознакомиться с ними самостоятельно, однако, согласно нашим наблюдениям, эти термины довольно редко используются в бизнес-среде. Кроме того, бывают ситуации, когда различие между непрерывными и счетными данными не имеет особого значения. Такие большие числа, как количества посещений веб-сайтов, часто считаются при анализе данных непрерывными, а не счетными. Это различие оказывается важным лишь тогда, когда речь идет о близких к нулю значениях. Мы поговорим об этом подробнее в следующих главах.
11
Пример таких искажающих результаты признаков можно найти в сфере клинических испытаний лекарств. Если группа активного воздействия состоит только из детей и никто из них не заболел, вам останется только гадать, чем это обусловлено – эффективным лекарством или особенностью детского организма. Эффект от использования препарата будет смешан с возрастом. Случайное распределение участников эксперимента на две группы позволяет этого избежать.
12
“Data Is” vs. “Data Are”: fivethirtyeight.com/features/data-is-vs-data-are
13
Ф. Харрелл, профессор и заведующий кафедрой биостатистики Университета Вандербильта: www.fharrell.com/post/introduction
14
«Думай медленно… решай быстро», Даниэль Канеман (Издательство: АСТ, 2014).
15
В США существуют две политические партии.
16
Ссылка на статью в Harvard Data Science Review: hdsr.mitpress.mit.edu/pub/pjl0jtkp
17
Мы уделяем так много внимания клиентскому восприятию потому, что (1) его трудно измерить точно, (2) небольшая группа предвзятых людей оказывает сильное влияние на результаты и (3) руководство очень тщательно его анализирует.
18
В нашей симуляции вероятность получения оценки 8 составляла 15 %, вероятность получения оценки 9–40 %, а вероятность получения оценки 10–45 %. Поскольку мы сами сгенерировали эти данные, мы точно знаем, что истинное значение