Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Шрифт:
Интервал:
Закладка:
Подведение итогов
В этой главе мы объединили многое из описанного в предыдущих главах, чтобы объяснить принцип работы алгоритмов глубокого обучения. Помните, что в основе глубокого обучения лежат искусственные нейронные сети, состоящие из нейронов, каждый из которых содержит уравнение, называемое функцией активации. Выходной сигнал каждого слоя поступает на вход одного или нескольких нейронов. Эти слои становятся подфункциями для последнего слоя, который, в свою очередь, превращается в одно большое (и впечатляющее!) математическое уравнение, служащее прогностической моделью.
Глубокое обучение – это захватывающая новая глава в машинном обучении. Запуск все более сложных моделей с каждым днем становится все проще и дешевле. Тем не менее, несмотря на потенциал глубокого обучения, нам не следует возлагать на него слишком большие надежды. Данная технология позволяет эффективно решать такие задачи восприятия, как классификация изображений и текстов, состоящих из высококачественных и правильно размеченных данных, но не всегда оказывается оптимальным вариантом для решения небольших задач, предполагающих работу со структурированными данными.
В конечном итоге модели запускают люди. Не позволяйте ореолу таинственности, окружающему алгоритмы глубокого обучения, заставлять вас думать, будто они умнее вас, и верить, что вы используете их нейтральным способом. В конце концов, это ваша работа, и вы должны чувствовать себя комфортно, выполняя ее.
Часть IV
Гарантируйте успех
В части IV вы узнаете о том, как извлечь максимальную пользу из своего пути становления главным по данным, учась на чужих ошибках, как технических, так и связанных с человеческим фактором.
Эта часть состоит из следующих глав:
Глава 13. Остерегайтесь ловушек.
Глава 14. Знайте людей и типы личностей.
Глава 15. Что дальше?
Глава 13
Остерегайтесь ловушек
«Первый принцип – не обманывать себя, а себя обмануть легче всего»
– Ричард Ф. Фейнман, лауреат Нобелевской премии по физике
Чтобы понимать, думать и говорить на языке данных, очень важно знать об ошибках, которые вы можете допустить, если потеряете бдительность в ходе работы с ними и их интерпретации. Некоторые подводные камни довольно легко устранить, но их трудно обнаружить, если вы не знаете, где искать. А если вы не будете соблюдать осторожность, то они могут обернуться крупными катастрофами, подобными тем, которые были описаны ранее в этой книге (вспомните аварию шаттла «Челленджер» и крах рынка жилья в 2008 году).
В этой главе мы напомним вам о тех ловушках, о которых вы уже знаете, и познакомим вас с несколькими другими распространенными подводными камнями, которые могут сорвать всю вашу работу или (что еще хуже) заставить вас прийти к неверным выводам.
Прежде чем мы начнем, стоит отметить, что обсуждать чужие ошибки и просчеты в работе с данными очень легко и весело. Однако, хотя мы призываем вас скептически относиться к работе, проделанной другими специалистами в вашей области, стоит помнить о том, что позитивные изменения невозможны без проявления сочувствия и поддержки. Ошибки случаются – и надо отметить, что авторы этой книги пришли к знаниям, изложенным в этой главе, далеко не легким путем. Поэтому давайте признаем, что в основе большинства ловушек лежат не чьи-то гнусные намерения и недобросовестность. Чаще люди просто не знают о том, что может пойти не так. Именно об этом мы и поговорим в данной главе.
Предвзятости и странности в данных
Предвзятость – это сложная тема, затрагивающая различные дисциплины. Под предвзятостью мы понимаем однобокое (а иногда даже непоследовательное) предпочтение, отдаваемое идеям и концепциям отдельными людьми и подкрепляемое их группами. В этом разделе мы обсудим распространенные варианты предвзятости в мире данных, а также такие явления, когда при первом взгляде на данные у вас может сложиться одно впечатление, а при повторном их рассмотрении – другое.
Систематическая ошибка выжившего
Представьте, что инвестиционная компания в одном и том же году запускает десятки взаимных фондов, каждый из которых содержит случайный набор акций. Если фонд не покажет целевую доходность за определенный период времени (например, если доходность индекса S&P 500 составит 10 %, а доходность одного из фондов – только 3 %), то его деятельность будет прекращена. По прошествии нескольких лет останутся только «выжившие» взаимные фонды, отличающиеся впечатляющей доходностью. И тут появляется потенциальный инвестор в вашем лице. Вам демонстрируют показатели фондов компании, превышающие рыночные на протяжении нескольких лет подряд.
Вы бы инвестировали в них свои средства?
Возможно. Компании отказываются от плохих активов, что по своей сути совсем не плохо. Плохо – делать вид, что плохих активов никогда и не существовало, поскольку это создает предвзятость. В этом примере вам не были представлены данные о низкодоходных фондах, потому что компания от них отказалась. Из-за этого результаты деятельности компании показались вам более впечатляющими и заставили вас поверить в то, что в ней работают опытные финансовые аналитики, тогда как наиболее правдоподобное объяснение – простое везение.
Это пример систематической ошибки выжившего, которая представляет собой «разновидность систематической ошибки отбора, когда по одной группе объектов (условно называемых «выжившие») данных много, а по другой («погибшие») – практически нет»[140].
Классический пример систематической ошибки выжившего – случай статистика Абрахама Вальда, которому было поручено минимизировать потери флота бомбардировщиков союзников во время Второй мировой войны. Самолеты, пережившие жестокие бои, возвращались на базу с серьезными повреждениями и пулевыми отверстиями в фюзеляже и крыльях. Изначально идея заключалась в том, чтобы укрепить те места самолетов, в которых наблюдалось больше всего повреждений. Однако Вальд посчитал ее проявлением ошибки выжившего. Дело в том, что во внимание принимались только вернувшиеся самолеты. Но как быть с теми, которые не смогли вернуться? Что этот характер повреждений говорит о них?
Рекомендация Вальда казалась парадоксальной: он предложил бронировать те участки, которые имели наименьшие повреждения у вернувшихся самолетов. Почему? Потому что самолеты, получившие повреждения в этих местах, так и не вернулись на базу.
Регрессия к среднему
Регрессия к среднему – это явление, суть которого формулируется достаточно просто: за экстремальными значениями случайной величины часто следуют менее экстремальные. Это наблюдение было впервые сформулировано как «регрессия к посредственности» в 1886 году сэром Фрэнсисом Гальтоном[141], который заметил, что дети высоких родителей оказываются менее высокими, чем они (что говорит о регрессии данного показателя), а дети низкорослых родителей – не такими низкорослыми. По сути, он выявил естественную, глубинную стабильность, существующую в росте людей и их потомков: за экстремальными значениями (низкими и высокими) обычно следуют