Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Шрифт:
Интервал:
Закладка:
19
Представьте, что мы описали обратную ситуацию и сказали вам, что в сельской местности наблюдается самый низкий уровень заболеваемости раком почки. Какие причины вы бы назвали? Попробуйте поразмышлять о них, и вы увидите, как легко сочинить историю на основе имеющихся данных.
20
Wainer, H. (2007). The most dangerous equation. American Scientist, 95(3), 249.
21
Здесь мы немного упрощаем. Перед выборами политические партии пытаются повлиять как на количество шариков в мешке, так и на их цвет. Но даже это не позволяет им узнать все о содержимом мешка, поэтому им приходится полагаться на выборку.
22
Данный пример взят с сайта www.johndcook.com/blog/2008/01/25/example-of-the-law-of-small-numbers
23
Tversky, A., & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and biases. Science, 185(4157), 1124–1131.
24
О’Нил Кэти, Шатт Рэйчел. «Data Science. Инсайдерская информация для новичков» (Издательство: Питер, 2019).
25
Цитата из статьи NRP. “Challenger engineer who warned of shuttle disaster dies.” www.npr.org/sections/thetwo-way/2016/03/21/470870426/challenger-engineer-who-warned-of-shuttle-disaster-dies
26
Цитата из отчета Президентской комиссии, занимавшейся расследованием катастрофы космического челнока «Челленджер» (Report to the President by the Presidential Commission on the Space Shuttle Challenger Accident). С. 146. sma.nasa.gov/SignificantIncidents/assets/rogers_commission_report.pdf
27
Данные доступны для загрузки из репозитория для машинного обучения Калифорнийского университета в Ирвайне: archive.ics.uci.edu/ml/datasets/Challenger+USA+Space+ Shuttle+O-Ring
28
Dalal, S. R., Fowlkes, E. B., & Hoadley, B. (1989). Risk analysis of the space shuttle: pre-Challenger prediction of failure. Journal of the American Statistical Association, 84(408), 945–957.
29
Обратите внимание на то, что подобные вопросы вам следует задать до начала реализации проекта по работе с данными, как было сказано в главе 1.
30
Существуют способы использования данных наблюдений для выявления причинно-следственных связей, которые опираются на сильные предположения и продуманную статистику. Они называются методами выявления причинности.
31
Сбор всех сведений об интересующей совокупности называется переписью.
32
Мы вернемся к этой идее в одной из следующих глав при обсуждении так называемой систематической ошибки выжившего.
33
Производственным, инженерным и исследовательским организациям также следует позаботиться об определении повторяемости и воспроизводимости данных, измеряемых с помощью технического оборудования.
34
При обдумывании подходящего размера выборки специалисты по статистике отталкиваются от величины мощности, о которой мы поговорим в главе 7.
35
Цитата из статьи “Understand Regression Analysis”, Amy Gallo, глава 10 в HBR Guide to Data Analytics Basics for Managers (HBR Guide Series).
36
Tukey, J. W. (1977). Exploratory data analysis (Vol. 2, pp. 131–160).
37
Заинтересованные стороны не должны заниматься микроменеджментом. Между бизнес-лидерами и командами, работающими с данными, должен быть определенный уровень доверия.
38
De Cock, D. (2011). Ames, Iowa: Alternative to the Boston housing data as an end of semester regression project. Journal of Statistics Education, 19(3). Данные можно загрузить с сайта www.kaggle.com/c/house-prices-advanced-regression-techniques.
39
Компания Zillow очень серьезно относится к Zestimate®. В 2019 году она выделила 1 миллион долларов команде дата-сайентистов ради повышения точности прогнозов этого инструмента. venturebeat.com/2019/01/30/zillow-awards-1-million-to-team-that-reduced-home-valuation-algorithm-error-to-below-4
40
Диаграммы размаха также называют диаграммами типа «ящик с усами». «Ящик» содержит центральные 50 % наблюдений (значения в диапазоне между 25-м и 75-м процентилями), линия в ящике – это медиана, а «усы» показывают диапазон, в котором находятся оставшиеся точки данных. Точки, выходящие за пределы этого диапазона, – потенциальные выбросы.
41
Корреляция вовсе не означает, что наклон линии должен быть крутым. Идеальная корреляция между двумя переменными вполне может описываться почти плоской (хоть и не горизонтальной) линией.
42
Anscombe, F. J. (1973). Graphs in statistical analysis. The American Statistician, 27(1), 17–21. Для получения значений, напоминающих цены на дома, мы умножили зависимую переменную на 22 000.
43
Набор данных Datasaurus был создан Альберто Каиро и доступен на GitHub: github.com/lockedata/datasauRus
44
Авторы этого руководства поспорили о том, можно ли вообще не упомянуть эту фразу в книге, посвященной науке о данных. О результате этого спора вы можете догадаться сами.
45
Fisher, R. A. (1958). Cancer and smoking. Nature, 182 (4635), 596.
46
Паулос, Дж. А. «Математическое невежество и его последствия» (Издательство: Студия Артемия Лебедева, 2021).
47
Поищите в Интернете «Интерпретации вероятности», чтобы понять, что мы имеем в виду.
48
Разве можно опоздать на работу, работая на себя? В этом примере – да.
49
«Думай медленно… решай быстро», Даниэль Канеман (Издательство: АСТ, 2014).
50
Эта вероятность не была бы равна 100 %, потому что у команды противника тоже есть болельщики.
51
Вера в то, что прошлые независимые события могут произойти по прошествии достаточного количества времени, также известна как «закон средних чисел» – наукообразный термин, обозначающий склонность принимать желаемое за действительное.
52
Авторы книги ничего не имеют против таких завтраков.
53
Мы не утверждаем, что консультанты или хирурги так поступают. Так делают только адвокаты.
54
Confusion of the Inverse: en.wikipedia.org/wiki/Confusion_of_the_inverse. Доступ получен 4 июля, 2020.
55
С подробной историей данной теоремы можно ознакомиться в книге McGrayne, S. B. (2011). The Theory That Would Not Die: How Bayes’ Rule Cracked the Enigma Code, Hunted Down Russian Submarines, and Emerged Triumphant from Two Centuries of Controversy (American First ed.). Yale University Press.
56
Мы говорим «примерно», потому что во всем есть вариации. Но в долгосрочной перспективе событие, имеющее вероятность 75 %, должно происходить в 75 % случаев.