Удовольствие от Х.Увлекательная экскурсия в мир математики от одного из лучших преподавателей в мир
Шрифт:
Подобно тому как местоположение каждого шарика определяется суммой множества случайных событий, многие явления в этом мире являются следствием множества мелких обстоятельств и тоже подчиняются колоколообразной кривой. По этому принципу работают страховые компании. Они с высокой точностью могут назвать количество своих клиентов, которые умирают каждый год. Однако не знают, кому именно не повезет на этот раз.
Или возьмем, к примеру, рост человека. Он зависит от бесчисленного количества случайностей, связанных с генетикой, биохимией, питанием и окружающей средой. Следовательно, велика вероятность, что при рассмотрении в совокупности рост взрослых мужчин и женщин будет представлять собой колоколообразную кривую89.
В одном блоге под названием «Ложные данные, которые люди сообщают о себе в интернете» статистическая служба сайта знакомств OkCupid90 недавно опубликовала график роста своих клиентов или, скорее, указанных ими значений. Обнаружилось, что показатели роста представителей обоих полов, как и ожидалось, образуют колоколообразную кривую. Однако удивительно то, что оба распределения были примерно на два дюйма смещены вправо относительно ожидаемых значений.
Таким образом, либо рост клиентов, опрошенных компанией OkCupid, превышает средний, либо при описании себя в интернете они прибавляют к своему росту еще пару дюймов.
Идеализированной версией подобных колоколообразных кривых является то, что математики называют нормальным распределением. Это одно из важнейших понятий в статистике, имеющее теоретическое обоснование. Можно доказать, что нормальное распределение возникает при сложении большого количества мелких случайных факторов, причем каждый из них действует независимо от других. И многие события происходят именно таким образом.
Но не все. И это второй пункт, на который я хотел бы обратить внимание. Нормальное распределение не такое уж вездесущее, как кажется. На протяжении сотни лет, и особенно в последние несколько десятилетий, ученые и специалисты в области статистики отмечают существование множества явлений, отклоняющихся от этой кривой и следующих собственному графику. Любопытно, что подобные типы распределений практически не упоминаются в учебниках по элементарной статистике, а если и встречаются, то обычно рассматриваются как некие патологии. Это странно. Я попытаюсь объяснить, что многие явления современной жизни приобретают больший смысл при условии понимания этих «патологических» распределений. Это новая нормальность.
Возьмем, к примеру, распределение размеров городов в США. Вместо того чтобы скапливаться вокруг некоей средней величины колоколообразной кривой, подавляющее большинство городов имеют небольшой размер и, следовательно, скапливаются в левой части графика.
И чем больше население города, тем реже такие города встречаются. Иначе говоря, в совокупности распределение будет представлять собой скорее кривую в форме буквы L, чем колоколообразную кривую.
И в этом нет ничего удивительного. Все знают, что мегаполисов гораздо меньше, чем маленьких городов. Хотя это не так очевидно, размеры городов подчиняются простому красивому распределению — если посмотреть на них в логарифмическом масштабе.
Будем считать, что различие между двумя городами одно и то же, если их население отличается в одно и то же число раз (подобно тому как две любые клавиши рояля, отстоящие на октаву, всегда разнятся вдвое по частоте). И сделаем то же самое на вертикальной оси.
Теперь данные располагаются на кривой, представляющей собой почти идеальную прямую линию. Исходя из свойств логарифмов, нетрудно вывести, что исходная L-образная кривая представляет собой степенную зависимость, которая описывается функцией вида
где x — население города, у — количество городов, имеющих такой размер, с — константа, а показатель степени a (показатель степенной зависимости) определяет отрицательный наклон прямой линии.
Степенные распределения91 имеют некоторые нелогичные, с точки зрения традиционной статистики, свойства. Например, в отличие от нормального распределения, их моды, медианы и средние значения не совпадают из-за скошенной асимметричной формы L-образных кривых. Президент Буш извлек из этого немалую пользу, заявив в 2003 году, что сокращение налогов позволило каждой семье сэкономить в среднем 1586 долларов92. Хотя математически это верно, здесь он к своей выгоде взял за основу среднее значение вычета, под которым скрывались огромные вычеты в сотни тысяч долларов, полученные 0,1% богатейшего населения страны. Известно, что «хвост» в правой части распределения дохода следует степенной зависимости, и в подобной ситуации использование средней величины вводит в заблуждение, поскольку она далека от своего реального значения. В действительности большинству семей вернули менее 650 долларов. В данном распределении медиана значительно меньше, чем среднее значение.
Этот пример демонстрирует важнейшее свойство распределений степенной зависимости: они имеют «тяжелые хвосты» по сравнению по крайней мере с маленькими «жидкими хвостиками» нормального распределения. Подобные большие хвосты хотя и редкость, но встречаются чаще в распределениях данных, чем обычные колоколообразные кривые.
В «черный понедельник», 19 октября 1987 года, промышленный индекс Доу-Джонса упал на 22%. По сравнению с обычным уровнем нестабильности на фондовом рынке это падение составило более двадцати стандартных отклонений. Согласно традиционной статистике (в которой используется нормальное распределение), подобное событие практически невозможно: его вероятность составляет менее чем один случай на 100 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 (10 в 50 степени). Однако это произошло — поскольку колебания цен на фондовом рынке93 не соответствовали нормальному распределению. Для их описания лучше подходят распределения с «тяжелым хвостом».
Подобное происходит с землетрясениями, пожарами и наводнениями, что усложняет страховым компаниям задачу управления рисками. Такая же математическая модель описывает число погибших в результате войн и террористических атак, а также другие, гораздо более мирные вещи, такие как количество слов в романе или число сексуальных партнеров у человека.
Хотя прилагательные, используемые для описания длинных хвостов, выставляют их в не слишком выгодном свете, «хвостатые» распределения гордо несут свои хвосты. Жирный, тяжелый и длинный? Да, это так. Но в таком случае покажите, какой нормальный?
23. Шансы — это…
Вам когда-нибудь снился страшный сон, будто вам нужно сдать экзамен по предмету, который вы не изучали? Преподавателям обычно снятся «противоположные» сны: что они читают лекцию по дисциплине, о которой ничего не знают.
Такое случается со мной, когда я веду курс теории вероятностей94. Меня никогда ей не учили, и то, что мне приходится читать лекции по этому предмету, — страшно, смешно и очень похоже на дом с привидениями в парке развлечений.
Однако чаще всего мое сердце колотится, когда я сталкиваюсь с темой условной вероятности, то есть вероятности того, что некое событие А произойдет при условии, что произойдет некое событие B. Это скользкое понятие легко спутать с вероятностью наступления B при условии A. Однако это разные вещи, и нужно быть очень внимательным при вычислении их вероятностей. В качестве примера рассмотрим следующую задачу.