Удовольствие от X.Увлекательная экскурсия в мир математики от одного из лучших преподавателей в мир
Шрифт:
Степенные распределения [121] имеют некоторые нелогичные, с точки зрения традиционной статистики, свойства. Например, в отличие от нормального распределения, их моды, медианы и средние значения не совпадают из-за скошенной асимметричной формы L-образных кривых. Президент Буш извлек из этого немалую пользу, заявив в 2003 году, что сокращение налогов позволило каждой семье сэкономить в среднем 1586 долларов [122] . Хотя математически это верно, здесь он к своей выгоде взял за основу среднее значение вычета, под которым скрывались огромные вычеты в сотни тысяч долларов, полученные 0,1 % богатейшего населения страны. Известно, что «хвост» в правой части распределения дохода следует степенной зависимости, и в подобной ситуации использование средней величины вводит в заблуждение, поскольку она далека от своего реального значения. В действительности большинству семей вернули менее 650 долларов. В данном распределении медиана значительно меньше, чем среднее значение.
121
Введение в эту тему великолепно изложено в статье Марка Ньюмана M. Newman, Power laws, Pareto distributions and Zipf’s law, Contemporary Physics, Vol. 46, № 5 (2005), pp. 323–351. В ней приводятся графики частотности слов в романе Германа Мелвилла «Моби Дик», магнитуды землетрясений в Калифорнии в период с 1910 по 1992 год, размеры собственного имущества 400 богатейших людей США в 2003 году, а также множество других распределений «с тяжелым хвостом», упомянутых в этой главе. Более раннее, но заслуживающее внимания исследование степенной зависимости см. M. Schroder, Fractals, Chaos, Power Laws (W. H. Freeman, 1991).
122
Пример взят из работы C. Seife, Proofiness (Viking, 2010). Приведенные в тексте цифры основаны на анализе, проведенном группой FactCheck.org (независимый проект Центра государственной политики Анненберг Университета Пенсильвании), доступен наЭтот анализ опубликован независимым Центром налоговой политики W. G. Gale, P. Orszag and I. Shapiro, Distributional effects of the 2001 and 2003 tax cuts and their financing, http://www.taxpolicycenter.org/publications/url.cfm?ID=411018.
Этот пример демонстрирует важнейшее свойство распределений степенной зависимости: они имеют «тяжелые хвосты» по сравнению по крайней мере с маленькими «жидкими хвостиками» нормального распределения. Подобные большие хвосты хотя и редкость, но встречаются чаще в распределениях данных, чем обычные колоколообразные кривые.
В «черный понедельник», 19 октября 1987 года, промышленный индекс Доу-Джонса упал на 22 %. По сравнению с обычным уровнем нестабильности на фондовом рынке это падение составило более двадцати стандартных отклонений. Согласно традиционной статистике (в которой используется нормальное распределение), подобное событие практически невозможно: его вероятность составляет менее чем один случай на 100 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 (10 в 50 степени). Однако это произошло — поскольку колебания цен на фондовом рынке [123] не соответствовали нормальному распределению. Для их описания лучше подходят распределения с «тяжелым хвостом».
123
См. B. Mandelbrot and R. L. Hudson, The (Mis)Behavior of Markets (Basic Books, 2004) и N. N. Taleb, The Black Swan (Random House, 2007).
Подобное происходит с землетрясениями, пожарами и наводнениями, что усложняет страховым компаниям задачу управления рисками. Такая же математическая модель описывает число погибших в результате войн и террористических атак, а также другие, гораздо более мирные вещи, такие как количество слов в романе или число сексуальных партнеров у человека.
Хотя прилагательные, используемые для описания длинных хвостов, выставляют их в не слишком выгодном свете, «хвостатые» распределения гордо несут свои хвосты. Жирный, тяжелый и длинный? Да, это так. Но в таком случае покажите, какой нормальный?
23. Шансы — это…
Вам когда-нибудь снился страшный сон, будто вам нужно сдать экзамен по предмету, который вы не изучали? Преподавателям обычно снятся «противоположные» сны: что они читают лекцию по дисциплине, о которой ничего не знают.
Такое случается со мной, когда я веду курс теории вероятностей [124] . Меня никогда ей не учили, и то, что мне приходится читать лекции по этому предмету, — страшно, смешно и очень похоже на дом с привидениями в парке развлечений.
124
Условные вероятности и теорема Байеса подробно рассмотрены в учебнике S. M. Ross, Introduction to Probability and Statistics for Engineers and Scientists, 4th edition (Academic Press, 2009). О Байесе и полемике вокруг его подхода к вероятностным выводам см. S. B. McGrayne, The Theory That Would Not Die (Yale University Press, 2011).
Прим. ред.: На русском языке: Гмурман В. Е. Теория вероятностей и математическая статистика. М.: Высшее образование, 2005. Ширяев А.Н. Вероятность. М.: Наука, 1989.
Однако чаще всего мое сердце колотится, когда я сталкиваюсь с темой условной вероятности, то есть вероятности того, что некое событие А произойдет при условии, что произойдет некое событие B. Это скользкое понятие легко спутать с вероятностью наступления B при условии A. Однако это разные вещи, и нужно быть очень внимательным при вычислении их вероятностей. В качестве примера рассмотрим следующую задачу.
Прежде чем отправиться на недельный отдых, вы просите приятеля поливать ваши комнатные цветы, которые и так еле живы. Если их не поливать, то вероятность того, что они погибнут, составит 90 %. Если поливать регулярно, то вероятность их гибели будет равна 20 %. Вероятность того, что ваш друг забудет их полить, составляет 30 %. Вопрос А: какова вероятность того, что ваши растения не погибнут за эту неделю? Вопрос В: если по возвращении вы обнаружите, что они засохли, какова вероятность того, что ваш друг забыл их полить? Вопрос С: если ваш друг забыл их полить, какова вероятность того, что они погибнут к вашему возвращению? Хотя вопросы В и С звучат похоже, они разные. В действительности в условии задачи уже содержится ответ на вопрос С — 90 %. Однако как учесть все вероятности, чтобы получить ответы на вопросы В и А? [125]
125
Ответ на вопрос А: 59 %. Ответ на вопрос В: 27/41, или приблизительно 65,85 %. Чтобы прийти к таким результатам, возьмите 100 растений и подсчитайте на основе данных задачи, сколько из них (в среднем) были или не были политы и сколько погибнут или уцелеют.
Естественно, на протяжении нескольких первых семестров преподавания этой темы я засел за книги и стал делать медленные, но верные успехи. И постепенно начал кое-что замечать. Многие мои студенты не использовали теорему Байеса, которой я их обучал, а решали задачу равноценным способом, казавшимся им более простым.
Открытия, год за годом совершаемые изобретательными студентами, стали для меня лучшим способом размышления над условными вероятностями. В предложенных способах решения студенты прибегали к помощи интуиции, вместо того чтобы отвергать ее. Трюк состоял в том, чтобы мыслить натуральными числами, а не абстрактными категориями, такими как процентное соотношение, шансы или вероятности. Как только вы перестроите свое сознание, туман рассеется.
Это главная идея захватывающей книги Calculated Risks («Просчитанные риски») Герда Гигеренцера, когнитивного психолога из Института человеческого развития Макса Планка в Берлине. В ряде исследований, посвященных медицинским и правовым проблемам, от консультаций больных СПИДом до анализа ДНК по отпечаткам пальцев, Гигеренцер изучает заблуждения при подсчетах рисков и неопределенности. Однако вместо того чтобы брюзжать и оплакивать человеческую слабость, он демонстрирует, как избежать заблуждений, переводя задачи условной вероятности на язык натуральных чисел, подобно тому как это делали мои студенты.
В одном из исследований Гигеренцер и его коллеги проводили опрос врачей в Германии и США, в ходе которого просили оценить вероятность того, что женщина с положительной маммографией больна раком груди, даже если она входит в группу с низким уровнем риска, то есть ее возраст от 40 до 50 лет, отсутствуют симптомы и наследственная предрасположенность [126] . Чтобы конкретизировать вопрос, врачей также просили привести следующую статистику в процентах и степени вероятности: данные о распространенности рака груди среди женщин этой категории, а также о чувствительности маммографии и вероятности ложноположительных результатов.
126
Анализ результатов маммографии описан в главе 4 книги G. Gigerenzer, Calculated Risks (Simon and Schuster, 2002).
Вероятность того, что у одной из этих женщин рак груди, составляет 0,8 %. Если же женщина действительно больна, то вероятность того, что ее маммография будет положительной, равна 90 %. Тем не менее, если женщина здорова, вероятность того, что ее маммография окажется положительной, составляет 7 %. Допустим, у женщины положительная маммография. Какова вероятность того, что она действительно больна раком груди?
Гигеренцер описывает реакцию первого опрошенного им врача, заведующего отделением университетского госпиталя, имеющего более тридцати лет профессионального опыта.
Было очевидно, что он очень нервничал, пытаясь проанализировать все цифры. И в конечном итоге пришел к выводу, что вероятность того, что у женщины рак груди, при условии положительной маммографии, составляет 90 %. Он нервно добавил: «Боже, полный абсурд. Я не могу с этим согласиться. Попробуйте задать вопрос моей дочери, она учится на врача». Он знал, что его оценка ошибочна, однако не знал, как это аргументировать. Потратив 10 минут на обдумывание ответа, он не смог просчитать, какое заключение сделать из имеющихся вероятностей.
Гигеренцер задал тот же вопрос двадцати четырем немецким врачам; их оценки варьировались от 1 до 90 %. Восемь посчитали, что вероятность составляет 10 и менее процентов, еще восемь назвали результат 90 %, а предположения еще восьмерых колебались в пределах 50–80 %. Представьте, каково было бы пациентке слышать столь противоречивые мнения.
Что касается американских врачей, девяносто пять из ста решили, что вероятность того, что женщина больна, равна примерно 75 %.
Правильный ответ: 9 %.