Голая статистика. Самая интересная книга о самой скучной науке
Шрифт:
Разница между средним значением этой выборки (194 фунта) и средним значением совокупности (162 фунта) равна 32 фунта, то есть значительно больше трех стандартных ошибок. Из центральной предельной теоремы вам известно, что 99,7 % средних значений всех выборок будут отстоять от среднего значения совокупности на расстоянии, не превышающем трех стандартных ошибок. Таким образом, крайне маловероятно, что встретившийся вам автобус перевозит группу участников исследования Americans’ Changing Lives. Будучи видным общественным активистом города, вы звоните организаторам мероприятия, чтобы сообщить, что в повстречавшемся вам автобусе, скорее всего, находится какая-то другая группа людей. Правда, в этом случае вы можете опираться на статистические результаты, а не свои «интуитивные догадки». Вы сообщаете организаторам, что отрицаете вероятность того, что найденный вами автобус именно тот, который они разыскивают, с 99,7 % доверительным уровнем. А поскольку в данном случае вы разговариваете с людьми, знакомыми со статистикой, то можете не сомневаться, они понимают, что вы правы. (Всегда приятно иметь дело с умными людьми!)
Сделанные вами выводы находят дальнейшее подтверждение, когда врачи скорой помощи берут пробы крови у пассажиров автобуса и обнаруживают, что средний уровень холестерина в их крови превышает средний уровень холестерина в крови участников исследования Americans’ Changing Lives на пять стандартных ошибок. Из этого следует, что впавшие в бессознательное состояние пассажиры – участники Фестиваля любителей сосисок. (Впоследствии это было неопровержимо доказано.)
[У этой истории оказался счастливый конец. Когда к пассажирам автобуса вернулось сознание, организаторы исследования Americans’ Changing Lives посоветовали им проконсультироваться у специалистов-диетологов относительно опасности употребления в пищу продуктов с высоким содержанием насыщенных жиров. После таких консультаций многие из любителей сосисок решили порвать со своим позорным прошлым и вернуться к более здоровому рациону питания. Пострадавшего лося выходили в местной ветеринарной клинике и выпустили на свободу под одобрительные возгласы членов местного Общества защиты животных. Да, история почему-то умалчивает о судьбе водителя автобуса. Возможно, потому, что статистика не занимается судьбами отдельно взятых людей. Лось – совсем другое дело, замолчать его судьбу не удастся! В случае чего за него может вступиться Общество защиты животных.] [42]
42
Мой коллега из Чикагского университета, Джим Сэлли, сделал очень важное критическое замечание по поводу примеров с пропавшим автобусом. Он указал, что пропавший автобус – чрезвычайно большая редкость в наше время. Поэтому если нам придется искать какой-нибудь пропавший автобус, то любой встретившийся нам автобус, который окажется пропавшим или поломавшимся, наверняка будет именно тем автобусом, который нас интересует, каким бы ни был вес пассажиров в этом автобусе. Пожалуй, Джим прав. (Воспользуюсь такой аналогией: если вы потеряли в супермаркете своего ребенка и дирекция этого магазина сообщает по радио, что возле кассы номер шесть стоит чей-то потерявшийся ребенок, то вы наверняка сразу же решите, что речь идет именно о вашем ребенке.) Следовательно, нам не остается ничего другого, как дополнить наши примеры еще одним элементом абсурда, полагая, что пропажа автобуса является вполне рядовым событием.
В этой главе я пытался говорить только об основах. Вы, наверное, обратили внимание, что центральная предельная теорема применима лишь в случаях, когда размер выборки достаточно велик (как правило, не менее 30). Кроме того, нам требуется относительно большая выборка, если мы намерены предположить, что ее среднеквадратическое отклонение будет примерно таким же, как и среднеквадратическое отклонение генеральной совокупности. Существует немало статистических поправок, которые можно применять в случае несоблюдения указанных условий, но все это похоже на сахарную глазурь на торте (и, возможно, даже на шоколадные крошки, которыми присыпают эту глазурь сверху). «Общая картина» здесь проста и чрезвычайно эффективна.
1. Если вы формируете на основе какой-либо совокупности большие (по объему) случайные выборки, то их средние значения будут распределены по нормальному закону вблизи среднего значения соответствующей совокупности (какой бы вид ни имело распределение исходной совокупности).
2. Большинство средних значений выборок будет расположено достаточно близко к среднему значению совокупности (что именно следует в том или ином случае считать «достаточно близким», определяется стандартной ошибкой).
3. Центральная предельная теорема говорит нам о вероятности того, что среднее значение выборки будет находиться не дальше определенного расстояния от среднего значения совокупности. Относительно маловероятно, что среднее значение выборки будет отстоять от среднего значения совокупности дальше, чем на расстояние двух стандартных ошибок, и крайне маловероятно, что среднее значение выборки будет отстоять от среднего значения совокупности дальше, чем на расстояние трех и более стандартных ошибок.
4. Чем меньше вероятность того, что какой-то исход оказался чисто случайным, тем больше мы можем быть уверены в том, что здесь не обошлось без воздействия какого-то другого фактора.
В этом по большому счету и заключается сущность статистического вывода. Центральная предельная теорема главным образом делает все это возможным. И до тех пор, пока Леброн Джеймс не станет столько раз чемпионом НБА, сколько Майкл Джордан (шесть), центральная предельная теорема будет производить на нас гораздо большее впечатление, чем знаменитый баскетболист.
9. Статистические выводы
Почему моему преподавателю статистики казалось, что я пытаюсь его обмануть
Весной, будучи уже в старших классах колледжа, я решил прослушать курс лекций по статистике. Вообще говоря, в то время я не испытывал особой любви ни к ней, ни к любым другим наукам, базирующимся на математике, но пообещал отцу, что прослушаю этот курс лекций с условием, что мне разрешат на десять дней поехать в СССР. Короче говоря, это был взаимовыгодный обмен, причем, как оказалось, статистика увлекла меня гораздо больше, чем я предполагал, к тому же мне удалось побывать в СССР весной 1988 года. Кто же тогда знал, что эта страна буквально через несколько лет расстанется со своим коммунистическим прошлым!
В действительности эта история имеет непосредственное отношение к материалу данной главы: дело в том, что в то время я не уделял изучению статистики должного внимания. Помимо всего прочего, я писал тогда дипломную работу, и до ее сдачи у меня оставалось не так уж много времени. По мере прохождения курса статистики мы периодически сдавали промежуточные экзамены, многие из которых я либо проваливал, либо попросту игнорировал. К середине семестра багаж знаний, полученных мною по данной дисциплине, был настолько скудным, что я мог рассчитывать исключительно на чудо. Но буквально за несколько недель до окончания семестра произошли два важных события. Во-первых, я дописал дипломную работу, в результате чего у меня появилось довольно много свободного времени. И во-вторых, осознал, что статистика не такая уж сложная наука, как мне казалось до этого. Я начал усиленно штудировать учебники по статистике, наверстывая упущенный материал. Итоговый экзамен по статистике я сдал на отлично.
Именно тогда преподаватель статистики (к сожалению, я забыл его имя) вызвал меня к себе в кабинет. Не помню точно, что он мне сказал, но это было нечто вроде: «Вы добились потрясающих успехов по сравнению с серединой семестра». Однако его слова звучали отнюдь не как похвала моим достижениям. Напротив, в них мне послышалось скрытое обвинение в том, что во время сдачи экзамена я пользовался шпаргалками. Учитель не мог поверить в то, что студент, так «мелко плававший» на промежуточных экзаменах, способен на столь мощный рывок к концу семестра. Тогда мне было очень обидно, что меня подозревают в обмане, но со временем я понял этого человека и нисколько не осуждаю. Практически по всем предметам, изучаемым в колледже, наблюдается высокая степень корреляции между результатами, которые студенты демонстрируют на промежуточных и итоговых экзаменах. Очень маловероятно, что студент, получивший на промежуточных экзаменах оценку ниже средней, покажет блестящий результат во время сдачи итоговых экзаменов.
Я объяснил преподавателю, что, завершив написание дипломной работы, решил со всей серьезностью отнестись к изучению курса статистики (для этого мне понадобилось всего лишь читать рекомендованные им главы учебника и своевременно выполнять домашние задания). Мне показалось, что я его убедил, хотя его подозрение в том, что во время экзамена я пользовался шпаргалками (пусть даже не высказанное вслух), по-прежнему не давало мне покоя.
Хотите верьте, хотите нет, но этот случай воплощает в себе многое из того, что вам нужно знать о статистическом выводе, в том числе о его достоинствах и потенциальных недостатках. Статистика не может ничего утверждать с определенностью. Напротив, сила статистического вывода проистекает из наблюдения некой картины или исхода и последующего использования теории вероятностей для получения его (ее) самого вероятного объяснения. Допустим, в ваш город прибыл большой любитель азартных игр и предлагает вам пари: он выигрывает 1000 долларов, если в результате подбрасывания игральной кости выпадет шестерка; вы выигрываете 500 долларов, если выпадет любое другое число, – очень выгодный, на ваш взгляд, вариант. Затем в результате десяти подбрасываний игральной кости у него десять раз подряд выпадает шестерка. Вам не остается ничего другого, как уплатить 10 000 долларов.
Одно возможное объяснение этого феномена – необычайное везение вашего визави. Альтернативное объяснение – обман с его стороны. Вероятность того, что в ходе десяти подбрасываний «правильной» игральной кости десять раз подряд выпадет шестерка, равняется примерно 1 шансу из 60 миллионов. Вы не можете доказать, что ваш партнер смошенничал, но вы должны по крайней мере проверить, все ли в порядке с игральной костью.
Разумеется, самое вероятное (правдоподобное) объяснение не всегда окажется правильным. Порой действительно случается то, что не должно было бы случиться. В Линду Купер из штата Южная Каролина четыре раза попадала молния {58} . (По оценкам Федеральной службы чрезвычайных ситуаций, вероятность однократного попадания молнии в человека составляет 1 шанс из 600 000.) Страховая компания Линды Купер не может отказать ей в выплате компенсации лишь на основании того, что полученные ею травмы в результате попаданий молнии статистически невероятны. Что касается моего выпускного экзамена по статистике, то у преподавателя были причины подозревать меня в мошенничестве, поскольку он увидел крайне маловероятную картину (именно так следователи выявляют манипуляции с результатами стандартизованных тестов, а Комиссия по ценным бумагам и биржам – инсайдерские торговые операции с ценными бумагами). Но маловероятная картина остается просто маловероятной картиной, если наши подозрения не подтверждаются какими-либо дополнительными свидетельствами. Ниже мы обсудим ошибки, которые могут возникнуть в случаях, когда вероятность направляет нас по ложному пути.
58
John Friedman, Out of the Blue: A History of Lightning: Science, Superstition, and Amazing Stories of Survival (New York: Delacorte Press, 2008).