Голая статистика. Самая интересная книга о самой скучной науке
Шрифт:
Это первый намек на вероятность существования какой-то анатомической особенности в головном мозге детей, страдающих аутизмом. Однако это всего лишь подсказка. Ведь сделанные заключения основываются на данных, описывающих небольшое число детей (менее 100 человек). Нельзя исключать вариант, что мы имеем дело с какими-то аномальными выборками.
Одна финальная статистическая процедура способна внести ясность в ситуацию. Если бы статистика была одним из олимпийских видов спорта, например фигурным катанием, то это было бы последним видом программы выступлений, после которой преданные болельщики бросают на лед букеты цветов. Мы можем точно вычислить вероятность наблюдения по меньшей мере столь же значительной разницы средних значений (1310,4 кубических сантиметра в сравнении с 1238,8 кубическими сантиметрами), если действительно между объемом головного мозга детей-аутистов и всех остальных детей в общей совокупности никакого отличия нет. Мы можем найти p-значение для наблюдаемой разницы в средних значениях.
Чтобы вы прямо сейчас не зашвырнули эту книгу в самый дальний угол комнаты, соответствующая формула будет приведена в приложении. Впрочем, на интуитивном уровне все должно быть достаточно понятно. Если мы извлекаем две большие выборки из одной и той же совокупности, то можно ожидать, что их средние значения будут очень близки между собой. Более того, в идеале они должны быть одинаковы. Если бы, например, средний рост выбранных мною 100 баскетболистов из НБА составлял 6 футов и 7 дюймов, то я был бы вправе ожидать, что в какой-нибудь другой случайной выборке 100 баскетболистов из НБА средний рост игроков будет близок к 6 футам и 7 дюймам. Ладно, возможно, средний рост игроков в этих двух выборках будет отличаться на один-два дюйма. Однако вероятность того, что он будет разниться на 4 дюйма, окажется низкой, а того, что на 6 или 8 дюймов, будет еще ниже. Мы можем вычислить стандартную ошибку для разности между средними значениями двух выборок, которая может служить мерой ожидаемого разброса (но в среднем) при вычитании среднего значения одной выборки из среднего значения другой. (Как указывалось ранее, соответствующая формула приводится в приложении к этой главе.) Важно то, что мы можем использовать эту стандартную ошибку для определения вероятности того, что две выборки сформированы из одной и той же совокупности. Принцип действия этого механизма таков.
1. Если две выборки сформированы из одной и той же совокупности, мы имеем все основания предполагать, что разница между их средними значениями равна нулю.
2. Согласно центральной предельной теореме, в повторных выборках разница между этими двумя средними значениями будет распределена примерно по нормальному закону. (Итак, вы уже влюбились в центральную предельную теорему или еще нет?)
3. Если обе выборки действительно сформированы из одной и той же совокупности, то приблизительно в 68 случаях из 100 разница между их средними значениями будет отличаться от нуля не более чем на одну стандартную ошибку, в 95 случаях из 100 – не более чем на две стандартные ошибки, а примерно в 99,7 случая из 100 – не более чем на три стандартные ошибки. Так вот что побудило исследователей сделать вывод, о котором мы узнали из статьи об аутизме, опубликованной в The Wall Street Journal.
Как указывалось ранее, разница в среднем объеме головного мозга между выборкой детей-аутистов и контрольной группой составляет 71,6 кубических сантиметра. Стандартная ошибка для этой разницы – 22,7. Это означает, что разница между средними значениями двух выборок больше нуля на три стандартные ошибки. Можно ожидать, что столь (или еще более) экстремальный исход окажется возможным лишь в 2 случаях из 1000, если эти выборки сформированы из одной и той же совокупности.
Как отмечалось выше, авторы статьи, опубликованной в Archives of General Psychiatry, сообщают о p– значении, равном 0,002. Теперь вы понимаете, откуда взялась эта величина.
Несмотря на все достоинства статистического вывода, он не лишен недостатков. И они становятся очевидны из примера, приведенного в начале главы. Если вы помните, в нем речь шла о моем преподавателе статистики, заподозрившем меня в обмане. Процесс статистического вывода основывается на понятии вероятности, а вовсе не на абсолютной и не вызывающей ни малейшего сомнения достоверности. Таким образом, когда речь идет о проверке той или иной гипотезы, мы имеем дело с фундаментальной дилеммой.
Эта статистическая реальность заявила о себе во весь голос в 2011 году, когда Journal of Personality and Social Psychology готовился опубликовать одну научную статью, которая на первый взгляд ничем особенным не выделялась {63} . Некий профессор Корнелльского университета предложил нулевую гипотезу, а затем, на основе полученных им экспериментальных результатов, отверг ее с уровнем значимости 0,05. Этот результат произвел настоящий фурор в научных кругах, а также широко освещался в ведущих средствах массовой информации, таких как The New York Times.
63
Benedict Carey, Top Journal Plans to Publish a Paper on ESP, and Psychologists Sense Outrage, New York Times, January 6, 2011.
Достаточно сказать, что статьи в Journal of Personality and Social Psychology обычно не привлекают к себе внимания СМИ. Что же вызвало на сей раз столь повышенный интерес прессы? Упомянутый мной исследователь проверял способность человека к экстрасенсорному восприятию (Extra Sensory Perception – ESP). Основная гипотеза ученого отрицала существование ESP; альтернативная подтверждала. Чтобы изучить вопрос, исследователь предложил большой выборке людей, которых он пригласил поучаствовать в эксперименте, рассмотреть два «занавеса», представленных на экране монитора. Компьютерная программа случайным образом помещала некое эротическое изображение то за одним, то за другим «занавесом». В ходе повторяющихся попыток испытуемым удалось правильно выбрать «занавес», за которым скрывалось эротическое изображение, в 53 случаях из 100, тогда как, согласно теории вероятностей, это должно происходить лишь в 50 случаях из 100. Достаточно большой размер выборки позволил ученому отклонить нулевую гипотезу и принять альтернативную. Решение опубликовать статью об этом эксперименте подверглось широкой критике на том основании, что какое-то одно статистически значимое событие вполне может оказаться следствием чистой случайности, особенно при отсутствии каких-либо других свидетельств, подтверждающих или даже объясняющих полученный результат. Статья в The New York Times так резюмировала критические высказывания: «Утверждения, которые бросают вызов практически всем законам науки, по определению являются экстраординарными и, как правило, требуют экстраординарных, неопровержимых доказательств. Нежелание учитывать это обстоятельство – как того требует общепринятый научный метод – делает результаты многих исследований гораздо значимее, чем они есть на самом деле».
Одним из достойных ответов на подобную критику был бы выбор более жесткого порога для определения статистической значимости, например 0,001 [49] . Однако это порождает собственные проблемы. Выбор надлежащего уровня значимости в любом случае предполагает определенный компромисс.
Если наше «бремя доказательства», которое позволило бы отвергнуть основную гипотезу, будет чересчур низким (например 0,1), то нам придется периодически отклонять нулевую гипотезу, хотя на самом деле она верна (я подозреваю, что именно так и произошло при исследовании ESP). На языке статистики это называется ошибкой первого рода. Рассмотрим пример из судебной практики в США, где нулевая гипотеза заключается в том, что подсудимый (ответчик) невиновен, а порогом, когда она отвергается, является «критерий доказанности при отсутствии обоснованного сомнения» (то есть подсудимый признается виновным при отсутствии обоснованного сомнения в его невиновности). Допустим, мы решили ослабить этот порог, обозначив его, например, как «сильное подозрение, что подсудимый все же совершил данное преступление». Это должно гарантировать, что за решеткой окажется большее число настоящих преступников – а вместе с ними и большее число ни в чем не повинных людей. В статистическом контексте это эквивалентно использованию относительно низкого уровня значимости (например 0,1).
49
Еще одним ответом могла бы стать попытка повторить полученные результаты в дополнительных исследованиях.
Ладно, «в 1 случае из 10» – не такое уж маловероятное событие. Рассмотрим эту проблему в контексте утверждения нового лекарства от рака. На каждые десять препаратов, которые мы одобряем с этим относительно низким «бременем статистического доказательства», один на практике оказывается неэффективным, а в процессе тестирования показывает обнадеживающие результаты лишь по чистой случайности. (Или, если воспользоваться примером из судебной практики, из каждых десяти подсудимых, признанных виновными, один фактически невиновен.) Ошибка первого рода заключается в ошибочном отказе от основной гипотезы. Иногда это называют «ложным позитивом», хотя употребление такого термина кажется несколько парадоксальным. Вот один способ примириться с подобным жаргоном. Когда вы приходите к врачу, чтобы выяснить, не страдаете ли вы некой болезнью, основная гипотеза заключается в том, что вы ею не страдаете. Если результаты анализов позволяют отвергнуть нулевую гипотезу, то врач говорит, что у вас положительный результат анализов. А если у вас положительный результат анализов, хотя в действительности вы не больны, то это и есть случай «ложного позитива».
Как бы то ни было, чем ниже «статистическое бремя» для отклонения нулевой гипотезы, тем выше вероятность «ложного позитива». Очевидно, что мы предпочли бы не утверждать неэффективные лекарства от рака и не отправлять невинных людей за решетку.
Но здесь есть один нюанс. Чем выше порог для отказа от нулевой гипотезы, тем вероятнее, что нам не удастся отвергнуть ту нулевую гипотезу, которую на самом деле следовало было бы отвергнуть. Если бы нам потребовалось не менее пяти свидетелей, чтобы признать виновным каждого обвиняемого, то на свободе оказалось бы немалое число настоящих преступников. (Разумеется, при этом за решетку не угодили бы многие невиновные люди.) Если при клинических испытаниях всех новых лекарств от рака мы примем уровень значимости 0,001, то мы действительно минимизируем утверждение неэффективных препаратов. (В этом случае будет лишь 1 шанс из 1000 ошибочно отвергнуть нулевую гипотезу, которая заключается в том, что испытываемое лекарство эффективно не более чем плацебо.) Однако при этом возникает риск не допустить на рынок много эффективных лекарств, поскольку мы установили очень высокую планку для их утверждения. На языке статистики это называется ошибкой второго рода, или «ложным негативом» [50] .
50
Ошибка второго рода – это вероятность принятия нулевой гипотезы тогда, когда она неверна. Прим. ред.
Какая же из двух ошибок хуже? Это зависит от конкретных обстоятельств. Самое важное – что вы признаете необходимость компромисса. В статистике «бесплатный завтрак» невозможен. Рассмотрим перечисленные ниже нестатистические ситуации, каждая из которых предполагает достижение определенного компромисса между ошибками первого и второго рода.
1. Спам-фильтры. Основная гипотеза: любое конкретное сообщение, приходящее по электронной почте, не спам. Ваш спам-фильтр отыскивает признаки, которые могут использоваться для отказа от нулевой гипотезы для того или иного конкретного сообщения, например огромные списки рассылки или наличие фраз типа «удлинение пениса». Ошибка первого рода предполагает отбраковку сообщения, которое на самом деле не является спамом («ложный позитив»). Ошибка второго рода предполагает пропуск спама через фильтр и его попадание в ваш почтовый ящик («ложный негатив»). Сравнивая последствия от потери важного сообщения и незначительное раздражение, вызванное получением совершенно не интересующего вас письма, содержащего, скажем, рекламу БАДов, большинство людей, скорее всего, предпочтут терпеть неудобства, обусловленные ошибками второго рода. Оптимально разработанный спам-фильтр должен требовать относительно высокой степени определенности, прежде чем отвергнуть нулевую гипотезу и заблокировать соответствующее сообщение.