Голая статистика. Самая интересная книга о самой скучной науке
Шрифт:
Однако должен предупредить, что при использовании небольшой выборки данных – например группы из 20 взрослых американцев вместо группы из более чем 3000 участников исследования Americans’ Changing Lives – нормальное распределение на помощь нам уже не придет. В частности, если мы будем то и дело выполнять регрессионный анализ в отношении разных малых выборок, то уже не сможем исходить из того, что полученные нами разные коэффициенты регрессии будут распределены по нормальному закону вблизи «истинной» зависимости между ростом и весом в совокупности взрослых американцев. Вместо этого они будут распределены вблизи «истинной» зависимости между ростом и весом в совокупности взрослых американцев по закону, известному как t-распределение, или распределение Стьюдента. (Вообще говоря, t-распределение характеризуется большей степенью разброса, чем нормальное распределение, и, следовательно, имеет «более толстые хвосты».) Все прочее остается неизменным; любые базовые статистические пакеты программного обеспечения без проблем справятся с дополнительной сложностью, связанной с использованием t-распределений. Поэтому более подробное объяснение t-распределения приведено в приложении к этой главе.
Пока же будем исходить из того, что имеем дело с большими выборками (и с нормальным распределением). Самое главное сейчас – понять, почему для нас так важна стандартная ошибка. Как и в случае с опросами общественного мнения и другими формами статистического вывода, мы ожидаем, что более половины наблюдаемых коэффициентов регрессии будут отстоять от истинного параметра [58] совокупности на расстояние, не превышающее одной стандартной ошибки. Примерно 95 % коэффициентов регрессии будут отстоять от истинного параметра совокупности на расстояние, не превышающее двух стандартных ошибок. И так далее. Учитывая сказанное, можно считать, что мы почти у цели, так как теперь можем выполнить небольшую проверку гипотез. (А вы и в самом деле полагали, что с проверкой гипотез покончено?) Поскольку у нас уже есть коэффициент и стандартная ошибка, мы можем проверить основную гипотезу, которая заключается в том, что между объясняющей и зависимой переменной на самом деле никакой зависимости нет (а это, в свою очередь, означает, что истинная зависимость между ними в данной совокупности равна нулю).
58
«Параметр» – это термин, обозначающий любую статистику, которая описывает ту или иную характеристику какой-либо совокупности; средний вес для всех взрослых мужчин – параметр соответствующей совокупности. То же можно сказать о среднеквадратическом отклонении. В приведенном примере истинная связь между ростом и весом для данной совокупности является параметром этой совокупности.
В нашем простом примере с ростом и весом мы можем проверить, какова вероятность обнаружить, что в выборке Americans’ Changing Lives каждый дополнительный дюйм роста ассоциируется с 4,5 дополнительных фунта веса, если на самом деле во всей совокупности зависимость между ростом и весом отсутствует. Я вычислил соответствующую регрессию, воспользовавшись одним из распространенных статистических пакетов; стандартная ошибка по коэффициенту роста составила 0,13. Это означает, что в случае многократного выполнения такого анализа (скажем, с сотней разных выборок) можно было бы ожидать, что наш наблюдаемый коэффициент регрессии будет отстоять от истинного параметра совокупности на расстояние, не превышающее двух стандартных ошибок, примерно в 95 случаях из 100.
Следовательно, это позволяет нам выразить полученные результаты двумя разными, но взаимосвязанными между собой способами. Первый – это построить 95 %-ный доверительный интервал. Мы можем утверждать, что в 95 случаях из 100 доверительный интервал (который составляет 4,5 ± 0,26) будет включать истинный параметр совокупности. Это диапазон от 4,24 до 4,76. Любой из статистических пакетов также вычислит этот интервал. Второй – отвергнуть основную гипотезу об отсутствии зависимости между ростом и весом для совокупности в целом на 95 %-ном доверительном уровне, видя, что наш 95 %-ный доверительный интервал для истинной зависимости между ростом и весом не включает нуль. Этот результат можно также выразить как статистически значимый на уровне 0,05: существует лишь 5 %-ная вероятность того, что мы ошибочно отвергли основную гипотезу.
На самом деле наши результаты еще более убедительны, чем кажется на первый взгляд. Стандартная ошибка (0,13) очень мала по сравнению с величиной коэффициента (4,5). Практика показывает, что этот коэффициент можно считать статистически значимым, когда его величина по меньшей мере в два раза превышает величину стандартной ошибки [59] . Любой из базовых статистических пакетов также вычисляет p-значение, которое в данном случае равняется 0,000; это означает, что если в действительности зависимости между ростом и весом в совокупности в целом нет, то вероятность получить столь необычный результат, какой нам удалось наблюдать, по сути, равна нулю. Не забывайте, что мы вовсе не доказали, что более рослые люди весят больше во всей совокупности, а лишь показали, что если бы это было не так, то наши результаты для выборки Americans’ Changing Lives были бы крайне маловероятными.
59
Когда нулевая гипотеза заключается в том, что коэффициент регрессии равняется нулю (а это имеет место в большинстве случаев), отношение наблюдаемого коэффициента регрессии к стандартной ошибке называется t-статистикой. Это также объясняется в приложении к данной главе.
Базовый регрессионный анализ дает еще одну статистику, заслуживающую внимания, R^2, которая предсталяет собой показатель суммарной величины разброса, объясняемого уравнением регрессии [60] . Нам известно, что в выборке Americans’ Changing Lives наблюдается широкий разброс веса. Многие члены выборки весят больше среднего веса для данной группы в целом; многие – меньше. Величина R^2 говорит нам, какая доля этого разброса вокруг среднего значения ассоциируется лишь с различиями в росте. В нашем случае эта доля составляет 0,25, или 25 %. Более значимым может быть то обстоятельство, что 75 % этого разброса в весе для нашей выборки остаются необъясненными. Есть очевидные факторы, помимо роста, которые могут нам помочь их объяснить. Ситуация становится интереснее.
60
В статистике этот показатель называется коэффициентом детерминации. Прим. ред.
В начале этой главы я объявил регрессионный анализ чудодейственным эликсиром для социальных исследований. До сих пор я использовал некий базовый статистический пакет и впечатляющие данные, чтобы продемонстрировать тот факт, что рослые люди, как правило, весят больше коротышек. Краткая прогулка по какому-нибудь супермаркету наверняка убедила бы вас в том же. Теперь пора оценить реальные возможности регрессионного анализа. Иными словами, пора пересаживаться с детского трехколесного велосипеда на велосипед для взрослых!
Как я уже говорил, регрессионный анализ позволяет распутывать сложные взаимосвязи, в которых многие факторы оказывают влияние на интересующий нас исход, например доход, или результаты экзамена, или развитие сердечно-сосудистых заболеваний. Когда мы включаем в уравнение регрессии несколько переменных, анализ дает оценку линейной зависимости между каждой объясняющей и зависимой переменной, оставляя при этом неизменными другие зависимые переменные (то есть «контролируя» их). Давайте на какое-то время сосредоточимся на весе. Мы выявили зависимость между ростом и весом, а также знаем о существовании других факторов (возраст, пол, режим питания, занятия спортом и т. п.), которые могут помочь объяснить вес. Посредством регрессионного анализа (часто называемого множественным регрессионным анализом, если в нем задействовано несколько объясняющих переменных, или многофакторным регрессионным анализом) можно вычислить некий коэффициент регрессии для каждой объясняющей переменной, задействованной в уравнении регрессии. Скажем, какова зависимость между возрастом и весом среди людей одного и того же пола и роста. Когда нам приходится иметь дело с несколькими объясняющими переменными, соответствующие данные уже невозможно отобразить на двумерной диаграмме. (Попытайтесь представить себе диаграмму, которая отображает вес, пол, рост и возраст каждого участника исследования Americans’ Changing Lives.) Тем не менее базовая методология остается той же, что и в примере с ростом и весом. При добавлении объясняющих переменных статистический пакет будет вычислять коэффициенты регрессии, которые минимизируют общую сумму квадратов разностей для соответствующего уравнения регрессии.
Пока ограничимся данными исследования Americans’ Changing Lives, а затем я вернусь и предложу интуитивно понятное объяснение того, как действует этот механизм. Мы можем начать с добавления в уравнение регрессии еще одной переменной, которая объясняет вес участников Americans’ Changing Lives, – «возраст». Когда мы вычислим уравнение регрессии, включающее рост и возраст в качестве объясняющих переменных, то получим вот что:
Вес = -145 + 4,6 x (Рост в дюймах) + 0,1 x (Возраст в годах)
Коэффициент возраста равняется 0,1. Это можно интерпретировать так: каждый дополнительный год к возрасту человека ассоциируется с 0,1 дополнительных фунта к весу человека при неизменном росте. Для любой группы людей одного и того же роста те, кто на десять лет старше, весят в среднем на один фунт больше. Как видим, влияние возраста на вес человека не так уж велико, но это соответствует тому, что мы обычно наблюдаем в реальной жизни. Данный коэффициент является значимым на уровне 0,05.
Возможно, вы заметили, что коэффициент для роста несколько увеличился. После того как мы включили в нашу регрессию возраст, у нас появилось уточненное понимание зависимости между ростом и весом. Среди людей одного возраста в выборке (иными словами, при фиксированном возрасте) каждый дополнительный дюйм роста ассоциируется с дополнительными 4,6 фунта веса.
Теперь давайте добавим еще одну переменную – пол. Тут есть один нюанс: пол может принимать лишь два значения (мужской и женский). Как вставить эти «М» и «Ж» в регрессию? Благодаря использованию так называемой двоичной, или фиктивной переменной. Вводим в нашей совокупности данных 1 для участников-женщин и 0 – для участников-мужчин. (Дорогие мужчины, пожалуйста, не обижайтесь!) При этом коэффициент пола можно интерпретировать как влияние на вес того обстоятельства, что данный участник является женщиной – при прочих равных условиях (ceteris paribus). Этот коэффициент составляет –4,8, что не должно вызывать у вас удивления. Это можно истолковать так: когда речь идет об участниках одного и того же роста и возраста, женщины обычно весят на 4,8 фунта меньше мужчин. Теперь вам уже должны быть в какой-то мере ясны богатые возможности множественного регрессионного анализа. Нам известно, что женщины обычно ниже мужчин, и наш коэффициент учитывает это обстоятельство, поскольку мы уже контролируем рост (мы его «зафиксировали»). В данном случае мы рассматриваем влияние пола – точнее говоря, женского пола. Новая регрессия принимает следующий вид: