Голая статистика. Самая интересная книга о самой скучной науке
Шрифт:
Если бы вас попросили описать получившуюся картину, вы бы наверняка сказали что-то вроде: «Вес, по-видимому, увеличивается пропорционально росту». Такую догадку вряд ли можно назвать озарением. Регрессионный анализ позволяет нам пойти дальше и «провести линию», которая точнее всего отражает линейную зависимость между этими двумя переменными.
Можно провести множество линий, которые будут отражать соотношение между ростом и весом. Но как знать, какая из них это делает точнее всего? К тому же посредством какого критерия мы определяем эту линию? Регрессионный анализ обычно использует методологию под названием стандартный метод наименьших квадратов, МНК. Если читателя интересуют его технические подробности и он хочет узнать, почему МНК обеспечивает «наилучшее приближение», ему придется обратиться к более солидным учебникам по статистике. Ключевыми словами в названии МНК являются «наименьшие квадраты»: МНК определяет линию, минимизирующую сумму квадратов разностей. Это не настолько сложно, как может показаться на первый взгляд. Каждое наблюдение в нашей совокупности данных «рост/вес» характеризуется разностью, которая представляет собой его расстояние по вертикали от линии регрессии; это не относится к наблюдениям, расположенным непосредственно на линии: для них разность равняется нулю. (На представленной ниже диаграмме разброса разность отмечена для некоего гипотетического лица A.) На интуитивном уровне должно быть понятно, что чем больше сумма разностей в целом, тем худшее приближение обеспечивает данная линия. Единственное, что может быть непонятно в МНК на интуитивном уровне, это то, что в соответствующей формуле суммируются квадраты каждой разности (тем самым увеличивается весовой коэффициент, назначаемый наблюдениям, которые расположены особенно далеко от линии регрессии, то есть «отщепенцам»).
Обычный метод наименьших квадратов позволяет определить линию, которая минимизирует сумму квадратов разностей, как показано ниже.
Если технические подробности вызывают у вас головную боль, можете не обращать на них внимания. Важно запомнить главное: стандартный метод наименьших квадратов позволяет получить наилучшее описание линейной зависимости между двумя переменными. В результате мы получаем не только линию как таковую, но и – как вы, наверное, помните из курса геометрии в средней школе – уравнение, описывающее ее. Оно известно как уравнение регрессии и имеет следующий вид: y = a + bx, где y – вес в фунтах, a – отрезок, отсекаемый этой линией на оси Y (то есть значение y, когда x = 0), b – коэффициент наклона линии, а x – рост в дюймах. Коэффициент наклона b найденной нами линии описывает «наилучшую» линейную зависимость между ростом и весом для соответствующей выборки, как определяется стандартным методом наименьших квадратов.
Линия регрессии, конечно, не описывает идеальным образом каждое наблюдение в соответствующей совокупности данных. Но как бы то ни было, это лучшее из возможных описаний зависимости между весом и ростом человека. Это также означает, что каждое наблюдение можно объяснить как Вес = a + b(Рост) + e, где e – «разность», представляющая собой отклонение веса для каждого человека, которое не объясняется его ростом. Наконец, это означает, что наше оптимальное предположение относительно веса какого-либо человека в рассматриваемой совокупности даных будет иметь такой вид: a + b(Рост). Несмотря на то что большинство наблюдений не лежат непосредственно на линии регрессии, ожидаемая величина разности все же равняется нулю, поскольку вероятность того, что вес любого человека в выборке окажется больше, чем прогнозирует уравнение регрессии, равна вероятности того, что его вес окажется меньше, чем прогнозирует уравнение регрессии.
Впрочем, довольно теоретического жаргона! Давайте посмотрим на реальные данные роста и веса из исследования Americans’ Changing Lives. Правда, вначале мне придется прояснить кое-какую базовую терминологию. Переменная, которая подлежит объяснению, – в нашем случае это вес – называется зависимой переменной, так как она зависит от других факторов. Переменные, используемые для объяснения зависимой переменной, называются объясняющими переменными, поскольку они объясняют интересующий нас результат. (Чтобы еще больше запутать мозги, объясняющие переменные иногда называют независимыми или управляющими переменными.) Начнем с использования роста, чтобы объяснить вес участников исследования Americans’ Changing Lives, а впоследствии добавим другие потенциальные объясняющие факторы [57] . В исследовании Americans’ Changing Lives участвуют 3537 взрослых. В нашем случае это количество наблюдений, или n. (Иногда в научных статьях это обозначается так: n = 3537.) Когда мы выполняем простую регрессию по отношению к данным Americans’ Changing Lives, где вес – зависимая переменная, а рост – единственная объясняющая переменная, то получаем следующие результаты:
57
Это упражнение следует рассматривать как «игру с данными», а вовсе не как заслуживающее доверия исследование каких-либо зависимостей, описанных в последующих уравнениях регрессии. Наша цель – предоставить читателям интуитивно понятный пример того, как «работает» регрессионный анализ, а не выполнить строго научное исследование, касающееся веса американцев.
Вес = -135 + 4,5 x Рост в дюймах
a = -135. Это не что иное, как отрезок, отсекаемый линией регрессии на оси Y; никакого специального объяснения у этой величины нет. (Если интерпретировать ее буквально, то получается, что человек с нулевым ростом весил бы –135 фунтов [отрицательная величина]; очевидно, что это нонсенс с любой точки зрения.) Эту величину также называют константой, поскольку она является отправной точкой для вычисления веса всех наблюдений в исследовании.
b = 4,5. Наша оценка для b (4,5) называется коэффициентом регрессии или, на статистическом жаргоне, «коэффициентом по росту», поскольку такой коэффициент служит наилучшей оценкой зависимости между ростом и весом участников исследования Americans’ Changing Lives. У коэффициента регрессии имеется удобная интерпретация: увеличение на одну единицу независимой переменной (рост) ассоциируется с увеличением на 4,5 единицы зависимой переменной (вес). Для нашей выборки данных это означает, что увеличение роста на один дюйм сопряжено с увеличением веса на 4,5 фунта. Таким образом, если бы мы не располагали никакой другой информацией, то нашим оптимальным предположением относительно веса участника исследования Americans’ Changing Lives, рост которого составляет 5 футов и 10 дюймов (то есть 70 дюймов), было бы –135 + 4,5 x 70 = 180 фунтов.
Это наша победа, поскольку нам удалось получить численное выражение наилучшего приближения линейной зависимости между ростом и весом участников исследования Americans’ Changing Lives. Те же самые базовые инструменты можно использовать для исследования более сложных зависимостей и получения ответов на более социально значимые вопросы. При любом коэффициенте регрессии вас, по сути, будут интересовать три вещи: знак, величина и значимость.
Знак. Знак (положительный или отрицательный) при коэффициенте для независимой переменной указывает направление его связи с зависимой переменной (исход, который мы пытаемся объяснить). В рассматриваемом нами случае коэффициент по росту является положительным. Более высокие люди, как правило, имеют больший вес. Некоторые зависимости действуют в противоположном направлении. Скажем, можно ожидать, что связь между занятиями спортом и весом будет отрицательной. Если бы в исследовании Americans’ Changing Lives фигурировали, например, данные о «количестве миль, пробегаемых участником за один месяц», то я бы нисколько не сомневался, что коэффициент по «количеству пробегаемых миль» будет отрицательным: чем большее количество миль вы ежемесячно пробегаете, тем меньше ваш вес.
Величина. Насколько велика наблюдаемая нами зависимость между независимой и зависимой переменными? Можно ли считать ее величину существенной для нас? В рассматриваемом нами случае увеличение роста человека на дюйм ассоциируется с прибавкой веса на 4,5 фунта; в процентном выражении это значительная доля массы тела типичного человека. В объяснении того, почему одни люди весят больше, чем другие, рост, несомненно, является важным фактором. В других исследованиях мы можем обнаружить объясняющую переменную, которая оказывает статистически значимое влияние на интересующий нас исход (это означает, что наблюдаемый эффект вряд ли объясняется чистой случайностью), но оно порой бывает настолько малым, что может считаться несущественным, или незначимым. Например, допустим, что мы исследуем определяющие факторы дохода. Объясняющими переменными здесь могут быть образование, стаж работы и т. п. При использовании достаточно крупного набора данных ученые также могут прийти к выводу, что люди с более белыми зубами зарабатывают на 86 долларов в год больше, чем остальные работники, ceteris paribus. (Ceteris paribus по-латыни означает «при прочих равных условиях».) Положительный и статистически значимый коэффициент по переменной «белые зубы» предполагает, что те, кого мы сравниваем, в остальном (по уровню образования, рабочему стажу и т. п.) не различаются между собой. (Ниже я объясню, каким образом мы можем выполнить это условие.) Наш статистический анализ продемонстрировал, что более белые зубы ассоциируются с 86-долларовой прибавкой к годовому доходу и что этот эффект вряд ли объясняется чистой случайностью. Это означает, что 1) мы с достаточно высокой степенью уверенности отвергли основную (нулевую) гипотезу, гласящую, что наличие у человека белых зубов никак не связано с уровнем его годового дохода; и 2) если мы проанализируем другие выборки данных, то наверняка обнаружим аналогичную связь между хорошо выглядящими зубами и повышенным уровнем дохода.
Что же из этого следует? Мы выявили статистически значимый результат, хотя для нас он практически бесполезен. Начнем с того, что прибавка в 86 долларов к годовому доходу вряд ли существенно изменит уровень жизни человека. С экономической точки зрения она вряд ли оправдывает регулярное выполнение процедур по отбеливанию зубов, поскольку такие процедуры наверняка обойдутся гораздо дороже, поэтому нам не имеет смысла рекомендовать подобные инвестиции молодым работникам. И, несколько забегая вперед, я озаботился бы также рядом серьезных методологических проблем. Например, идеальный вид зубов может ассоциироваться с другими чертами характера человека, обусловливающими более высокий уровень его доходов: то есть дело не в зубах как таковых, а в том, что люди с высоким уровнем доходов, как правило, заботятся об их состоянии. Пока же для нас важно обратить внимание на степень (величину) наблюдаемой нами связи между объясняющей переменной и интересующим нас исходом.
Значимость. Является ли наблюдаемый нами результат заблуждением, обусловленным нерепрезентативной выборкой данных, или он отражает реально существующую связь, которая, скорее всего, будет присуща всей соответствующей совокупности? Это тот же самый фундаментальный вопрос, на который мы пытаемся ответить на протяжении нескольких последних глав. Можно ли ожидать в контексте роста и веса, что мы будем наблюдать аналогичную положительную ассоциацию в других выборках, которые являются репрезентативными по отношению к данной совокупности? Чтобы ответить на этот вопрос, используем уже знакомые вам базовые инструменты статистического вывода. Наш коэффициент регрессии основывается на наблюдаемой зависимости между ростом и весом для определенной выборки данных. Если бы мы тестировали более крупную выборку, то почти наверняка выявили бы несколько иную зависимость между ростом и весом и, следовательно, другой коэффициент регрессии. Зависимость между ростом и весом, наблюдаемая в данных, полученных британским правительством (напоминаю, что они касаются государственных служащих Британии), безусловно, будет отличаться от зависимости между ростом и весом для участников исследования Americans’ Changing Lives. Однако из центральной предельной теоремы следует, что среднее значение для большой, надлежащим образом сформированной выборки, как правило, не будет существенно отклоняться от среднего значения для генеральной совокупности. Аналогично мы можем предположить, что наблюдаемая зависимость между переменными, такими как рост и вес, тоже не будет значительно разниться от выборки к выборке, если, конечно, эти выборки будут достаточно крупными и надлежащим образом сформированными из одной и той же совокупности.
Вы должны понимать это на интуитивном уровне. Весьма маловероятно (хотя в принципе возможно), что, обнаружив зависимость между каждым дополнительным дюймом роста и дополнительными 4,5 фунта веса участников исследования Americans’ Changing Lives, мы в то же время не выявили бы никакой зависимости между ростом и весом в какой-то другой репрезентативной выборке, состоящей из 3000 взрослых американцев.
Это должно дать вам первый намек на то, как мы будем проверять, являются ли результаты нашей регрессии статистически значимыми. Для коэффициента регрессии, как и для опросов общественного мнения и других форм статистического вывода, мы можем вычислить стандартную ошибку, которая представляет собой показатель вероятного разброса, наблюдаемый нами в значениях этого коэффициента в случае, если бы мы выполнили регрессионный анализ по нескольким выборкам, сформированным из одной и той же совокупности. Если бы мы измерили рост и вес в какой-то другой выборке, состоящей из 3000 взрослых американцев, то последующий анализ мог бы показать, что каждый дополнительный дюйм роста ассоциируется с дополнительными 4,3 фунта веса. Если бы мы проделали те же самые действия в отношении еще одной выборки из 3000 взрослых американцев, то могли бы обнаружить, что каждый дополнительный дюйм роста связан с дополнительными 5,2 фунта веса. И здесь на помощь снова приходит нормальное распределение. При использовании больших выборок данных можно предположить, что полученные нами разные коэффициенты регрессии будут распределены по нормальному закону вблизи «истинной» зависимости между ростом и весом в совокупности взрослых американцев. В таком предположении мы можем вычислить стандартную ошибку для коэффициента регрессии, что позволит составить представление о том, насколько большой разброс коэффициентов регрессии следует ожидать от выборки к выборке. Я не буду здесь вдаваться в подробное объяснение формулы для вычисления стандартной ошибки, поскольку для этого пришлось бы прибегнуть к множеству математических выкладок и к тому же все базовые статистические пакеты программного обеспечения вычислят ее за вас.