ЖАНРЫ

Голая статистика. Самая интересная книга о самой скучной науке
Шрифт:

Вес = -118 + 4,3 x (Рост в дюймах) + 0,12 x (Возраст в годах) - 4,8 (Если пол женский)

Наша «наилучшая» оценка веса пятидесятитрехлетней женщины, рост которой равен 5 футов и 5 дюймов, такова: -118 + 4,3 x 65 + 0,12 x 53 - 4,8 = 163 фунта.

Наша «наилучшая» оценка веса тридцатипятилетнего мужчины, рост которого составляет 6 футов и 3 дюйма, такова: -118 + 4,3 x 75 + 0,12 x 35 = 209 фунтов. Мы опускаем последний член (-4,8) при вычислении результата регрессии, поскольку рассматриваемый нами человек не является женщиной.

Теперь давайте приступим к проверке более интересных и менее предсказуемых вещей. Что можно сказать по поводу образования? Как оно может влиять на вес? Я бы выдвинул гипотезу, что более образованные люди в большей степени заботятся о своем здоровье и, следовательно, весят меньше. Кроме того, мы еще не проверяли влияние занятий спортом; я полагаю, что при прочих равных условиях члены нашей выборки, регулярно занимающиеся спортом, весят меньше.

А что можно сказать по поводу бедности? Не сказываются ли низкие доходы части американцев на их весе? В исследовании Americans’ Changing Lives есть вопрос о том, получает ли его участник продовольственные талоны. (Продовольственные талоны в Соединенных Штатах выдаются только малоимущим гражданам.) Наконец, меня интересует расовая принадлежность человека. Нам известно, что люди разных рас в США имеют разный жизненный опыт именно вследствие своей расовой принадлежности. С той или иной расой в Соединенных Штатах ассоциируются определенные культурные факторы и места компактного проживания. Все эти факторы могут оказывать влияние на вес человека. Многие города Америки характеризуются высокой степенью расовой сегрегации: афроамериканцы чаще других американских граждан проживают в так называемых продовольственных пустынях, то есть территориях с ограниченным доступом к продовольственным магазинам, где продаются свежие фрукты, овощи и другая свежая продукция.

Регрессионный анализ можно использовать для обособления независимого влияния каждого из потенциальных объясняющих факторов, описанных выше. Например, мы можем вычленить связь между расовой принадлежностью и весом человека, сохраняя постоянными другие социально-экономические факторы, такие как уровень образования и бедность. Существует ли статистически достоверная связь между весом человека и его принадлежностью к негроидной расе, если речь идет о людях, окончивших среднюю школу и имеющих право на получение продовольственных талонов?

В данном случае уравнение регрессии окажется таким длинным, что было бы весьма проблематично привести его здесь полностью. Научные статьи обычно включают огромные таблицы, обобщающие результаты разных уравнений регрессии. В приложении к этой главе вы найдете таблицу с полными результатами этого уравнения регрессии. Между тем, я могу подсказать, что произойдет, если мы добавим в уравнение такие факторы, как уровень образования человека, его склонность к занятиям спортом, показатель бедности (исходя из которого определяется его право на получение продовольственных талонов) и расовая принадлежность.

Все наши исходные переменные (рост, возраст и пол) по-прежнему остаются значимыми. При добавлении объясняющих переменных несколько изменяются коэффициенты. Новые переменные являются статистически значимыми на уровне 0,05. Значение R^2 для этой регрессии повысилось с 0,25 до 0,29. (Вспомните: нулевая величина R^2 означает, что уравнение регрессии прогнозирует вес любого человека в данной выборке ничуть не лучше, чем среднее значение; если же R^2 равно 1, то наше уравнение регрессии идеально прогнозирует вес каждого человека в данной выборке.) Существенная доля разброса величин веса среди членов данной выборки остается необъясненной.

Как я и предполагал, зависимость между образованием и весом человека оказалась отрицательной. Среди участников исследования Americans’ Changing Lives каждый дополнительный год образования ассоциируется с -1,3 фунта веса.

Неудивительно, что физические упражнения также отрицательно связаны с весом человека. Исследование Americans’ Changing Lives включает индекс, который оценивает каждого участника исследования с точки зрения уровня его физической активности. Те, кто находится в нижнем квинтиле [61] склонности к регулярным занятиям спортом, весят в среднем на 4,5 фунта больше, чем другие взрослые в этой выборке, ceteris paribus. И примерно на 9 фунтов больше, чем взрослые в верхнем квинтиле склонности к регулярным занятиям спортом.

61

Квинтиль – это квантиль порядка 0,2. Если выборочные значения организовать в порядке возрастания, то квинтили делят эту выборку на пять равных (по количеству) частей. В данном случае «нижний квинтиль склонности к регулярным занятиям спортом» – это группа наименее склонных к регулярным занятиям спортом, составляющая пятую часть из совокупности лиц, регулярно им занимающихся. Прим. ред.

Вес тех, кто получает продовольственные талоны (что служит показателем бедности в этой регрессии), больше, чем у других взрослых. Получатели продовольственных талонов весят в среднем на 5,6 фунта больше, чем другие участники исследования Americans’ Changing Lives, ceteris paribus.

Переменная расовой принадлежности представляет особый интерес. Даже если мы зафиксируем все остальные вышеперечисленные переменные, расовая принадлежность сыграет довольно важную роль в объяснении веса. Неиспаноязычные взрослые негроидной расы в выборке Americans’ Changing Lives весят в среднем примерно на 10 фунтов больше, чем другие взрослые в выборке. Десять фунтов – весьма существенная прибавка в весе как в абсолютном выражении, так и по сравнению с влиянием других объясняющих переменных в нашем уравнении регрессии. И это вовсе не какой-то случайный «выверт» данных. p-значение по фиктивной переменной для неиспаноязычных взрослых негроидной расы равняется 0,000, а 95 %-ный доверительный интервал охватывает величины веса от 7,7 фунта до 16,1 фунта.

Что же происходит? Честно говоря, не имею понятия. Могу лишь повторить замечание, сделанное мною выше в одной из сносок: я лишь экспериментирую с данными, чтобы проиллюстрировать принцип действия регрессионного анализа. Представленные здесь аналитические материалы призваны подтвердить результаты научного исследования значения дворового хоккея для НХЛ. (Шутка.) Если бы это был реальный исследовательский проект, то для подтверждения правильности его выводов понадобились бы недели и даже месяцы аналитической работы. Могу лишь сказать, что я продемонстрировал вам, почему множественный регрессионный анализ – лучший из имеющихся в нашем распоряжении инструмент для поиска существенных закономерностей в больших и сложных совокупностях данных. Мы начали со смехотворно банального упражнения: поиска численного выражения связи между ростом и весом, а затем перешли к рассмотрению вопросов, имеющих реальное социальное значение.

В этом ключе я могу предложить вам реальное исследование, в котором регрессионный анализ использовался для решения социально значимой проблемы – дискриминации по половому признаку на рабочем месте. Такую дискриминацию, как правило, трудно наблюдать непосредственно. Никто из работодателей не скажет вам напрямую, что тому или иному работнику платят меньше только по причине его расовой или половой принадлежности или что кого-то не приняли на работу по каким-либо дискриминационным соображениям (в результате чего этот человек, наверное, нашел другую работу, но с более низкой заработной платой). Однако на практике мы наблюдаем различия в зарплате по расовому или половому признаку, которые могут быть следствием дискриминации: белые зарабатывают больше, чем черные; мужчины – больше, чем женщины, и т. д. Методологическая проблема заключается в том, что эти различия могут также оказаться результатом других различий между работниками, которые не имеют ничего общего с дискриминацией (например, женщины зачастую предпочитают работать неполный рабочий день). В какой мере имеющаяся разница в оплате труда обусловлена факторами, связанными с производительностью на работе, а в какой – с дискриминацией работников (если таковая вообще присутствует)? Никто не станет утверждать, что этот вопрос относится к разряду тривиальных.

Регрессионный анализ может помочь нам на него ответить. Однако в этом случае наша методология будет несколько более «окольной», чем в примере с анализом, объясняющим вес. Поскольку дискриминация не поддается непосредственному измерению, нам придется исследовать другие факторы (например образование, производственный стаж, род занятий и т. п.), которые традиционно объясняют уровень заработной платы. Мы можем действовать методом исключения: если после фиксации этих факторов все же останется существенная разница в зарплате, то дискриминация на работе, по-видимому, имеет место. Чем больше необъясненная доля разницы в заработной плате, тем сильнее подозрения в наличии дискриминации на рабочем месте. Рассмотрим статью трех экономистов, исследующих траектории заработной платы в выборке, состоящей примерно из 2500 мужчин и женщин – выпускников Booth School of Business Чикагского университета (все они обладатели степени MBA) {72} . Сразу после выпуска средний начальный уровень заработной платы у мужчин и женщин приблизительно одинаков: 130 000 долларов у мужчин и 115 000 долларов у женщин. Однако через десять лет образуется огромный разрыв: женщины в среднем зарабатывают на целых 45 % меньше, чем их бывшие однокурсники-мужчины: 243 000 долларов против 442 000 долларов. В более широкой выборке, включающей свыше 18 000 выпускников (обладающих степенью MBA), которые приступили к работе в период с 1990 по 2006 год, у женщин на 29 % ниже заработки, чем у мужчин. Что же происходит с женщинами, после того как они выходят на рынок труда?

72

Marianne Bertrand, Claudia Goldin, and Lawrence F. Katz, Dynamics of the Gender Gap for Young Professionals in the Corporate and Financial Sectors, NBER Working Paper 14681, January 2009.

Согласно авторам данного исследования (Марианна Бертран из Booth School of Business, Клаудиа Голдин и Лоуренс Кац из Гарвардского университета), дискриминация не является вероятным объяснением большей доли разрыва в зарплатах. Причем разрыв по половому признаку исчезает, когда авторы добавляют в анализ дополнительные объясняющие переменные. Например, при прохождении программы MBA мужчины посещают дополнительные курсы финансов и на выпускных экзаменах получают в среднем более высокие оценки. Когда эти данные используются в уравнении регрессии в качестве управляющих переменных, необъясненная доля разрыва в уровнях зарплаты мужчин и женщин снижается до 19 %. Когда же в это уравнение включаются переменные, позволяющие учитывать рабочий стаж после окончания университета, необъясненная доля разрыва в уровнях зарплаты мужчин и женщин снижается до 9 %. А когда в уравнение добавляются объясняющие переменные для других характеристик (например, тип работодателя и количество реально отработанных часов), необъясненная доля разрыва в уровнях зарплаты мужчин и женщин снижается до менее 4 %.

Поделиться с друзьями: