ЖАНРЫ

Голая статистика. Самая интересная книга о самой скучной науке
Шрифт:

Во-вторых, люди отличаются между собой гораздо больше, чем лабораторные крысы. На эффект воздействия, который мы проверяем, вполне могут наложиться другие различия в испытуемой и контрольной группе: там обязательно окажутся высокие люди и «коротышки», больные и здоровые, мужчины и женщины, преступники и законопослушные граждане, алкоголики и трезвенники, банкиры и малообеспеченные люди и т. п. Как мы можем гарантировать, что различия по этим и другим характеристикам не скажутся на результатах тестирования? У меня есть для вас хорошая новость: это один из тех редких случаев жизни, когда наилучший подход предполагает минимум усилий! Оптимальный способ создания любой подопытной группы, которая подвергается активированию, и контрольной группы заключается в случайном (рандомизированном) распределении по ним участников исследования. Прелесть рандомизации в том, что она приведет к более или менее равномерному распределению между этими двумя группами переменных, не связанных с активированием, – как очевидных характеристик, таких как пол, расовая принадлежность, возраст и образование, так и ненаблюдаемых характеристик, которые могли бы исказить интересующие нас результаты.

Это можно представлять себе так. Если в нашей большой выборке присутствуют 1000 женщин, то после того как мы произвольно разделим ее на две группы, в каждой из групп, скорее всего, окажется по 500 женщин. Разумеется, утверждать наверняка это нельзя, но и здесь теория вероятностей придет нам на помощь. Вероятность того, что в какой-то из двух групп будет непропорционально большое число женщин (или непропорционально большое число людей с какой-либо другой характеристикой), очень мала. Если, например, в выборке из 1000 человек половину составляют женщины, то вероятность того, что в какой-то из двух групп окажется менее 5 женщин, будет меньше 1 %. Понятно, что чем больше выборка, тем эффективнее (с точки зрения создания похожих, в широком смысле, групп) рандомизация.

Медицинские испытания, как правило, стремятся проводить в духе рандомизированных управляемых экспериментов. В идеале они представляют собой двойное контрольное (слепое) испытание; это означает, что ни пациент, ни врач не знают, кто получает лечение, а кто – плацебо. Разумеется, двойное контрольное испытание невозможно, когда речь идет о хирургических процедурах (надеюсь, кардиохирургу будет заранее известно, к каким из пациентов применяется операция шунтирования). Хотя даже в этом случае иногда удается держать пациентов в неведении относительно того, к какой именно группе (подопытной или контрольной) они относятся. Одно из моих любимых исследований предполагало оценивание определенного вида коленной хирургии, призванной облегчить боль. Участникам «лечебной» группы делали соответствующую хирургическую операцию на колене. А членам контрольной группы хирург, имитируя выполнение операции, делал три небольших надреза в области колена пациента [74] . Оказалось, что реальная хирургическая операция была ненамного эффективнее, чем мнимая {86} .

74

Участники этого эксперимента знали, что участвуют в клиническом испытании и что им могут сделать фиктивную хирургическую операцию.

86

Gina Kolata, Arthritis Surgery in Ailing Knees Is Cited as Sham, New York Times, July 11, 2002.

Рандомизированные статистические исследования могут применяться для тестирования некоторых интересных явлений. Например, улучшают ли постхирургические исходы молитвы людей, незнакомых с прооперированными? Разумные люди по-разному относятся к религии, но авторы исследования, результаты которого были опубликованы в American Heart Journal, провели управляемый эксперимент, который должен был ответить на вопрос, будет ли меньше послеоперационных осложнений у больных, перенесших операцию шунтирования на сердце, если большая группа совершенно незнакомых им людей будет молиться за их скорейшее выздоровление {87} . В исследовании участвовали 1800 пациентов и членов трех религиозных общин со всей страны. Пациентов, перенесших операцию коронарного шунтирования, разделили на три группы: за одну группу никто не молился; за вторую молились, и им сообщили об этом; за третью молились, но ее участникам сказали, что за них могут молиться или не молиться (таким образом обеспечивалась управляемость плацебо-эффекта молитвы). Тем временем членов религиозных конгрегаций попросили молиться за определенных пациентов по их имени и первой букве фамилии (например, Чарли У.). Какие именно молитвы они будут произносить, прихожане решали самостоятельно; единственное условие, чтобы молитва содержала фразу «за успешную хирургическую операцию с быстрым выздоровлением и без осложнений».

87

Benedict Carey, Long-Awaited Medical Study Questions the Power of Prayer, New York Times, March 31, 2006.

Ну и?.. Станут ли молитвы экономически эффективным решением проблем здравоохранения в Америке? Наверное, нет. Исследователи не обнаружили какой-либо разницы в частоте осложнений в течение тридцатидневного послеоперационного периода между теми, за кого молились, и теми, за кого не молились. Критики этого эксперимента указывали на переменную, которую не учли ученые: молитвы, исходившие от других источников. Как резюмировала газета The New York Times: «Эксперты сказали, что это исследование не смогло преодолеть самое, пожалуй, крупное препятствие к изучению эффективности молитв: неизвестный объем молитв, получаемых каждым участником эксперимента от своих друзей, родственников, членов семьи и конгрегаций по всему миру, которые ежедневно молятся за страждущих».

Проведение экспериментов на людях может закончиться арестом или даже международным трибуналом. О такой «перспективе» никогда не следует забывать. Однако в области социальных наук всегда найдется место для статистических управляемых экспериментов с участием людей. Одним из самых знаменитых стало исследование Tennessee’s Project STAR, в ходе которого изучалось влияние уменьшения количества учащихся в группах на степень усвоения ими знаний. В наши дни буквально все страны борются за повышение качества своих систем образования. Если уменьшение количества учащихся в группах способствует более эффективному обучению, то при прочих равных условиях (ceteris paribus) общество должно направлять дополнительные средства на подготовку большего числа преподавателей, которые при этом понадобятся. В то же время дополнительные преподаватели – это дополнительные расходы (и весьма немалые); если учащиеся в небольших группах демонстрируют лучшие результаты по причинам, не зависящим от размера этих групп, то государственные деньги окажутся попросту выброшенными на ветер.

Связь между величиной учебной группы и эффективностью усвоения учащимися материала, как ни странно, изучить не так просто. Учебные заведения, формирующие компактные группы студентов, как правило, имеют больше ресурсов; это означает, что учащиеся и преподаватели в них отличаются от учащихся и преподавателей в учебных заведениях с большими размерами учебных групп. К тому же меньшие учебные группы обычно формируются в силу определенных причин. Например, директор может создать такую группу для отстающих учеников (в этом случае может наблюдаться ложная отрицательная зависимость между небольшим количеством учеников в классе и их успеваемостью). Еще один вариант: опытные преподаватели могут отдать предпочтение небольшим группам; в этом случае преимущество последних будет следствием выбора преподавателей.

Начиная с 1985 года в ходе исследования Tennessee’s Project STAR был проведен управляемый эксперимент по выявлению последствий использования меньших учебных групп {88} . (В то время губернатором штата Теннеси был Ламар Александер, будущий министр образования в правительстве Джорджа Буша.) Ученики из семидесяти девяти разных подготовительных школ [75] были случайным образом распределены либо в небольшой класс (13–17 учеников), либо в обычный класс (22–25 учеников), либо в обычный класс с обычным преподавателем и помощником преподавателя. Учителей также распределили случайным образом по разным классам. До третьего класса включительно ученики оставались в тех классах, в которые они изначально попали. В процессе рандомизации влияние тех или иных жизненных реалий в какой-то мере нивелировалось. Одни ученики входили в эту систему в середине эксперимента, другие «выходили из игры». Кого-то из детей переводили из одного класса в другой по дисциплинарным соображениям; кому-то из родителей удалось перевести своих чад в меньшие по численности классы. И так далее.

88

Diane Whitmore Schanzenbach, What Have Researchers Learned from Project STAR? Harris School Working Paper, August 2006.

75

В Соединенных Штатах в подготовительных школах учатся дети пяти-шести лет. Прим. перев.

Тем не менее исследование Tennessee’s Project STAR остается единственным рандомизированным тестом статистически и социально значимых результатов сокращения численности учебных групп. В целом при сдаче стандартизированных экзаменов успеваемость учеников в меньших по размеру классах оказалась на 0,15 среднеквадратических отклонений лучше, чем в обычных классах; а успеваемость чернокожих учащихся меньших по численности классов – в два раза выше, чем в обычных классах. А теперь плохая новость. Эксперимент Tennessee’s Project STAR обошелся примерно в 12 миллионов долларов. Стоимость исследования влияния молитв на послеоперационные осложнения вылилась в 2,4 миллиона долларов. Самые точные и полезные исследования характеризуются тем же, что и все «точное и полезное», – очень высокими затратами.

Натурный эксперимент. Далеко не каждый располагает несколькими лишними миллионами долларов, которые он готов потратить на проведение крупномасштабного статистического исследования. А поскольку жизнь иногда совершенно случайно создает подопытную и контрольную группы, ученые стараются воспользоваться столь привлекательной ситуацией. Эта более экономичная альтернатива называется натурный эксперимент, яркий пример которого – наш рассказ о полицейских Вашингтона, приведенный в начале главы. Рассмотрим интересную, но сложную взаимосвязь между образованием и долголетием. Более образованные люди обычно живут дольше, даже если зафиксировать такие факторы, как уровень дохода и доступ к медицинским услугам. Как отмечала The New York Times: «Единственным социальным фактором, который, по признанию ученых, безусловно связан с продолжительностью жизни человека во всех странах, где изучалось его влияние, является образование. Уровень образования более важен, чем принадлежность к той или иной расе; он нивелирует любое влияние дохода» {89} . Правда, до сих пор речь шла лишь о корреляции. Но можно ли утверждать, что более высокий уровень образования, ceteris paribus, способствует улучшению здоровья? Если образование как таковое представить как «активирование», то можно ли утверждать, что повышение его уровня приведет к увеличению продолжительности вашей жизни?

89

Gina Kolata, A Surprising Secret to a Long Life: Stay in School, New York Times, January 3, 2007.

Поначалу кажется, что исследовать этот вопрос практически невозможно, поскольку люди, стремящиеся повысить свой уровень образования, отличаются от тех, кто этого не хочет. Разница между выпускниками средней школы и выпускниками колледжей не только в том, что вторые учились на четыре года дольше. У людей, испытывающих тягу к знаниям, вполне могут оказаться какие-то ненаблюдаемые (то есть не поддающиеся наблюдению) общие черты, которые могут объяснять их более высокую продолжительность жизни. Если это действительно так, то предлагать повышать образовательный уровень тем, кто к этому не склонен, бессмысленно: это не улучшит состояния их здоровья. То есть крепкое здоровье не зависит от уровня образования и может быть присуще той категории людей, для которых стремление учиться естественно.

Поделиться с друзьями: