Голая статистика. Самая интересная книга о самой скучной науке
Шрифт:
На первый взгляд это кажется довольно легкой задачей, поскольку мы можем просто предложить ученику сдать сначала предварительный тест, а затем – заключительный. Если нам известен результат предварительного теста, который сдается при поступлении в определенную школу или класс, то мы можем оценить успеваемость ученика в момент окончания учебы в этой школе или классе, а разницу результатов «до» и «после» объяснить полученными им знаниями.
Увы, опять ничего не выйдет. Ученики с разными способностями, к тому же выходцы из семей с полярно разными уровнями дохода и образования, могут и знания усваивать с разной скоростью. Кто-то из учеников схватывает материал буквально на лету, а кому-то приходится объяснять по нескольку раз, причем все это не имеет никакого отношения к качеству преподавания. Таким образом, если ученики в Школе состоятельных родителей A и ученики в Школе бедных родителей B начинают изучать алгебру в одно и то же время и с одного и того же исходного уровня, то объяснить тот факт, что через год ученики школы A сдали экзамен по алгебре лучше, чем ученики школы B, можно либо тем, что в школе A преподают более квалифицированные учителя, либо тем, что в школе A учатся более способные ученики, быстрее усваивающие учебный материал, либо и тем и другим одновременно. Исследователи пытаются разработать статистические методы, которые при измерении качества преподавания учитывали бы способности учеников, а также материальное положение и образовательный уровень их родителей. А тем временем наши попытки выявить «наилучшие» школы могут оказаться до смешного несостоятельными.
Каждую осень несколько чикагских газет и журналов публикуют рейтинги лучших школ региона, основанные на результатах сдачи стандартизованного теста штата Иллинойс. Вот один из выводов, совершенно смехотворных с точки зрения статистики: поступление в несколько школ, постоянно занимающих высокие места в рейтинге, возможно лишь на конкурсной основе; для этого нужно предварительно подать соответствующие документы, причем в школу будет зачислена лишь малая часть из тех, кто их подал. Одним из важнейших критериев для поступления в такие школы являются результаты сдачи стандартизованных тестов. Итак, подведем итоги: 1) эти школы считаются «лучшими», потому что их ученики имеют высокие баллы на экзаменах; 2) чтобы попасть в такую школу, нужно иметь высокие баллы стандартизованных тестов. Это, по сути, то же самое, как если бы вы наградили баскетбольную команду за то, что в ее составе выступают очень рослые ребята.
Даже при наличии надежного индикатора того, что вы пытаетесь измерить и чем пытаетесь управлять, проблемы не заканчиваются. Хорошей новостью будет то, что «управление посредством статистики» способно изменить к лучшему поведение соответствующего человека или учреждения. Если вы можете определить долю бракованных изделий, сходящих с производственного конвейера, и эти дефекты обусловлены ситуацией на заводе, то выплата работникам премии за сокращение количества бракованных изделий должна, по-видимому, надлежащим образом изменить их поведение. Каждый из нас реагирует на стимулы, даже если это просто похвала или предоставление более удобного места для парковки автомобиля. Статистика измеряет важные для нас результаты; стимулы подталкивают нас к их улучшению.
Или, в отдельных случаях, к приукрашиванию статистики. А вот это – плохо.
Если работа школьной администрации оценивается (и, возможно, даже оплачивается) исходя из процента учеников в определенном учебном округе, получивших аттестат об окончании школы, то ей следует сосредоточить усилия на увеличении количества выпускников. Разумеется, наряду с этим можно заняться и вопросом повышения доли учеников, окончивших школу (это не то же самое, что количество выпускников). Например, ученики, досрочно бросившие школу и не получившие аттестата, могут быть классифицированы как «сменившие место жительства», а не как бросившие учебу. Это вовсе не гипотетический пример; обвинение именно в таких манипуляциях было предъявлено бывшему министру образования Роду Пейджу во время его пребывания в должности школьного инспектора Хьюстона. Президент Джордж Буш назначил Рода Пейджа министром образования США под впечатлением его выдающихся успехов в Хьюстоне, суть которых заключалась в снижении доли учеников, досрочно бросивших школу, и резком улучшении результатов тестов.
Если вы коллекционируете афоризмы, могу поделиться собственным: «Если сегодня к вам в офис заглянули люди из программы 60 Minutes («60 минут»), то это определенно не лучший день в вашей жизни». Дэн Разер и команда создателей программы 60 Minutes II побывали в Хьюстоне и пришли к выводу, что манипулирование статистикой в этом учебном округе производит гораздо большее впечатление, чем повышение уровня образования {19} . Учеников, бросающих учебу в школе, обычно включали в число тех, кто переводится в какую-то другую школу, возвращается к себе на родину (в другую страну) или желает получить General Equivalency Diploma (GED) – диплом об общем образовании, который выдается сдавшим тесты по программе средней школы. Ни один из этих вариантов не трактовался в официальной статистике как отказ от учебы в школе. В тот год администрация хьюстонского учебного округа рапортовала о снижении доли учеников, бросивших учебу в школе, до 1,5 %. Хотя, согласно подсчетам 60 Minutes, этот показатель на самом деле находился между 25 % и 50 %.
19
Rebecca Leung, The ‘Texas Miracle’: 60 Minutes II Investigates Claims That Houston Schools Falsified Dropout Rates, CBSNews.com, August 25, 2004.
Статистические манипуляции с тестовыми баллами были не менее впечатляющими. Один из способов добиться улучшения результатов тестов (в Хьюстоне или где-либо еще) – повысить качество образования, чтобы учащиеся углубляли свои знания и лучше сдавали экзамены. Это самый честный способ. Другой (менее честный) способ заключается в отстранении от их сдачи самых слабых учеников, поскольку в этом случае средний балл соответствующей школы или учебного округа повысится, даже если остальные ученики не продемонстрируют никакого прогресса. В Техасе единый тест штата проводится для десятиклассников. Есть свидетельства того, что руководство хьюстонских школ пыталось избавиться от отстающих учащихся еще до их перехода в десятый класс. В одном из особенно вопиющих случаев ученик провел три года в девятом классе, а затем его сразу перевели в одиннадцатый класс – такой вот хитроумный способ отстранения ученика от сдачи экзамена в десятом классе, не принуждая его бросить учебу (что плохо сказалось бы на другом статистическом показателе).
Был ли замешан Род Пейдж в этих статистических махинациях во время пребывания в должности школьного инспектора Хьюстона, выяснить не удалось, однако именно он добился внедрения программы строгой отчетности, которая предусматривала выплату денежных премий директорам школ, выполнявшим плановые показатели по результатам экзаменов и досрочному прекращению учебы в школе, и наказание вплоть до увольнения или понижения в должности директорам школ, не обеспечившим выполнение этих плановых показателей. Директора школ хорошо уяснили, что от них требуется, – и это должно послужить для нас еще одним важным уроком. Однако нужно понимать, что те, чью деятельность пытаются оценивать подобными способами, не могут ослушаться начальства, поскольку в противном случае рискуют предстать перед ним не в самом лучшем (со статистической точки зрения) виде.
Усвоение этой истины обошлось штату Нью-Йорк слишком дорого. Власти штата внедрили «оценочные таблицы», с помощью которых намеревались оценивать уровень смертности среди пациентов кардиохирургов, занимающихся коронарной ангиопластикой (восстановлением сосудов) – типичным способом лечения заболеваний сердца {20} . На первый взгляд такое использование описательной статистики кажется весьма разумным и полезным. Нам важно знать, какой процент пациентов кардиохирурга умирает в результате хирургической операции; государство должно иметь и обнародовать эту информацию, поскольку в противном случае у потенциальных пациентов не будет к ней доступа. Можно ли считать такую политику правильной? Да, если не принимать во внимание тот факт, что она способна убивать людей.
20
Marc Santora, Cardiologists Say Rankings Sway Surgical Decisions, New York Times, January 11, 2005.
Кардиологи, конечно же, будут заботиться о состоянии своих «оценочных таблиц». Однако простейший способ, с помощью которого кардиохирург может сократить смертность, состоит вовсе не в стремлении сохранить жизнь как можно большему числу людей (у нас есть все основания полагать, что большинство врачей и без того делают в этом плане все от них зависящее), а в отказе оперировать самых тяжелых больных. Согласно результатам опроса, проведенного факультетом медицины и стоматологии Рочестерского университета, «оценочные таблицы», которые якобы служат благу пациентов, могут также приносить им вред: 83 % опрошенных кардиохирургов сказали, что из-за оглашения данных о смертности часть пациентов, которые могли бы поправить здоровье с помощью ангиопластики, просто откажутся от такой операции; 79 % кардиохирургов признались, что на некоторые их профессиональные решения повлияло знание того, что данные о смертности предаются огласке. Печальный парадокс этой, на первый взгляд полезной, описательной статистики заключается в том, что кардиохирурги реагировали на нее вполне рационально, отказываясь делать операции пациентам, которые больше всего в них нуждались.
Любой статистический индекс обладает всеми потенциальными подводными камнями, характерными практически для каждой описательной статистики, – плюс искажения, вносимые вследствие объединения нескольких индикаторов в единое обобщающее число. Любой индекс по определению зависит от того, как именно он сконструирован; на него оказывает влияние и то, какие показатели в него входят, и то, какой весовой коэффициент присвоен каждому из этих показателей. Почему, например, рейтинг пасующего, которым принято оценивать эффективность пасующих в NFL, не включает какой-либо показатель «завершений с третьей попытки»? Если же мы говорим об индексе развития человеческого потенциала (Human Development Index), то каким должен быть вес уровня грамотности населения в этом индексе по сравнению с уровнем дохода на душу населения? И наконец, еще один немаловажный вопрос: должны ли простота и легкость применения, обеспечиваемые объединением многих показателей в одно число (индекс), иметь для нас большее значение, чем неточность, внутренне присущая такому объединению? Подчас приходится давать отрицательный ответ на этот вопрос, что возвращает нас (как и было обещано выше) к рейтингам высших учебных заведений, приведенным в журнале U.S. News & World Report (USNWR).
Для определения рейтингов USNWR используются шестнадцать показателей, с помощью которых оцениваются и распределяются в рейтинге по местам американские колледжи, университеты и профессиональные учебные заведения. Например, в рейтинге национальных университетов и гуманитарных колледжей за 2010 год на долю такого показателя, как «избирательный подход к приему в учебное заведение», приходилось 15 % этого индекса; данный показатель, в свою очередь, вычислялся на основе нормы приема для той или иной школы, доли поступивших студентов, которые в выпускном классе своей школы входили в «лучшие 10 %», а также средних баллов SAT [16] и ACT [17] поступивших студентов. Преимущество рейтингов USNWR заключается в том, что они позволяют простым и доступным способом получить исчерпывающую информацию о тысячах учебных заведений. Даже критики вынуждены согласиться с тем, что большой объем информации об американских колледжах и университетах представляет немалую ценность. Потенциальные студенты должны знать о месте того или иного учебного заведения в рейтинге и средней величине учебной группы.
16
SAT (Scholastic Aptitude Test) – тест на умение грамотно излагать свои мысли в устной форме и тест математических способностей, используемые при поступлении в американские колледжи. Прим. перев.
17
ACT (American College Testing) – стандартизированный тест для поступления в колледжи и университеты США. Прим. перев.