ЖАНРЫ

Голая статистика. Самая интересная книга о самой скучной науке
Шрифт:

Является ли данный рейтинг идеальным? Разумеется нет. Статистика крайне редко предлагает единственно верный вариант оценивания чего бы то ни было. Предоставляет ли данный показатель возможность получить важную информацию? Разумеется да. Это превосходный инструмент, позволяющий быстро сравнивать эффективность действий двух куортербеков в один и тот же день. Я болею за команду Chicago Bears. Во время серии плей-офф 2011 года Chicago Bears играли с Packers (Packers одержали победу). Я мог бы описать этот матч множеством способов, потратив не одну страницу на его анализ. Но вот более сжатый вариант: рейтинг распасовщика куортербека Chicago Bears Джея Катлера составил в тот день 31,8, а куортербека Green Bay Аарона Роджерса – 55,4. Аналогично мы можем сравнить эффективность действий Джея Катлера с эффективностью его же действий в одной из предыдущих игр того же сезона против команды Green Bay, когда его рейтинг распасовщика равнялся 85,6. Эти показатели способны многое сказать тому, кто хочет понять, почему ранее в том сезоне Chicago Bears выиграли у Packers, а затем потерпели поражение в серии плей-офф.

Это может служить весьма поучительным – и достаточно лаконичным – объяснением итогов футбольного сезона 2011 года. Однако нет ли здесь чрезмерного упрощения? Да, именно в этом и заключается сила и слабость любой описательной статистики. Один-единственный показатель говорит вам, что Джей Катлер продемонстрировал в играх плей-офф с участием Chicago Bears худшую эффективность, чем Аарон Роджерс. С другой стороны, тот же показатель ничего не скажет вам о том, потерпел ли тот или иной куортербек в ходе игры досадную неудачу (например, его идеальная передача не была поймана принимающим, а затем перехвачена), удавалось ли ему действовать с максимальной отдачей в определяющих с точки зрения конечного результата ключевых розыгрышах (поскольку весовые коэффициенты всех розыгрышей одинаковы и не зависят от их важности для конечного результата), насколько успешно действовала защита и т. д.

Парадоксально, что те же люди, которые свободно рассуждают о статистике в контексте спорта, погоды или академической успеваемости, начинают теряться, когда исследователь переходит к объяснению чего-нибудь наподобие коэффициента Джини – стандартного инструмента в экономике, демонстрирующего степень неравенства доходов. Ниже я объясню суть данного коэффициента, сейчас же для нас главное – признать, что между коэффициентом Джини и рейтингом распасовщика нет принципиальных отличий. Оба позволяют представить сложную информацию в виде единственного числового показателя. Как таковой коэффициент Джини обладает достоинствами большинства описательных статистик, а именно: обеспечивает удобный способ сравнения распределения дохода в двух странах или в одной стране в разные моменты времени.

Коэффициент Джини помогает оценить по шкале от 0 до 1, насколько равномерно распределяется в стране совокупный доход. Этот статистический показатель можно вычислить для материального благосостояния или годового дохода, причем он может быть рассчитан на индивидуальном или семейном уровне. (Все эти значения будут сильно коррелированны, но не идентичны.) У коэффициента Джини, подобно рейтингу распасовщика, нет какого-либо собственного, внутренне присущего ему смысла – это всего лишь инструмент для сравнения. У страны, в которой все семьи имеют одинаковый уровень благосостояния, был бы нулевой коэффициент Джини. А в той стране, где все богатство сосредоточено в руках одной семьи, он равнялся бы единице. Как вы, наверное, догадались, чем ближе значение к единице, тем выше степень расслоения общества. Согласно данным Центрального разведывательного управления (между прочим, ЦРУ активно занимается сбором статистических данных) {1} , коэффициент Джини для Соединенных Штатов равен 0,45. И что?

1

Central Intelligence Agency, The World Factbook, https://www.cia.gov/library/publications/the-world-factbook/.

Если этот показатель поместить в определенный контекст, он может многое нам рассказать. Например, коэффициент Джини для Швеции составляет 0,23; для Канады – 0,32; для Китая – 0,42; для Южной Африки 0,65 [4] . Анализ этих значений позволяет получить представление о том, какое место в мире занимают Соединенные Штаты с точки зрения неравенства распределения доходов. Можно также проанализировать, как коэффициент Джини изменяется со временем в одной и той же стране. Например, в 1997 году для Соединенных Штатов он равнялся 0,41, а в следующем десятилетии достиг 0,45 (самые последние данные ЦРУ относятся к 2007 году). Это дает возможность составить объективную картину нарастания неравенства в распределении богатства по мере процветания Соединенных Штатов (во всяком случае на рассматриваемом отрезке времени). Кроме того, мы можем сравнить изменения коэффициента Джини в разных странах примерно за один и тот же период времени. Скажем, в Канаде за указанный период он практически остался прежним. Швеция на протяжении двух последних десятилетий переживала фазу значительного экономического роста, однако коэффициент Джини в ней фактически снизился с 0,25 в 1992 году до 0,23 в 2005-м; это означает, что за указанный период Швеция не только стала богаче, но и доходы в ней начали распределяться более равномерно.

4

Коэффициент Джини иногда умножают на 100, чтобы он выражался целым числом. В таком случае для Соединенных Штатов он равнялся бы 45.

Можно ли считать коэффициент Джини идеальным показателем неравенства? Отнюдь нет – точно так же как рейтинг распасовщика нельзя считать идеальным показателем эффективности действий куортербека. Но несомненно одно: он позволяет нам получить весьма ценную информацию о социально значимом явлении – неравенстве в распределении богатства – в достаточно удобном формате.

Итак, мы медленно продвигаемся к получению ответа на вопрос, поставленный в названии этой главы: в чем суть? А в том, что статистика помогает нам обрабатывать данные, хотя на самом деле это всего лишь еще одно название информации. Подчас эти данные тривиальны, как в случае спортивной статистики, а подчас проливают свет на природу человеческого общества, как в случае коэффициента Джини.

Но, как любят повторять в телевизионных рекламных роликах, это еще не все! Хол Вариан, главный экономист компании Google, в интервью The New York Times сказал, что в следующем десятилетии работа со статистическими данными станет «модной профессией», а точнее «сексуальной» (дословное выражение Хола Вариана: the sexy job) {2} . Я, наверное, окажусь первым, кто пришел к выводу о весьма превратном представлении некоторых экономистов о том, что следует считать «сексуальным». Тем не менее предлагаю рассмотреть несколько никак не связанных между собой вопросов.

2

Steve Lohr, For Today’s Graduate, Just One Word: Statistics, New York Times, August 6, 2009.

• Как уличить учебные заведения в подтасовке результатов стандартизированных тестов?

• Откуда Netflix [5] известно о том, какого рода фильмы вам нравятся?

• Как определить, какие вещества и образ жизни вызывают раковые заболевания, учитывая, что мы не можем проводить над людьми экспериментов, приводящих к заболеванию раком?

• Можно ли рассчитывать на более успешный исход хирургической операции, если молиться за пациента?

• Существует ли реальная экономическая выгода в получении диплома какого-либо из престижных колледжей или университетов?

5

Netflix – американская компания, поставщик фильмов и сериалов на основе потокового мультимедиа. Прим. перев.

• Что является причиной роста заболеваемости аутизмом?

Статистика способна помочь нам (или, как мы рассчитываем, поможет в ближайшем будущем) получить ответы на эти вопросы.

Наш мир все быстрее и быстрее генерирует все большие и большие объемы данных. Тем не менее, как справедливо отметила The New York Times, «данные – всего лишь исходный материал знаний» {3} , [6] . Статистика – самый мощный из имеющихся в нашем распоряжении инструментов для практического использования информации, например для оценивания эффективности действий бейсболистов или более справедливой оплаты труда преподавателей. Ниже приведен краткий обзор того, как статистика способна придать смысл исходным данным.

3

Steve Lohr, For Today’s Graduate, Just One Word: Statistics, New York Times, August 6, 2009.

6

Исторически так сложилось, что слово «данные» (data) используется во множественном числе (например, «эти данные являются весьма обнадеживающими»). Это слово можно употреблять и в единственном числе: «данное» (datum); в этом случае речь идет о каком-то отдельно взятом элементе данных (например, ответ одного человека на какой-то один вопрос анкеты, используемой при опросе общественного мнения). Употребление слова «данные» во множественном числе сигнализирует каждому, кто занимается серьезными исследованиями, о том, что вы знаете толк в статистике. С учетом сказанного многие специалисты по грамматике, а также многие издания, такие как The New York Times, в настоящее время согласны с тем, что слово «данные» может означать как единственное, так и множественное число, как свидетельствует приведенная мной цитата из The New York Times.

Описание и сравнение

Счет партии в боулинг является описательной (дескриптивной) статистикой. То же можно сказать и о каком-либо среднем показателе (например, в спорте). Большинство американских спортивных болельщиков в возрасте старше пяти лет неплохо разбираются в описательной статистике. Мы используем численные показатели в спорте и других сферах жизни для подытоживания информации. Насколько Микки Мэнтл был хорош как бейсболист? Его итоговый рейтинг как хиттера составил 0,298. Для бейсбольных болельщиков это весьма красноречивое число. Итоговый рейтинг 0,298 – выдающийся показатель, если принять во внимание, что в нем учитываются результаты Микки Мэнтла за восемнадцать лет карьеры профессионального бейсболиста {4} . (Хотя, согласитесь, если итог жизни человека можно выразить одним-единственным числом, это несколько разочаровывает и настраивает на мысли о бренности человеческого бытия.) Разумеется, фанаты бейсбола должны помнить о существовании другой описательной статистики, которая, возможно, отражает ценность того или иного бейсболиста гораздо лучше, чем пресловутый средний показатель.

4

Baseball-Reference.com, http://www.baseball-reference.com/players/

Академическая успеваемость учащихся школ и колледжей в США оценивается с помощью среднего балла. В стране используется шкала с буквенными обозначениями, где каждой букве соответствует определенный балл: как правило, A = 4 балла, B = 3 балла, C = 2 балла и т. д. По окончании учебного заведения, когда абитуриенты поступают в колледжи, а выпускники колледжей подыскивают себе работу, средний балл становится удобным инструментом для оценивания их академического потенциала. Тот, у кого средний балл 3,7, явно сильнее выпускника со средним баллом 2,5. Таким образом, средний балл является весьма полезной описательной статистикой. Его легко вычислить, понять и сравнивать с баллами других учащихся.

Поделиться с друзьями: