ЖАНРЫ

Голая статистика. Самая интересная книга о самой скучной науке
Шрифт:

Статистическая дискриминация (установление различия в статистическом смысле). В каких случаях следует опираться на то, что подсказывает нам теория вероятностей, а в каких так поступать не стоит? В 2003 году Анна Диамантопуло, еврокомиссар по проблемам занятости и социальным вопросам, выступила с предложением запретить страховым компаниям применять разные ставки к мужчинам и женщинам, поскольку это нарушает принцип равноправия, исповедуемый Евросоюзом {50} . Однако страховые компании вовсе не рассматривают такие надбавки как гендерную дискриминацию – для них это всего лишь статистика. Мужчины обычно платят больше за автостраховку, поскольку чаще, чем женщины, попадают в аварии. Женщины платят больше за аннуитеты (финансовый продукт, который выплачивает фиксированную ежемесячную или ежегодную сумму), потому что живут дольше, чем мужчины. Очевидно, что многие женщины попадают в аварии чаще, чем многие мужчины, а многие мужчины живут дольше, чем многие женщины. Но, как объяснялось в предыдущей главе, страховым компаниям нет до этого никакого дела. Их интересуют лишь среднестатистические показатели, поскольку именно это позволяет им получать прибыль. Что же касается политики Еврокомиссии, запрещающей ставить страховые надбавки в зависимость от пола человека (эта политика вступила в силу в 2012 году), то интересно отметить, что они вовсе не утверждают, будто страхуемые риски никоим образом не связаны с полом человека; они лишь заявляют о неприемлемости увязки с полом ставок страхования [34] .

50

The Price of Equality, Economist, November 15, 2003.

34

Указанное изменение политики Еврокомиссии было в конечном счете разъяснено в особом постановлении Верховного суда Евросоюза от 2011 года. В этом постановлении было указано, что применение разных надбавок к мужчинам и женщинам представляет собой дискриминацию по половому признаку.

Поначалу это кажется всего лишь раздражающей данью политкорректности. Но после некоторого размышления я не стал бы торопиться с таким выводом. Помните впечатляющую информацию о предотвращении преступлений? В этом отношении теория вероятностей может завести нас в интересные, но весьма «проблемные» места. Как нам следует реагировать, когда вероятностные модели говорят о том, что мексиканские наркоторговцы чаще всего оказываются испаноязычными мужчинами в возрасте от восемнадцати до тридцати лет, перевозящими товар в красных грузовиках-пикапах где-то между девятью и двенадцатью часами ночи, если нам также известно, что подавляющее большинство испаноязычных мужчин, соответствующих такому профилю, не промышляют контрабандой метамфетамина? Да, я использовал слово «профиль», поскольку оно представляет собой менее эффектное описание предсказательной аналитики, о которой я так красочно рассказывал в предыдущей главе, или по крайней мере один ее потенциальный аспект.

Теория вероятностей указывает нам, какие события более вероятны, а какие – менее. Да, речь идет лишь о базовой статистике – инструментах, описанию которых я посвятил несколько последних глав. Но это также статистика с социальными последствиями. Если мы хотим поймать уголовных преступников, террористов и наркоторговцев, а также других лиц, представляющих угрозу для общества, то обязаны использовать для этого все имеющиеся в нашем распоряжении инструменты. Теория вероятностей может быть одним из таких инструментов. Было бы наивно полагать, будто пол, возраст, расовая принадлежность, национальность, вероисповедание и страна происхождения человека в своей совокупности не играют никакой роли в том, что касается правоприменения.

Однако вопрос, что мы можем или должны делать с информацией такого рода, предполагая, что она представляет собой какую-то прогностическую ценность, является философско-правовым (но отнюдь не статистическим). Буквально каждый день мы получаем все больше и больше информации о все более широком круге явлений. Разве мы не будем одобрять дискриминацию, если соответствующие данные говорят нам о том, что мы будем правы гораздо чаще, чем неправы? (Именно отсюда происходит термин «статистическая дискриминация», или «рациональная дискриминация».) Точно такой же анализ, как использовался для того, чтобы выяснить, что люди, покупающие корм для птиц, менее склонны увиливать от оплаты по кредитным карточкам (представьте, это действительно так!), может применяться ко всем остальным аспектам нашей жизни. Какая часть всего этого может быть приемлема для нас? Если нам удастся разработать модель, позволяющую выявлять наркоторговцев в 80 случаях из 100, что случится с беднягами, которые попадут в оставшиеся 20 %, – ведь для этих ни в чем не повинных людей наша модель несет вполне реальную угрозу!

Проблема состоит в том, что наша способность анализировать данные развилась значительно больше, чем понимание того, как нам следует поступать с результатами этого анализа. Вы можете соглашаться или нет с решением Еврокомиссии, запрещающим применение страховых надбавок, связанных с полом человека, но я абсолютно уверен, что это далеко не последнее спорное решение такого рода. Нам нравится думать о числах как о «холодных, неумолимых фактах». Если вычисления выполнены правильно, то у нас должен получиться правильный ответ. Однако более интересная и опасная реальность заключается в том, что подчас мы можем правильно все рассчитать – и двинуться в опасном направлении. Мы можем разрушить финансовую систему или упечь за решетку двадцатидвухлетнего белого парня, которому не повезло оказаться в определенное время в определенном месте, потому что, согласно нашей статистической модели, он явился сюда затем, чтобы купить наркотики. Какой бы соблазнительной ни была элегантность и точность вероятностных моделей, они не заменят нам здравого размышления о сути и цели выполняемых вычислений.

7. Почему так важны данные

«Мусор на входе – мусор на выходе»

Весной 2012 года в популярном журнале Science вышел сенсационный материал. В нем говорилось, что на основании результатов одного исследования, опирающегося на последние достижения науки, ученые сделали вывод, что когда самка дрозофилы (плодовой мушки) категорически отвергает ухаживания самца, он впадает в отчаяние и начинает топить горе в алкоголе. Газета The New York Times так описывала этот эксперимент в своей передовице: «Это были молодые самцы, ищущие любовных приключений. Будучи многократно отвергнутыми группой привлекательных самок, порхавших неподалеку, они поступили так же, как и многие мужчины в аналогичном случае, – запили с горя, используя алкоголь как болеутоляющее средство от неразделенной любви» {51} .

51

Benedict Carey, Learning from the Spurned and Tipsy Fruit Fly, New York Times, March 15, 2012.

Это исследование дает нам возможность лучше уяснить работу системы вознаграждения, встроенную в мозг человека, что, в свою очередь, должно помочь в поиске новых стратегий борьбы с алкоголизмом и наркоманией. Один специалист по вопросам наркозависимости написал, что знакомство с результатами этого эксперимента позволило ему «заглянуть в далекое прошлое и увидеть там истоки системы вознаграждения, которая определяет фундаментальные модели поведения, такие как секс, еда и сон».

Поскольку я не являюсь экспертом в данной области, после прочтения публикации о неразделенной любви самцов дрозофилы у меня возникли две несколько различающиеся между собой реакции. Во-первых, появилось чувство ностальгии по временам студенческой молодости. Во-вторых, мой «внутренний исследователь» заинтересовался, каким образом самцам дрозофилы удавалось запить с горя. Может быть, где-то поблизости находился миниатюрный бар для мушек-дрозофил с широким ассортиментом фруктовых алкогольных напитков, которые подавал бармен-дрозофил, всегда готовый выслушать вас и посочувствовать вашему горю? Наверное, в баре ненавязчиво звучала музыка в стиле кантри, вызывавшая сильный прилив чувств у мушек-дрозофил, чьи жизненые мечты потерпели крушение?

В действительности все оказалось гораздо проще и прозаичнее. Одной группе самцов дрозофилы исследователи предоставили возможность беспрепятственно спариваться с самками, еще не подобравшими себе пару. Другой разрешили попытать счастья среди самок, которые уже подобрали себе пару и по этой причине были равнодушны к ухаживаниям других самцов. Затем обеим группам самцов дрозофилы были предложены на выбор питательные соломинки, содержащие две разные «диеты»: стандартное питание мушек-дрозофил плюс закваска и сахар, а также кое-что «покрепче»: закваска, сахар и 15-процентный раствор спирта. Самцы, которые провели несколько дней в бесплодных попытках найти себе пару среди безразличных к ним самок, оказались более склонны к «горячительному».

Какими бы легкомысленными ни казались эти выводы, они очень важны для человека, поскольку указывают на связь между стрессом, ответными химическими реакциями в мозгу человека и тягой к алкоголю. Тем не менее эти результаты – не триумф статистики. Это триумф данных, сделавших возможным этот относительно фундаментальный статистический анализ. Изюминка исследования заключалась в нахождении пути формирования двух групп – сексуально удовлетворенных и сексуально неудовлетворенных самцов дрозофилы – и последующем поиске способа сравнения их тяги к спиртному. После того как ученым удалось реализовать свой замысел, обработка соответствующих данных оказалась не сложнее, чем написание школьного реферата по математике.

Данные для статистики – примерно то же самое, что для выдающегося куортербека мощная линия блокирующих игроков. Сами по себе они не представляют особого интереса для зрителей, но без них выдающийся куортербек не сможет проявить свои способности. В большинстве книг по статистике предполагается, что вы используете надежные данные, точно так же как в любой кулинарной книге предполагается, что для приготовления блюд вы не станете покупать тухлое мясо или гнилые овощи. Даже самый замечательный рецепт не сделает вкусным блюдо, приготовленное из некачественных продуктов. То же касается статистики: даже самый изощренный анализ не принесет никакой пользы, если за основу взяты сомнительные данные. Отсюда выражение: «Мусор на входе – мусор на выходе» [35] . Данные заслуживают уважительного отношения – как и линия блокирующих игроков в американском футболе.

35

Известный принцип программирования, в соответствии с которым неверные входные данные не могут привести к правильному результату. Прим. перев.

Как правило, данные выполняют одну из трех функций. Во-первых, нам может потребоваться определенная выборка данных, соответствующая характеристикам генеральной совокупности (так называемая репрезентативная выборка). Если наша задача – оценить отношение избирателей к конкретному политическому деятелю, нам понадобится опросить некоторую их часть (выборку) в соответствующем избирательном округе или в целом в стране. (Обратите внимание: нас не интересует выборка, которая представляла бы каждого, кто проживает на искомой территории; нам требуется выборка лиц, планирующих участвовать в голосовании.) Одно из самых фундаментальных положений статистики, более глубокому разъяснению которого мы уделим место в двух следующих главах, заключается в том, что выводы, сделанные на основе достаточно больших, надлежащим образом сформированных выборок, могут оказаться такими же точными, как и в случае, если бы мы попытались получить ту же информацию от всего населения.

Поделиться с друзьями: