ЖАНРЫ

Наукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке
Шрифт:

Как вы, наверное, догадались, психологов напугала совокупность неудавшихся попыток повторить эксперименты (как в исследованиях прайминга) и странных результатов (вроде паранормальных открытий Бема) наряду с разоблачением ложных представлений (как в эксперименте Зимбардо) и мошенничества (поддельные данные Стапела). Скольким же исследованиям в области психологии, недоумевали они, можно доверять? Чтобы получить представление о том, насколько дела плохи, они начали объединяться в команды для проведения крупномасштабных повторов значимых исследований в разных лабораториях. Самым заметным стало крупное сообщество ученых, отобравшее сто работ из трех топовых журналов по психологии и попытавшееся их воспроизвести. Читать о результатах, опубликованных в 2015 году в Science, было горько: в конечном счете лишь 39 % работ были признаны успешно воспроизведенными [84] . В другом подобном предприятии 2018 года ученые пытались повторить двадцать одно исследование по социальным наукам из двух самых авторитетных многопрофильных журналов в мире – Nature и Science. На сей раз воспроизвелось 62 % [85] . В последующих масштабных повторах исследований, касающихся разнообразных психологических феноменов, воспроизвелось 77, 54 и 38 % результатов [86] . Почти все повторы, даже успешные, продемонстрировали, что в исходных статьях эффекты были преувеличены. В целом кризис воспроизводимости легким движением руки стер, похоже, около половины всех исследований по психологии [87] .

84

Open Science Collaboration. Estimating the Reproducibility of Psychological Science. Science. 349, no. 6251 (2015): aac4716.

85

Camerer C. F. et al. Evaluating the Replicability of Social Science Experiments in Nature and Science between 2010 and 2015. Nature Human Behaviour. 2, no. 9 (2018): 637–44.

86

Последнее число соответствует шести удачным попыткам воспроизвести шестнадцать исследований. Ebersole C. R. et al. Many Labs 3: Evaluating Participant Pool Quality across the Academic Semester via Replication. Journal of Experimental Social Psychology. 67 (2016): 68–82.

87

Тут некоторые критики могут возразить, что я сам попал в вырытую другим яму. Я подчеркивал важность надежных результатов, однако, заявляя, что разразился кризис воспроизводимости, полагаюсь на попытки воспроизвести разные исследования, которые не являются репрезентативной выборкой из всей научной литературы. Вывод о том, что лишь “около половины” опубликованных результатов воспроизводятся, возможно, нельзя обобщать на всю науку. Такой аргумент был приведен в критической заметке к одному из исследований, посвященных повторению других работ: Gilbert D. T. et al. Comment on “Estimating the Reproducibility of Psychological Science”. Science. 351, no. 6277 (2016): 1037. Хотя я не согласен со многими приведенными там аргументами (некоторые причины скепсиса описаны здесь: Lakens D. The Statistical Conclusions in Gilbert et al (2016) Are Completely Invalid. The 20 % Statistician. 6 March 2016), замечание насчет репрезентативности справедливо. Мы все еще плохо понимаем, какая именно часть результатов по всем научным направлениям воспроизводима, даже в областях вроде психологии, где были предприняты эти масштабные попытки повторить прежние результаты, – правда может оказаться пригляднее, чем показывают те исследования, или же наоборот. Но сам факт, что мы этого не знаем, – а также то, что столь много громких, нашумевших открытий рассыпалось в прах при более внимательном рассмотрении, – является, я убежден, поводом для немалого беспокойства. Ответы на другие критические замечания, оспаривающие идею, что разразился кризис, см. тут: Pashler H., Harris C. R. Is the Replicability Crisis Overblown? Three Arguments Examined. Perspectives on Psychological Science. 7, no. 6 (2012): 531–6.

Возможно, все не столь уж плохо – по двум причинам. Во-первых, следует ожидать, что некоторые результаты, на самом деле надежные, иногда не получается воспроизвести просто по невезению [88] . Во-вторых, какие-то повторы могли провалиться из-за того, что их проводили с небольшими изменениями в методологии по сравнению с исходным исследованием (правда, если результат настолько нестабилен, что исчезает при малейших изменениях в постановке эксперимента, то возникает вопрос, имеет ли он вообще какой-то смысл и применение) [89] . По этим причинам иногда трудно понять, является результат “воспроизводимым” или нет, на основании только одной-двух попыток его повторить. Кроме того, доля воспроизводимых исследований для разных областей психологии, похоже, отличается: например, в статье 2015 года, вышедшей в Science, когнитивная психология (изучение памяти, восприятия, языка и так далее) проявила себя лучше, чем социальная (к коей относятся всевозможные исследования прайминга, обсуждавшиеся выше) [90] .

88

Bird A. Understanding the Replication Crisis as a Base Rate Fallacy. British Journal for the Philosophy of Science. 13 Aug. 2018.

89

Разумеется, авторы исходной работы (те, чьи результаты не воспроизвелись) зачастую заявляли, что изменения были на самом деле значительными и серьезно испортили эксперимент. Каждый случай следует разбирать отдельно, однако подобный аргумент наводит на мысль о некой предвзятости.

90

Другая область, где все неплохо, – психология личности. Психолог Кристофер Сото провел масштабную работу по воспроизведению результатов исследований личности – корреляций личностных качеств, оцениваемых по опросникам, с такими показателями, как удовлетворенность жизнью и романтическими отношениями, религиозные и политические взгляды и карьерный успех. Доля успешно воспроизведенных результатов получилась 87 %, что весьма достойно по сравнению с другими областями, которые мы обсуждали. Soto C. J. How Replicable Are Links Between Personality Traits and Consequential Life Outcomes? The Life Outcomes of Personality Replication Project. Psychological Science. 30, no. 5 (2019): 711–27.

Однако в целом на психологию все это подействовало опустошительно. Дело было не только в том, что разоблачались такие легковесные, эффектные исследования, как посвященные праймингу или позам силы, – огромное количество куда более “серьезных” работ по психологии (стэнфордский тюремный эксперимент и многие другие) тоже оказалось поставлено под сомнение. И проблема была не в том, что откопали какое-то ненужное старье и наглядно показали, что оно никуда не годится, – как когда папа Стефан VI в 897 году эксгумировал труп одного из своих предшественников, папы Формоза, и отдал под суд (тот был признан виновным). Нет, на работы, воспроизвести которые не удалось, продолжали как ни в чем не бывало ссылаться как ученые, так и писатели: целые направления исследований и пользующиеся хорошим спросом научно-популярные книги строились на таком шатком фундаменте. Слово “кризис” кажется весьма точным описанием ситуации.

Мы можем попробовать утешиться тем, что в психологии как дисциплине есть нечто уникальное, что и вызвало ее кризис воспроизводимости. У психологов незавидная работа: они пытаются разобраться в крайне изменчивых и чрезвычайно сложных человеческих существах, со всеми их разными личностями, знаниями, опытом, настроениями и особенностями. Изучаемые психологами объекты, такие как мысли, эмоции, внимание, способности, восприятие, обычно неуловимы – их трудно, если вообще возможно, зафиксировать в лабораторном эксперименте. А в социальной психологии ученым приходится изучать, как все эти хитросплетенные люди друг с другом взаимодействуют. Не могла ли невероятная сложность задачи сделать открытия в психологии особенно ненадежными по сравнению с другими науками?

В этом аргументе есть кое-что справедливое: во многих исследованиях по психологии интересующее ученых явление едва затрагивается, тогда как другие, более “точные” науки, скажем физика, характеризуются лучше разработанными теориями и более точными и по-настоящему объективными измерениями. Однако нельзя сказать, что только в психологии есть проблемы с воспроизводимостью: хотя ни в какой другой области науки столь систематически и детально еще не изучалась доля успешно воспроизводящихся результатов, есть намеки на однотипные проблемы в огромном количестве разных направлений.

• Экономика: в исследовании 2016 года, повторяющем восемнадцать работ по микроэкономике (когда люди приходят в лабораторию и принимают участие в экспериментах, посвященных их экономическому поведению, – что не слишком отличается от исследований по психологии), доля воспроизводимости равнялась лишь 61 % [91] .

• Нейронауки: в исследовании 2018 года обнаружилось, что стандартные работы по функциональной нейровизуализации, когда с помощью магнитно-резонансной томографии регистрируется активность мозга, пока человек выполняет какие-то задания (или просто лежит внутри МРТ-сканера), отличались лишь “незначительной воспроизводимостью” [92] . Еще мир функциональной нейровизуализации сотрясла статья, в которой вскрылось, что дефолтные настройки пакета программ, широко используемого для анализа данных визуализации, содержат статистическую ошибку. Это привело к громадному числу случайных нескорректированных ложноположительных результатов и скомпрометировало примерно 10 % всех статей, когда-либо опубликованных по этой теме [93] .

91

Camerer C. F. et al. Evaluating Replicability of Laboratory Experiments in Economics. Science. 351, no. 6280 (2016): 1433–6.

92

Turner B. O. et al. Small Sample Sizes Reduce the Replicability of Task-Based fMRI Studies. Communications Biology. 1, no. 1 (2018): 62.

93

Eklund A. et al. Cluster Failure: Why fMRI Inferences for Spatial Extent Have Inflated False-Positive Rates. Proceedings of the National Academy of Sciences. 113, no. 28 (2016): 7900–5; Eklund A. et al. Cluster Failure Revisited: Impact of First Level Design and Physiological Noise on Cluster False Positive Rates. Human Brain Mapping. 40, no. 7 (2019): 2017–32.

Эволюционная биология и экология: на целый ряд классических результатов, давно попавших в учебники и вызубриваемых поколениями студентов, посыпались критические обзоры после попыток их воспроизвести. Так, выяснилось, что заявления о знаменитом “синдроме одомашнивания”, когда лисицы в СССР, отбираемые по признаку дружелюбности, начинали приобретать внешний облик одомашненных видов (например, висячие уши и укороченные, широкие морды), были сильно преувеличены, причем большинство признаков “приручения” существовало еще до начала процесса селекции [94] . И многое из того, что, как мы думали, нам известно о половом отборе у птиц, было развенчано при получении более надежных данных. Скажем, в противоположность тому, что мы якобы знали, красная повязка на лапках у самцов зебровых амадин, похоже, не делает их сверхпривлекательными для самок; самцы воробьев с более крупным пятном черных перьев на горле (так называемым нагрудником), похоже, не доминируют в стае; а доказательства, что самок обыкновенных лазоревок больше привлекают определенные цвета оперения у самцов, неубедительны [95] .

94

Lord K. A. et al. The History of Farm Foxes Undermines the Animal Domestication Syndrome. Trends in Ecology & Evolution. 35, no. 2 (2020): 125–36.

95

Зебровые амадины: Wang D. et al. Irreproducible Text-Book “Knowledge”: The Effects of Color Bands on Zebra Finch Fitness. Evolution. 72, no. 4 (2018): 961–76. См. также Law Y.-H. Replication Failures Highlight Biases in Ecology and Evolution Science. The Scientist. 31 July 2018. Воробьи: Sanchez-Tojar A. et al. Meta-analysis challenges a textbook example of status signalling and demonstrates publication bias. eLife. 7 (2008): e37385. Обыкновенные лазоревки: Parker T. H. What Do We Really Know about the Signalling Role of Plumage Colour in Blue Tits? A Case Study of Impediments to Progress in Evolutionary Biology. Biological Reviews. 88, no. 3 (2013): 511–36.

• Биология моря: в масштабном исследовании 2020 года, повторяющем другие работы, выяснилось, что закисление океана (как и изменение климата, это одно из последствий повышения уровня диоксида углерода в атмосфере) не влияет на поведение рыб [96] . Таким образом, не удалось воспроизвести несколько исследований предыдущего десятилетия, получивших широкую огласку, которые явно показывали, что в закисленной среде рыбы становятся дезориентированными и иногда плывут по направлению к химическим сигналам хищников, а не от них.

96

Clark T. D. et al. Ocean Acidification Does Not Impair the Behaviour of Coral Reef Fishes. Nature. 577, no. 7790 (2020): 370–5. См. также Enserink M. Analysis Challenges Slew of Studies Claiming Ocean Acidification Alters Fish Behavior. Science. 8 Jan. 2020. Как отмечается в этой второй статье, из того, что поведение рыб, похоже, не меняется, не следует, что нам нужно перестать беспокоиться о закислении океана, которое вызывает много других пагубных явлений. Позднее авторов исходных статей (двадцати двух штук) о закислении океана и поведении рыб обвинили в научном мошенничестве. См. Enserink M. Does Ocean Acidification Alter Fish Behavior? Fraud Allegations Create a Sea of Doubt. Science. 6 May 2021.

• Органическая химия: журнал Organic Syntheses, придерживающийся необычной политики – член редколлегии пробует повторить в собственной лаборатории результаты каждой подаваемой на рассмотрение статьи, – сообщил, что отказывает авторам 7,5 % работ из-за провалившихся попыток воспроизвести исследование [97] .

Есть бесчисленное множество и других примеров: почти каждый случай, что я буду описывать в этой книге, содержит научное “открытие”, при ближайшем рассмотрении оказавшееся либо менее надежным, чем казалось, либо и вовсе недостоверным. Однако еще тревожнее то, что эти примеры порождены исследованиями, которые подверглись столь тщательному изучению, – получается, это лишь те примеры, о которых мы знаем. Сколько еще результатов, должны задаться мы вопросом, окажутся невоспроизводимыми, если кому-то случится попробовать их повторить?

97

www.orgsyn.org/instructions.aspx. См. также Chawla D. S. Taking on Chemistry’s Reproducibility Problem. Chemistry World. 20 March 2017.

Одна из причин, почему мы живем в такой неопределенности, заключается в том, что, как говорилось в предисловии, почти никто не проводит исследований, повторяющих прежние работы. Хотя в нашем распоряжении для большинства областей нет количественных данных, анализ специализированной литературы для некоторых из них позволяет сделать мрачный вывод. В экономике жалкие 0,1 % всех опубликованных статей посвящены попыткам воспроизвести предыдущие исследования; в психологии этот показатель выше, но все равно весьма прискорбный – чуть больше 1 % [98] . Если все неустанно рвутся вперед к новым открытиям, не делая остановок, чтобы проверить, надежны ли уже имеющиеся знания, так ли уж удивителен приведенный выше список провалившихся попыток что-то воспроизвести?

98

Поиск нужных статей проводился таким образом, что исследования, которые открыто не объявляли себя попытками воспроизвести предыдущие работы, могли оказаться неучтенными, поэтому итоговый процент, вероятно, на самом деле чуточку больше. Экономика: Mueller-Langer F. et al. Replication Studies in Economics – How Many and Which Papers Are Chosen for Replication and Why? Research Policy. 48, no. 1 (2019): 62–83. Психология: Makel M. C. et al. Replications in Psychology Research: How Often Do They Really Occur? Perspectives on Psychological Science. 7, no. 6 (2012): 537–42. Также обращаю ваше внимание: по поводу того, что считать попыткой воспроизвести исследование, ведутся споры. Некоторые ученые провели множество “содержательных” повторений, в целом похожих на исходное исследование, но в деталях иногда от него отличающихся. Это по-своему интересно, но это не “прямое” повторение, когда именно та же, насколько только возможно, работа проводится сызнова. Вот такого рода исследований-повторений и не хватает. См. Schmidt S. Shall We Really Do It Again? The Powerful Concept of Replication is Neglected in the Social Sciences. Review of General Psychology. 13, no. 2 (2009): 90–100.

А вот что вызывает, пожалуй, еще большую озабоченность. Казалось бы, если вы получили точно такой же набор данных, как и в опубликованной ранее статье, вы сможете прийти к абсолютно тем же результатам, что описаны авторами. К сожалению, во многих областях исследователи сталкивались с невероятными трудностями при выполнении этой вроде бы нехитрой задачи. Иногда именно подобную проблему называют проблемой воспроизводимости, в противоположность проблеме сходимости результатов (последний термин обычно используется применительно к исследованиям, в которых ученые задаются теми же вопросами, но работают с другими данными) [99] . Как это возможно, чтобы результаты в таких условиях не воспроизвелись? Иногда причина в ошибках исходного исследования. А бывает и так, что авторы исходной работы недостаточно четко описали свой анализ, например, прибегали ко всяким выкрутасам со статистикой, о которых в статье не доложили, и поэтому их конкретные шаги независимые исследователи воссоздать не могут. Когда другие ученые как-то по-своему проводят статистический анализ данных, результаты выходят иные. Такие статьи – словно кулинарная книга, где полно фотографий блюд, от которых просто слюнки текут, но мало внимания уделено описанию ингредиентов и рецептам, необходимым для создания этих шедевров.

99

Во избежание путаницы заметим, что в англоязычной специализированной литературе существуют два разных термина: “проблема сходимости результатов” (replicability или repeatability) и “проблема воспроизводимости результатов” (reproducibility). В русскоязычной же литературе обычно не делается различий между этими случаями и используется единый термин – “проблема воспроизводимости”. Учитывая, что и в английском языке применение двух разных терминов не строгое (на что, в частности, указывает и сам автор в примечании 49 к этой главе), в русском переводе данной книги используется только термин “воспроизводимость”, тем более что необходимые детали соответствующих исследований там, где они важны, поясняются автором отдельно. (Здесь и далее – прим. перев.)

Поделиться с друзьями: