Наукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке
Шрифт:
В макроэкономике (изучающей, например, налоговую политику и ее влияние на экономическое развитие стран) при повторном анализе шестидесяти семи статей ученые, используя точно такие же наборы данных, сумели воспроизвести результаты лишь двадцати двух, и последующее привлечение к работе авторов тех статей помогло несильно [100] . В науках о Земле исследователи испытывали как минимум небольшие трудности при получении тех же результатов в случае тридцати семи из тридцати девяти изучавшихся ими статей [101] . А когда исследователи машинного обучения проанализировали набор статей об “алгоритмах рекомендаций” (это тип компьютерных программ, которые используются сайтами вроде Amazon и Netflix, чтобы на основании того, что люди вроде вас выбирали раньше, предугадывать, какую покупку вам сейчас захотелось бы сделать или какой фильм посмотреть), то смогли воспроизвести только семь из восемнадцати работ на эту тему, незадолго до того представленных на престижных конференциях по компьютерным системам [102] . Те статьи – воплощение классической карикатуры Сидни Харриса.
100
Chang A. C., Li P. Is Economics Research Replicable? Sixty Published Papers from Thirteen Journals say “Usually Not”. Finance and Economics Discussion Series. 2015, no. 83 (2015): 1–26. Washington: Board of Governors of the Federal Reserve System. Подробный обзор проблемы воспроизводимости в экономике: Christensen G., Miguel E. Transparency, Reproducibility, and the Credibility of Economics Research. Working Paper no. 22989. National Bureau of Economic Research. 2016.
101
Konkol M. et al. Computational Reproducibility in Geoscientific Papers: Insights from a Series of Studies with Geoscientists and a Reproduction Study. International Journal of Geographical Information Science. 33, no. 2 (2019): 408–29.
102
И даже хуже: из этих семи статей в целых шести методы избыточны по сравнению с гораздо более простыми методами, которые были известны за много лет до того, как создавались эти новые алгоритмы. Dacrema M. F. et al. Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches. RecSys 2019. Copenhagen, Denmark. См. также отчет по компьютерным наукам, который дает понять, что у новых исследователей не получается воспроизвести результаты применения нескольких классических алгоритмов – а это своего рода бомба замедленного действия, поскольку “молодые ученые не хотят выглядеть хулителями старших коллег”, публикуя статьи о провалившихся попытках воспроизвести действие алгоритмов, которые были разработаны старшими коллегами и на которых держится их репутация. Hutson M. Artificial Intelligence Faces Reproducibility Crisis. Science. 359, no. 6377 (2018): 725–6.
Вы вправе удивиться, почему некоторые из перечисленных выше примеров вообще имеют значение. Хоть мы и наблюдали плохую воспроизводимость в кое-каких важных областях, например в экономической теории, каким образом наша жизнь может измениться, если кучка ученых в итоге разойдется во взглядах на то, работают ли позы силы и отличаются ли альфа-самцы воробьев более крупным пятном черных перьев? На этот вопрос есть два ответа. Первый заключается в том, что на чашу весов положен более общий принцип: наука критически важна для нашего общества, и мы не должны допускать появления низкокачественных, невоспроизводимых исследований, компрометирующих ее, ни в одной области. Если мы позволим стандартам в любой области просесть, мы рискуем испортить репутацию науки в целом. Второй ответ связан с научным направлением, которое мы еще не рассматривали, где отсутствие воспроизводимости имеет бесспорные прямые последствия. Это, конечно же, область медицинских исследований.
“Думаю, вам следует подробнее расписать второй шаг”
Примерно в то время, когда кризис воспроизводимости назревал в психологии, ученые из биотехнологической компании Amgen попробовали повторить пятьдесят три ключевых “доклинических” исследования рака, результаты которых были опубликованы в топовых научных журналах (доклинические исследования – это те, что проводятся на первых этапах разработки лекарства, обычно на мышах или на человеческих клетках in vitro [103] ) [104] . Всего шесть из этих попыток (а это лишь 11 %) увенчались успехом. Итог сходных попыток другой фирмы, Bayer, оказался немногим лучше – около 20 % [105] . Подобное отсутствие строгого подкрепления результатов в области доклинических исследований – вероятно, одна из причин, по которым испытания лекарств от рака так часто разочаровывают: согласно одной оценке, только 3,4 % таких лекарств проходят весь путь от первых доклинических исследований до применения на людях [106] .
103
То есть в пробирке.
104
Begley C. G., Ellis L. M. Raise Standards for Preclinical Cancer Research. Nature. 483, no. 7391 (2012): 531–3.
105
Prinz F. et al. Believe It or Not: How Much Can We Rely on Published Data on Potential Drug Targets? Nature Reviews Drug Discovery. 10 (2011): 712. Обратите внимание, что приведенная в статье сотрудниками Bayer диаграмма включает только 70 % исследований рака – остальные 30 % связаны с женским здоровьем или сердечно-сосудистой системой.
106
Wong C. H. et al. Estimation of Clinical Trial Success Rates and Related Parameters. Biostatistics. 20, no. 2 (2019): 273–86. Из всех разнообразных лекарств доля тех, что добираются от доклинических испытаний до применения на людях, оценивается в данной работе в 13,8 %, так что с исследованиями рака все особенно плохо.
Подобные неприятные открытия заставили ученых, занимающихся раком, как и психологов, задуматься об общем состоянии их области. В 2013 году они объединились для совместной попытки повторить пятьдесят важных доклинических исследований рака в независимых лабораториях [107] . В тех работах утверждалось, например, что конкретный вид бактерий может быть связан с ростом опухоли при колоректальном раке и что некоторые мутации при лейкемии связаны с активностью определенного фермента [108] . Но еще до начала проведения исследований-повторений возникли трудности. В каждой без исключений исходной статье для всех до единого экспериментов авторы приводили недостаточно сведений для того, чтобы читатель мог понять, как провести точно такой же опыт [109] . Технические детали экспериментов – например, плотность используемых клеток или особенности измерений и анализа – попросту не упоминались. Работа по повторению исследований забуксовала, поскольку потребовала обширной переписки с авторами исходных статей, которым для отыскания конкретных деталей своих экспериментов зачастую приходилось откапывать старые лабораторные журналы и связываться с бывшими коллегами [110] . Кто-то сотрудничать не хотел: о 45 % авторов исходных статей исследователи отозвались как о “минимально полезных” или “вообще не оказавших помощи” [111] . Возможно, они беспокоились, что ученые, повторяющие их работу, окажутся некомпетентными или что их будущие исследования не получат финансирования, если воспроизвести их прежние результаты не удастся [112] .
107
Nosek B. A., Errington T. M. Reproducibility in Cancer Biology: Making Sense of Replications. eLife. 6 (2017): e23383. В названии “Проект по проверке воспроизводимости: биология рака” термин “воспроизводимость” используется в том же смысле, в каком я использую слово “сходимость” (то есть попытка получить те же результаты на другой выборке). Я выбрал определения для этой книги таким образом, чтобы отразить сложившийся консенсус, однако стоит понимать, что не все придерживаются той же терминологии.
108
Repass J. et al. Replication Study: Fusobacterium Nucleatum Infection is Prevalent in Human Colorectal Carcinoma. eLife. 7 (2018): e25801.
109
Errington T. Reproducibility Project: Cancer Biology – Barriers to Replicability in the Process of Research. 2019. https://osf.io/x9p5s/
110
Baker M., Dolgin E. Cancer Reproducibility Project Releases First Results. Nature. 541, no. 7637 (2017): 269–70; Engber D. Cancer Research Is Broken. Slate. 19 April 2016.
111
Errington T. Reproducibility Project (см. слайд 11).
112
Kaiser J. The Cancer Test. Science. 348, no. 6242 (2015): 1411–3.
Позже в более масштабном исследовании были случайным образом выбраны двести шестьдесят восемь биомедицинских статей, в том числе и из области клинических испытаний. Обнаружилось, что ни в одной из них, за единственным исключением, не содержался полный протокол исследования. А это означало опять-таки, что даже для того, чтобы предпринять попытку повторить эксперименты, требовалось знать дополнительные детали, не описанные в статье [113] . Другой анализ выявил, что в 54 % биомедицинских статей даже не описывалось толком, какие животные, реагенты или клетки использовались в экспериментах [114] . Давайте на минуту задумаемся, насколько же это странно. Если в статье исследование описывается лишь в общих чертах, а необходимые детали приходится месяцами выуживать из электронной переписки с авторами (а то они и вовсе оказываются навеки утеряны), зачем вообще было ее писать? Вернувшись мысленно хотя бы в XVII век к Роберту Бойлю, вспомним, что изначальная, глубинная цель ученых состояла в том, чтобы докладывать о каждой мелочи в своих штудиях, так чтобы другие могли досконально все изучить и попробовать повторить их исследования. Упомянутые статьи провалили эту фундаментальную проверку, равно как и опубликовавшие их журналы не сумели выполнить свою базовую, важнейшую функцию.
113
Iqbal S. A. et al. Reproducible Research Practices and Transparency across the Biomedical Literature. PLOS Biology. 14, no. 1 (2016): e1002333. Обратите внимание, что в полную выборку вошло 441 исследование, но только 268 из них содержали эмпирические данные.
114
Vasilevsky N. A. et al. On the Reproducibility of Science: Unique Identification of Research Resources in the Biomedical Literature. PeerJ. 1 (2013): e148. Проблемы, касающиеся недостаточно подробного написания статей, выходят за пределы биомедицины. О политологии, например, см. Wuttke A. Why Too Many Political Science Findings Cannot Be Trusted and What We Can Do About It: A Review of Meta-Scientific Research and a Call for Academic Reform. Politische Vierteljahresschrift. 60, no. 1 (2019): 1–19. Об экологии см. Parker T. H. et al. Transparency in Ecology and Evolution: Real Problems, Real Solutions. Trends in Ecology & Evolution. 31, no. 9 (2016): 711–9.
В проекте по воспроизведению исследований рака все эти проблемы с попытками повторить эксперименты вкупе с некоторыми финансовыми затруднениями привели к тому, что ученым пришлось постепенно сократить число работ, которые они намеревались повторить, – с пятидесяти до всего лишь восемнадцати [115] . К моменту написания этих строк отчет о повторении результатов четырнадцати из них уже опубликован, и картина получилась смешанная: для пяти исходных статей важные результаты (включая связь между лейкемией и ферментом) четко воспроизвелись, для четырех – воспроизвелись частично, для трех – совсем не воспроизвелись (в том числе связь между бактериями и колоректальным раком), а для двух результаты даже не получилось интерпретировать [116] . Повторять, стоит отметить, непросто.
115
Kaiser J. Plan to Replicate 50 High-Impact Cancer Papers Shrinks to Just 18. Science. 31 July 2018. Обратите внимание, что в примечании 51 к этой главе (Errington T. Reproducibility Project) обсуждается пятьдесят одно исследование, а не пятьдесят.
116
Все о “Проекте по проверке воспроизводимости: биология рака” см. здесь: https://elifesciences.org/collections/9b1e83d1/reproducibility-project-cancer-biology.
Проблемы с воспроизводимостью в медицине затронули не только лабораторные доклинические исследования – они могут напрямую влиять на средства лечения, прописываемые врачами своим пациентам. Оказывается, широко распространенные средства лечения часто основаны на низкокачественных исследованиях: вместо того чтобы прочно уходить корнями в доказательства, общепризнанная медицинская мудрость регулярно вступает в противоречие с результатами новых исследований. Подобное происходит так часто, что ученые-медики Винай Прасад и Адам Сифу окрестили это явление “медицинской реверсией” [117] .
117
Prasad V. K., Cifu A. S. Ending Medical Reversal: Improving Outcomes, Saving Lives. Baltimore: Johns Hopkins University Press, 2015.
Один особенно поразительный пример медицинской реверсии связан с “интранаркозным пробуждением”. Это неброское название дали жуткому (но, благо, редкому) осложнению, когда человек пробуждается во время операции, иногда чувствуя невыносимую боль от рассечения собственных тканей, и не может ни двигаться, ни говорить, ни сделать что-либо еще. Исследования 1990-х годов обосновали использование прибора под названием “монитор биспектрального индекса” (или “BIS-монитор” – от английского словосочетания bispectral index). По сути это электрод, который крепится к коже головы и позволяет хирургам удостовериться, что пациент действительно без сознания. Исследования воплотились в широко распространенную практику: к 2007 году половина операционных в США обзавелась таким прибором, и с ним было проведено около сорока миллионов операций по всему миру [118] . Однако выяснилось, что с исходными работами не все в порядке. Когда в 2008 году провели более масштабное и более высококачественное исследование, обнаружилось, что BIS-монитор бесполезен: “интранаркозное пробуждение случалось, даже когда [приборные] показания… укладывались в допустимый диапазон” [119] .
118
Lang J. Awakening. The Atlantic. Feb. 2013.
119
Avidan M. S. et al. Anesthesia Awareness and the Bispectral Index. New England Journal of Medicine. 358, no. 11 (2008): 1097.
В 2019 году Прасад, Сифу и их коллеги проанализировали более трех тысяч статей из трех самых престижных медицинских журналов и обнаружили, что не менее чем в трехстах девяноста шести из них опровергались устоявшиеся в медицинской практике мнения [120] . Вот лишь несколько примеров:
• Роды. В некоторых предыдущих исследованиях было показано, что, когда женщина рожает двойню, плановое кесарево сечение – самый безопасный вариант для младенцев. В результате это стало общепринятой практикой (по крайней мере в Северной Америке). Но в крупном рандомизированном исследовании 2013 года ученые не выявили никакой разницы с точки зрения здоровья детей [121] .
120
Herrera-Perez D. et al. A Comprehensive Review of Randomized Clinical Trials in Three Medical Journals Reveals 396 Medical Reversals. eLife. 8 (2019): e45183. Это было продолжением похожего исследования тех же авторов, когда обнаружилось 146 “медицинских реверсий”: Prasad V. et al. A Decade of Reversal: An Analysis of 146 Contradicted Medical Practices. Mayo Clinic Proceedings. 88, no. 8 (2013): 790–8.
121
Barrett J. F. R. et al. A Randomized Trial of Planned Cesarean or Vaginal Delivery for Twin Pregnancy. New England Journal of Medicine. 369, no. 14 (2013): 1295–1305.
• Аллергия. Аллергия на арахис бывает смертельной, и если у родителя она есть, то высок риск, что она разовьется и у его детей. Долгие годы рекомендации для младенцев из группы риска, основанные на результатах прежних исследований, предписывали не давать детям арахис как минимум до трех лет и кормящим матерям тоже его избегать. Оказывается, этот совет был неверным, все как раз наоборот: добротные рандомизированные испытания 2015 года показали, что лишь у примерно 2 % детей из группы риска, евших арахис в первые годы жизни, к пяти годам развилась на него аллергия, тогда как среди детей из группы риска, не употреблявших арахис, аллергия появилась почти у 14 % [122] .
122
Du Toit G. et al. Randomized Trial of Peanut Consumption in Infants at Risk for Peanut Allergy. New England Journal of Medicine. 372, no. 9 (2015): 803–13.
• Инфаркт миокарда. В некоторых небольших исследованиях было показано, что шансы выжить при остановке сердца у человека повышаются, если на несколько градусов снизить его температуру тела. Рекомендацию, основанную на этом открытии, начали включать в руководства для парамедиков. Однако в крупном исследовании 2014 года выяснилось, что охлаждение не влияет на шансы выжить, а то и вообще, возможно, повышает вероятность второго инфаркта при транспортировке пациента в больницу [123] .
123
Kim F. et al. Effect of Prehospital Induction of Mild Hypothermia on Survival and Neurological Status Among Adults with Cardiac Arrest: A Randomized Clinical Trial. JAMA. 311, no. 1 (2014): 45–52.