ЖАНРЫ

Простое начало. Как четыре закона физики формируют живой мир
Шрифт:

Теперь рассмотрим современное население типичной промышленно развитой страны. Даже если разделить взрослых по половому признаку, в каждой группе окажутся люди разного роста. Более того, мы прекрасно знаем, что у высоких родителей дети чаще тоже бывают высокими. Конечный рост детей обычно схож с ростом их биологических родителей, а не случайно выбранных взрослых или приемных родителей. Иными словами, генетика важна. Но насколько? И какие области генома ответственны за рост?

В прошлой главе мы познакомились с превосходными инструментами для чтения ДНК. Для изучения редких черт и малозаметных вариаций, как и для всеобъемлющего описания, полезно секвенировать полный геном. Рост и многие другие признаки, однако, достаточно выразительны и устойчивы, а потому к ним можно применять и методы попроще. Ваш геном больше чем на 99 % совпадает с моим, поэтому можно сосредоточиться лишь на тех областях, где есть расхождения. Рассмотрим одно из немногих различий – точку, где у большинства людей стоит, скажем, нуклеотид A, но у немалой доли популяции его заменяет Ц. Геномные позиции, где относительно часто встречается такая неоднозначность, называют однонуклеотидными полиморфизмами (ОНП или SNP – «спипы» в лабораторном жаргоне). В геноме человека несколько миллионов типичных ОНП, и слово «типичный» здесь означает, что по меньшей мере у 1 % населения это место занимает более редкий нуклеотид. Несколько миллионов – это много, но все же не слишком в сравнении с 3 миллиардами нуклеотидов полного генома человека, поэтому мы умеем находить такие ОНП без особого труда.

Например, мы можем закрепить на микроскопических шариках короткие однонитевые фрагменты ДНК, комплементарные доминирующей форме ОНП, и использовать их как зонды, наблюдая, свяжется ли с шариками измельченная и амплифицированная ДНК исследуемого человека. Если да, мы поймем, что у этого человека типичный вариант нуклеотида в интересующей точке генома, если же нет – будем знать, что у него вариант более редкий [59] . Я не вдаюсь в детали, да и технологии на рынке доступны разные, важнее здесь другое: в каждой из них нашли отражение изящные методы, описанные в прошлой главе. В них используются уникальные преимущества флуоресцентных нуклеотидов, ДНК-полимераз, серийных заготовок в виде стеклянных подложек, усеянных миллионами шариков с миллионами клонов ДНК на каждом, и многого другого. Мы получаем результат стоимостью до 100 долларов в пересчете на один тест – меньше, чем многие тратят на пару обуви, – который показывает нам совокупность ОНП, характеризующую геном, а следовательно, и основную долю генетических вариаций у индивида.

59

Если известно, что конкретный вариант ОНП – например, А вместо доминирующего в популяции Ц – связан с какой-то болезнью, при оценке предрасположенности к ней «зондировать» проще именно на патологический вариант.

Логично предположить, что чей-то набор ОНП сообщает нам не так уж и много, поскольку на эти точки приходится лишь малая доля генома, а геномы устроены сложно. Сначала так и было. В первых исследованиях по выявлению ОНП, связанных с ростом, обнаружили около 40 генетических вариантов, которые в совокупности хоть и отличимо от погрешности, но незначительно коррелировали с ростом участников эксперимента. Результаты исследований опубликовали в 2008 году, и сразу же стало очевидно, что изучать надо гораздо больше людей – даже не из-за биологии как таковой, а скорее из-за взаимосвязи между случайностью и предсказуемостью.

Вспомним главу 6 и подбрасывание монет. Представьте, что вы 10 раз подбросите подлинную монету. В среднем можно ожидать, что 5 раз выпадет решка, а 5 – орел, но вас наверняка не удивит, если решка выпадет 6 раз, а орел – 4. Вероятность такого исхода составляет целых 83 % от вероятности получения 5 к 5. Если вы подбросите монету 1000 раз, скорее всего, 500 раз выпадет решка и 500 – орел: с ростом числа попыток расхождение сглаживается. Вероятность выбросить 600 решек и 400 орлов существенно снизится и станет в миллиард раз меньше, чем вероятность выбросить 500 к 500. Допустим, вы подозреваете, что ваша монета – фальшивая и несбалансированная, из-за чего вероятность выбросить решку превышает 50 %. Если вы подбросите монету 10 раз, асимметрия вас не особо смутит: обнаружив 6 решек, вы вряд ли сразу же сделаете вывод о 60-процентной вероятности выпадания решки у этой монеты. Однако 600 решек после 1000 подбрасываний сильно укрепят ваши подозрения в «неправильности» монеты. Если быть математически точными, ваша чувствительность к фальшивым монетам растет пропорционально квадратному корню из числа подбрасываний. Этот квадратный корень, возможно, напоминает вам о статистических свойствах нашего случайного блуждающего из шестой главы. И не случайно: у этих зависимостей сходные математические обоснования.

Но вернемся к геному. Наши ОНП сравнимы с монетами, и перед нами стоит задача выяснить, в какой степени каждый из них «правильный» или «неправильный», то есть как сильно тот или иной ОНП влияет на отклонение признака от средней, ожидаемой величины. ОНП, где редкий генетический вариант с равной вероятностью встречается у высоких и низких людей, аналогичен правильной монете, которая в половине случаев ложится решкой, а в половине – орлом. Тот вариант ОНП, что заметно чаще встречается у высоких либо, наоборот, у низких, вероятно, задает предрасположенность к росту выше или ниже среднего – как неправильная монета предрасполагает к тому, чтобы общая доля выпавших решек всегда была либо больше, либо меньше 50 %. Эти тенденции могут быть не сильно выраженными. По аналогии с подбрасыванием множества монет нам нужно исследовать геномы как можно большего числа людей. Чтобы оценить масштаб отклонения от среднего показателя под влиянием того или иного ОНП, нужно проанализировать огромный массив данных по корреляции роста человека с нуклеотидом в этой точке его генома. Чем больше геномов мы анализируем, тем выше становится наша чувствительность к ОНП, связанным с ростом.

Мы живем в эпоху крупномасштабных исследований генома. Физик Стивен Хсу и его коллеги из Университета штата Мичиган обработали данные почти полумиллиона человек, собранные в рамках британского проекта «Биобанк», и по статистическим параметрам выявили ОНП, связанные с ростом. Они обнаружили гораздо больше тех 40 ОНП из работы 2008 года – почти 20 тысяч. Такие проекты сопряжены с рядом трудностей, и ложные закономерности могут легко сбить с толку. Достоверность результатов можно проверить математическим путем, но предпочтительнее оценить предсказательную способность ОНП, ассоциированных исследователями с ростом участников этого эксперимента, то есть проверить, могут ли эти ОНП служить предикторами роста в другой экспериментальной выборке. Иными словами, группе Хсу нужно было проанализировать основную часть базы данных «Биобанка» (то есть не все данные) и заметить, например, что ОНП № 312 соответствует увеличению роста в среднем на 0,05 сантиметра относительно среднего показателя; ОНП № 3092 соответствует его уменьшению на 0,02 сантиметра; ОНП № 4512 – увеличению на 0,08 сантиметра и так далее. Затем во второй, до сей поры не задействованной части базы данных нужно было найти «подозреваемые» ОНП у каждого ее члена, суммировать предположительные эффекты найденных полиморфизмов и предсказать рост этого человека – и так для всех представителей выборки. Оставалось лишь сравнить предсказанные показатели с реальными. Хсу с коллегами проделал все это и изложил результаты в статье 2018 года3. Ученые обнаружили, что записанный в базе данных рост, как правило, отклонялся от прогноза, сделанного на основании ОНП, не больше чем на 3 сантиметра. Чтобы лучше понять, как выглядит подобного рода точность, построим несколько графиков.

На каждом графике показано облако гипотетических значений, где предсказанный рост отложен по горизонтальной оси, реальный – по вертикальной, а каждая точка соответствует одному человеку. Реальные и спрогнозированные показатели роста коррелируют друг с другом на всех трех графиках. Более того, прямая, лучше всего соответствующая распределению данных, на всех графиках почти идентична. Однако между этими тремя случаями есть существенные различия в том, насколько хорошо она описывает данные. Левое облако сильно рассеянное, в среднем точки выстраиваются кучнее и ближе к линии, в правом измеренные значения довольно плотно группируются вокруг предсказания. Эту изменчивость в распределении данных можно количественно оценить с помощью статистической характеристики, называемой коэффициентом вариации и часто обозначаемой символом R2. Чтобы интуитивно понять смысл R2, представьте сначала, что вы измеряете степень разброса точек вокруг горизонтальной прямой, идущей посередине графика. (Если вы немного знакомы со статистикой, вообразите дисперсию, или меру рассеивания, результатов измерений, то есть величину отклонения измеренных значений от среднего.) Затем представьте, что вы оцениваете разброс точек вокруг прямой наилучшего соответствия. В этом случае степень изменчивости будет меньше – это то, что остается после принятия в расчет зависимости, выражаемой прямой. Отношение второго отклонения (разброса) к первому равняется числу от нуля до единицы, которое тем меньше, чем плотнее точки прилегают к прямой наилучшего соответствия. Если вычесть это число из единицы, получится разброс, описываемый линейной зависимостью, то есть R2. На левом графике с рассеянным облаком R2 = 0,1, то есть зависимость между предсказанными и реальными значениями, выражаемая линией наилучшего соответствия, учитывает лишь 10 % разброса точек. На правом графике R2 = 0,7, то есть учитывается 70 % разброса.

В основанном на ОНП анализе роста, проведенном командой Хсу, R2 ? 0,42 – это примерно как на среднем графике: не идеально плотное распределение, но и не бесформенное облако, что вполне соответствует упомянутой точности до 3 сантиметров. Быть может, отклонение в 3 сантиметра не слишком впечатляет, но, как выясняется, такой прогноз точнее, чем предсказание роста детей по росту их родителей. Кроме того, оценка на основании ОНП, разумеется, не требует никаких сведений об отличительных чертах и происхождении индивида – хватает ДНК и дешевого анализа. Как отмечает Хсу, ничтожной биологической улики с места преступления теперь достаточно, чтобы установить рост и ряд других физических показателей совершенно неизвестного человека.

Насколько показательным может быть R2 роста? Из семейных исследований с большой выборкой людей разной степени родства, включая однояйцевых близнецов (чьи геномы почти идентичны), генетики давно знали, что наследуемость роста близка к 80 %. Иными словами, наследственность объясняет около 80 % разницы в росте между индивидами4. Но чем объяснить разрыв между 0,4 и 0,8 – влиянием особенностей ДНК, не охватываемых анализом ОНП, или более загадочными биологическими механизмами? В 2019 году австралийский генетик Питер Виссхер и его коллеги изучили полногеномные последовательности более чем 20 тысяч человек и обнаружили, что информация, закодированная в ДНК, действительно объясняет 80 % разницы в росте у людей. Остальные 20 %, по крайней мере у современных европейцев, связаны с различиями в рационе, физической активности и истории болезней.

Как улучшить курицу…

Разумеется, все эти изыскания применимы не только к людям. Вместо роста своих сородичей мы вполне могли бы поинтересоваться вкладом генетических факторов в вариативность пятен у леопарда, лепестков у розы или массы у амеб. Управлять изменчивостью признаков живых существ критически важно для сельского хозяйства. За период с 1930 по 1970 год численность населения нашей планеты удвоилась с 2 до 4 миллиардов человек и с тех пор удвоилась снова. Этот головокружительный рост не сопровождался массовым голодом благодаря ряду новаторских решений. Так, ключевым элементом зеленой революции 1950–1960-х стало селекционное выведение новых сортов пшеницы и риса. Американский агроном Норман Борлоуг, в середине XX века работавший в Мексике, вывел особые сорта пшеницы с крупными колосьями5. Однако такие растения грешили склонностью к полеганию – как мы помним из главы 10, большим быть нелегко. Скрестив их с карликовыми сортами – мутантами из Японии, – Борлоуг получил крепкую высокоурожайную пшеницу. Считается, что благодаря этому и подобным достижениям Борлоуг сохранил миллиард человеческих жизней.

Мы хотим, чтобы пшеница была ниже, а куры – больше. Сегодня североамериканские куры, выращиваемые на мясо, в четыре раза тяжелее, чем их сородичи в 1950-х, даже при аналогичном откорме6. (Чтобы понять, насколько значительно это увеличение, вообразите мир, в котором человек весит в среднем 320 килограммов.) У кур бывает разная конституция, что отчасти объясняется генетикой: современные увесистые куры-переростки появились в результате последовательного отбора самых крупных особей для размножения. Кстати, упомянутое исследование Виссхера и его коллег приписало генетическим различиям около 40 % разницы в индексе массы тела – показателе соотношения массы и роста.

Поделиться с друзьями: