Русский генофонд на Русской равнине
Шрифт:
Триангуляционный метод разрабатывался совместно с сотрудниками кафедры биофизики МГУ А. Т. Терехиным и Е. В. Будиловой. Он основывается на соединении всех изученных популяций линиями, формирующими густую нерегулярную сеть треугольников, и вдоль этих линий вычисляются градиенты частоты гена. В результате из множества треугольников рождается визуальная карта распространения гена. К сожалению, у этого метода серьёзное ограничение — значение признака рассчитывалось для областей, и эти области менялись от карты к карте. Нельзя было рассчитать точные значения частоты гена для каждой точки карты. Исследователь видит результирующую карту, но не может получить числовую матрицу, лежащую в её основе. А значит, и не может дальше делать с картой любые статистические преобразования, не может превращать одну карту в другую или по совокупности исходных карт создать синтетическую карту.
Поэтому следующим методом в геногеографии стала технология, созданная совместно с А. В. Рычковым. Ее образно можно назвать «технология чернильных пятен». Каждая изученная популяция представлялась в виде небольшого «пятна» с заданной интенсивностью цвета, соответствующей частоте гена. Начинался итерационный процесс, на каждом шаге которого каждое пятно, видимое на экране компьютера, расширялось на один пиксель. На каком-то этапе соседние пятна (происходящие из соседних изученных популяций) начинали сливаться, и тогда зона «контакта популяций» окрашивалась в промежуточный цвет или же в серию переходов промежуточных цветов, если популяции различались друг от друга более чем на один интервал шкалы. Полным завершением этого процесса было бы полное слияние всех пятен друг с другом, когда вся карта представлялась равномерным серым пятном — все генетические различия полностью нивелировались! Поэтому главным вопросом при использовании этой технологии был выбор — на каком шаге итерации следует остановиться, чтобы популяции успели «провзаимодействовать», но не стали бы полностью идентичными. Этот вопрос решался по анализу дисперсии на каждой итерации: дисперсия, изначально очень большая, постепенно снижалась и выходила на плато. Именно этот момент и был сигналом к остановке итерационной процедуры и рассмотрению полученной карты.
Как можно видеть, такой метод по сравнению с триангуляционным обладает тем преимуществом, что позволяет рассчитать значения для каждой точки карты. Этот метод был использован для первого геногеографического атласа, созданного для населения Монголии [Балановская и др., 1990]. Однако дальнейшее развитие геногеографии оказалось связанным с иным, третьим методом, который также позволял получить числовые значения для каждой точки карты, но обладал и рядом дополнительных преимуществ. А главное — субъективные факторы (как, например, остановка на той или иной итерации) были сведены к минимуму.
ТЕХНОЛОГИЯ НА ОСНОВЕ СРЕДНЕВЗЕЩЕННОИ ИНТЕРПОЛЯЦИИ
Ведущая роль в создании этой технологии принадлежит картографической группе кафедры картографии МГУ под руководством С. М. Кошеля. Наша совместная работа является замечательным примером долгого и плодотворного сотрудничества профессиональных картографов и геногео-графов. Еще до встречи с генетиками группа С. М. Кошеля широко использовала картографический пакет MAG и разработала оригинальную программу Metacopy для визуализации карт. Привнесение генетической методологии значительно изменило ситуацию. Программный пакет превратился в GG MAG (GG обозначает геногеографию — Gene Geography) и приобрёл множество функций, специально нацеленных на анализ генетических данных: начиная от использования данных в нерегулярно расположенных опорных точках (поскольку генетические данные именно таковы) до внедрения в пакет широких возможностей математических и статистических операций с картами. Пакет GGMAG прошёл длительную эволюцию, и в настоящий момент используется его последняя, четвёртая версия с некоторыми оригинальными добавлениями.
Подробное описание самой технологии приводилось в разделе 3 Приложения, поэтому здесь укажем лишь её основные черты. Во-первых, при интерполяции для каждой регулярно расположенной точки карты (узел «сетки» карты) рассчитывается с помощью ортогональных полиномов средневзвешенное значение, получаемого из значений в нерегулярно расположенных опорных точках (популяциях). Значения во множестве опорных точках усредняются, причём каждая опорная точка выступает с весом, обратно пропорциональным расстоянию от нее до данного узла сетки. Тем самым прогнозируемое значение приближается к значениям в ближайших опорных точках, а удалённые опорные точки сказываются на прогнозе незначительно. Заметим, что тот же принцип независимо использовался и в нескольких зарубежных программах, специально созданных для картографирования генетических данных. Правда степень весовой функции от расстояния (между узлом сетки и опорной точкой) в них строго фиксирована (обычно это квадрат), тогда как в пакете GGMAG исследователь может задавать любую степень (часто оптимальные результаты получаются при использовании шестой или даже десятой степени). Другое важнейшее отличие GGMAG — использование для интерполяции ортогональных полиномов. Это позволяет адекватно прогнозировать изменение значений признака в пространстве даже при отсутствии данных, прямо указывающих на это изменение: интерполяционный алгоритм улавливает наличие тренда по окружающим точкам и продолжает его на смежные территории. Аналогично выбору степени весовой функции, исследователь может задать и различную степень полинома (при нулевой степени расчёт ведется без учета полинома, только как средневзвешенная интерполяция). Исследователь также может сам определить тот радиус, в пределах которого учитываются опорные точки (исходные популяции). Это позволяет моделировать разный круг взаимодействующих популяций. Сочетания всех трёх параметров (радиус для опорных точек, степень весовой функции расстояния до опорной точки, степени полинома) создают широчайший спектр возможностей для построения наиболее корректной компьютерной модели при данном сочетании популяций и значений признаков.
КАРТЫ. ПОСТРОЕННЫЕ ВРУЧНУЮ
Хотя магистральной линией было создание компьютерной геногеографии, на разных этапах множество карт было построено и вручную. С компьютерными картами их роднило всё — и непрерывность картографирования (значения для каждого узла равномерной сетки карты), и использование математического расчёта, а не научной интуиции при выборе картографируемого значения, при этом сам алгоритм вычислений мог быть самым разным. «Ручные» карты, сыгравшие наибольшую роль в истории геногеографии — это карты антропологических признаков в русских популяциях. Эта работа была специально задумана как проверка картографического метода — предполагалось, что если эти новые методы чего-то стоят, то они должны выявить новое даже в наиболее полных и прекрасно разработанных данных. А наиболее полными были данные по антропологии русского народа, собранные Русской антропологической экспедицией. Результаты этого геногеографического анализа антропологических данных описаны в разделе 2.3, поэтому скажем только, что успех этой работы превзошел ожидания. О следах летописных славянских племён, обнаруженных, благодаря геногеографическому методу в современном русском населении, был сделан доклад на авторитетной конференции, на которой присутствовало большинство отечественных антропологов и археологов [Рычков, Балановская, 1988]. То полное признание и одобрение, которое получили эти результаты, следует целиком отнести к тому стилю картографирования и той методологии анализа, которая впоследствии оформилась в компьютерную геногеографию. С этого времени можно начинать отсчёт широкого применения отечественной картографической технологии в изучении популяций человека.
БАНКИ ДАННЫХ
Наряду с картографической технологией и статистическими методами важное место в геногеографии занимают банки данных. Дело в том, что объём данных, которые используются даже не в слишком масштабном геногеографическом исследовании, огромен, а сами исходные данные обычно рассеяны во множестве статей.
Представьте себе анализ даже такого сравнительно небольшого, хотя и гетерогенного региона, как Кавказ. Пусть Вам необходимо проанализировать данные только по классическим маркёрам. Однако подобные данные получали и публиковали самые разные авторы — от медицинских исследований групп крови АВ0 и резус, до работ по многим системам, выполненными в московских и кавказских генетических лабораториях. Некоторые данные по Кавказу публиковались и зарубежными авторами. Библиография данных о Кавказе насчитывает многие десятки наименований, и далеко не все эти статьи легко доступны, а многие из них даже неизвестны большинству исследователей. Итак, тому, кто решит провести геногеографическое изучение Кавказа, предстоит провести сперва большую работу по сбору и систематизации данных о частотах генов, опубликованных за несколько десятилетий. Если же представить, сколько разных генофондов было изучено геногеографами, и вообразить, какой объём предварительной работы требуется, к примеру, для анализа в масштабе СССР, то задача сбора и систематизации опубликованных генетических данных предстанет во всем своем величии и неприступности.
Кардинальное решение этой задачи может быть только одно — собрать ВСЕ когда-либо опубликованные данные по частотам генов в ЕДИНОЕ хранилище. И при анализе любого генофонда лишь обращаться в хранилище и брать готовые систематизированные данные по частотам генов в популяциях интересующего региона.
Именно таким хранилищем и стал банк данных «GENEPOOL», разработанный под руководством одного из авторов этой книги. В банк данных вводилась практически вся доступная информация по частотам классических маркёров в популяциях Северной Евразии, а отчасти и по другим регионам мира. Впоследствии банк был пополнен и данными по аутосомным ДНК маркёрам. Структурная организация банка и запрограммированные функции делают его не только хранилищем данных, но и инструментом их проверки, систематизации и анализа. Аналогичный банк данных создавался и зарубежной геногеографической школой Кавалли-Сфорца. Он содержит информацию по остальным регионам мира (кроме Северной Евразии, представленной весьма скудно), хотя запрограммированные возможности этого банка не столь обширны.
Отечественной геногеографической школой создавался и ряд других банков данных: «ПАЛЕОЛИТ РОССИИ», база данных о русских фамилиях, банк данных по митохондриальной ДНК в населении мира и банк данных «РУССКИЙ ГЕНОФОНД» кратко описаны в разделе 5 Приложения.
ЦЕЛЬ — СИНТЕТИЧЕСКИЕ КАРТЫ
Использование банка данных является первым необходимым шагом при картографическом анализе любого гена. Но на всех этапах разработки картографической технологии главной целью оставалось картографирование не отдельных генов, а извлечение из карт отдельных генов общей информации о генофонде. Общепринятым методом обобщения тогда был (и остаётся доныне) анализ главных компонент. Этот статистический метод позволяет в изменчивости множества признаков выделить основные тенденции и представить их в изменчивости немногих новых условных признаков — главных компонент. Это метод чисто статистический, но чтобы сделать его картографическим, нужно, казалось бы, совсем немного — рассчитать значения главных компонент для каждой популяции и нанести их на карту.
Сложность заключается в том, что разные гены изучены в разных популяциях, а для расчёта главных компонент необходимы данные о значении каждого гена в каждой популяции. Решить эту проблему можно было лишь с помощью карт, основанных на цифровых матрицах. Ведь для таких карт мы имеем значение признака в каждой точке карты. А для другого признака — опять-таки знаем его значение в каждой из тех же самых точек. Таким образом, расчёт главных компонент проводится не по исходным данным, а по картам. Точнее, по картографированным (интерполированным) значениям в каждой точке карты (каждом узле регулярной сетки карты). Карты главных компонент строились и технологией «чернильных пятен». Но когда была создана технология картографирования на основе средневзвешенной интерполяции, и был разработан алгоритм проведения с цифровой матрицей математических операций, то создание карт главных компонент в отечественной геногеографической школе стало обычной и широко используемой процедурой.
Каково же было удивление, когда на этом этапе обнаружилось, что в зарубежных статьях (к тому же не в самых последних, а давностью в несколько лет) уже опубликованы карты главных компонент генофонда! Впрочем, изумление перед этим фактом быстро сменилось сознанием того, что такое совпадение подтверждает правильность избранного пути, а также ту огромную востребованность в геногеографии общих параметров генофонда, которая назрела в мировой науке.
Очевидно, именно такой была общая логика развития популяционной генетики в 70е и 80е годы, как за рубежом, так и в нашей стране: 1) необходимо обобщить данные о многих генах; 2) был общепринятый метод обобщения — главные компоненты; 3) для содержательной интерпретации результатов нужно было знать географию главных компонент, то есть построить для них карты; 4) для расчёта необходимы данные по каждому признаку в каждой точке карты; 5) получить такие данные возможно только при картографировании каждого признака, причём самым главным результатом картографирования должна быть не сама графическая карта, а лежащая в её основе матрица точных значений признака в каждом узле карты.