Русский генофонд на Русской равнине
Шрифт:
Этот алгоритм расчёта главных компонент заложен практически во всех статистических программных пакетах. Поскольку в геногеографии необходимо провести расчёт карт главных компонент не по исходным данным, а по картам отдельных признаков, то для этого созданы оригинальные программы картографического пакета GGMAG. Так как цифровая модель карты представляет собой числовую матрицу со значениями частоты аллеля в каждом узле, то задача расчёта главных компонент сводится к получению значений главных компонент в каждом узле цифровой модели. При расчёте с использованием картографического пакета последовательность значений во всех узлах ЦМ выступает в том же качестве, как последовательность значений в одной строке таблицы данных при расчёте в обычном статистическом пакете. По данным во всех узлах ЦМ рассчитывается матрица корреляций всех ЦМ друг с другом. По корреляционной матрице вычисляются значения главных компонент для каждого из аналогов популяций (узлов равномерной сетки карты). Полученные значения главных компонент вновь присваиваются каждому узлу ЦМ. В результате создается ЦМ карт 1 главной компоненты, 2, 3… N главной компоненты, где N — число исходных карт отдельных признаков [Cavalli-Sforza et al., 1994; Балановская, Нурбаев, 1997]. Число результирующих карт главных компонент равняется числу исходных признаков, однако обычно рассматриваются карты только первых двух-трех компонент, описывающих основную часть изменчивости всех исходных признаков.
Таким образом, при расчёте карт главных компонент используется тот же алгоритм, что и при обычных статистических расчётах. Единственное отличие состоит в том, что получаемые значения главных компонент в популяциях (узлах сетки карты) имеют координатную привязку и поэтому представляются не в табличном формате, а в формате цифровой модели. Как указывалось, эта функция расчёта по значениям, привязанным к узлам ЦМ, реализована в программном пакете GGMAG.
ЗАЧЕМ НАДО СТРОИТЬ КАРТЫ ГЛАВНЫХ КОМПОНЕНТ?
Этот вопрос кажется простым — конечно, чтобы своими глазами увидеть невидимое — главные закономерности в изменчивости генофонда. Но на самом деле вопрос не так прост. Он подразумевает иное — а зачем надо разрабатывать сложные специальные программы? Почему геногео-графикам так важно строить карты главных компонент по исходным картам генов? Почему бы не рассчитать главные компоненты с помощью обычных статистических пакетов, а затем уже построить карты по полученным значениям главных компонент, как мы строим простые карты отдельных признаков? Иными словами, зачем так стараться создавать сложные карты, если можно построить простые? Особое значение, которое приобретает именно картографический, а не чисто статистический анализ главных компонент, объясняется в первую очередь неравномерностью исходных данных.
Неравномерность состоит в том, что по аутосомным генетическим маркёрам практически каждый локус изучен по собственному, отличающемуся от других, набору популяций. Это делает исходную информацию о генах несопоставимой и недоступной для прямого анализа главных компонент генофонда. Анализ главных компонент генофонда по исходным популяциям просто невозможен: большинство ячеек в матрице «популяции на гены» оказываются незаполненными, причём столь случайным образом, что из нее нельзя выбрать информацию, достаточно полно представляющую генофонд.
При изучении генофондов использование традиционного инструментария главных компонент наталкивается на почти непреодолимые трудности: необходимо, чтобы все популяции были изучены по одному и тому же набору генных маркёров. Однако (в отличие, например, от антропологии) программа генетических исследований не стандартизирована: практически каждый маркёр изучен по особому набору популяций. Требование унифицированности данных чрезвычайно сужает и набор популяций, и набор маркёров. Остаются два выхода: 1) ограничить число анализируемых популяций; 2) ограничить набор маркёров. Однако как несколько популяций не могут надёжно представлять всю популяционную систему, так и малый набор маркёров не может служить характеристикой генома в целом. При малом наборе популяций и маркёров анализ генофонда невозможен: анализируется случайный ряд популяций по нескольким генам, но не генофонд того или иного масшта- ба. Именно поэтому, как правило, исходная информация о генах не позволяет широко использовать классический анализ главных компонент.
Выход из этой ситуации дает геногеография. Картографическая интерполяция помогает найти наиболее вероятные значения признака для тех точек карты и популяций, по которым исходная информация отсутствует. В результате заполняются «пробелы» вырожденной матрицы и появляется возможность включить в анализ главных компонент генофонда все изученные популяции и полный репрезентативный набор генных маркёров, в своей совокупности отражающие основные свойства и историю генофондов. Карты «надёжности» [Нурбаев, Балановская, 1997, 1998] позволяют выбрать из всей совокупности интерполированных значений лишь те, которые обладают высокой надёжностью. (Карты надёжности несут информацию о достоверности интерполированных значений признака в каждой точке картографируемого ареала, поэтому те области карты, которые не были обеспечены исходной информацией, не участвуют в анализе главных компонент.)
Например, изучение генофонда Восточной Европы опирается на генетическую информацию о 1586 популяциях, однако ни одна (!) из популяций не изучена по всему набору 30 локусов (100 аллелей). Практически каждый ген изучен по собственному, отличающемуся от других, набору популяций. Это делает исходную информацию о генах несопоставимой и недоступной для прямого анализа главных компонент генофонда.
Итак, единственный выход — это выход геногеографический: создать серию унифицированных карт. Причём карты каждого гена должны одновременно удовлетворять двум противоположным требованиям: с одной стороны, полностью учитывать всю исходную информацию о гене; а с другой стороны — быть полностью сопоставимыми с картами всех других генов.
На этих картах каждый узел их равномерной сетки является аналогом популяции. Для всей совокупности таких новых популяций (на картах генофонда Восточной Европы их около 9000) и по всей совокупности генов (карты 100 генов) рассчитываются главные компоненты — по стандартной по процедуре, описанной выше. Полученные значения главных компонент вновь присваиваются каждой из 9000 узлов сетки. Эта процедура стандартна и полностью соответствует привычному — не картографическому — анализу главных компонент. На основе 100 карт генов рассчитывается корреляционная матрица. Значения главных компонент рассчитываются для каждого узла равномерной сетки карты. В результате создается ЦМ карт 1, 2, 3… 100 компонент; благодаря нормировке и оптимизации решения среднее значение соответствующей компоненты равно нулю, дисперсия — единице, корреляция между картами компонент равна нулю. В результате анализа мы характеризуем аналоги популяций новыми признаками — главными компонентами, обобщающими информацию обо всех исходных признаках.
Отличие картографического анализа лишь в том, что самих популяций (узлов сетки) очень много, и они имеют строго упорядоченную географическую привязку. Благодаря этому мы можем, объединив значения главных компонент в интервалы и окрасив их (отрицательные значения — в светлые тона, положительные значения — в темные) увидеть своими глазами, как значения главных компонент распределены в пространстве. Таким образом, карты главных компонент представляют собой отображение трехмерного пространства: два измерения -
географические, третье измерение — это генетический ландшафт главной компоненты. Обычно первые три компоненты вбирают в себя наибольшую часть общей дисперсии и как бы конденсируют в себе информацию об основных параметрах изменчивости наибольшей части генов.
КАК АНАЛИЗИРОВАТЬ КАРТЫ ГЛАВНЫХ КОМПОНЕНТ?
Далее можно изучать полученный генетический ландшафт главных компонент разными методами.
Во-первых, можно чисто качественно интерпретировать пространственные закономерности в терминах экологии или истории [Cavalli-Sforza et al.„1994; Рычков и др., 1997, 1999]. Но интерпретации могут быть разными. Главное в ином — мы выявляем объективно существующие пространственные закономерности всего генофонда, обнаруживаем «главные сценарии» в его изменчивости. Далее эти объективные закономерности могут поддаваться (или не поддаваться) той или иной интерпретации того или иного автора — важно, что есть реальный объект для обсуждения и выдвижения гипотез.
Во-вторых, выявленные картами главных компонент географические закономерности можно изучать количественно. Примером количественного изучения могут служить корреляции между картами главных компонент генофонда Европы и картами расселения земледельческого населения, материальной культуры палеолита, гетерозиготности, заболеваемости [Ammerman, Cavalli-Sforza, 1984; Cavalli-Sforza et al.„1994; Балановская и др., 1997; Рычков и др., 1998].
В-третьих, можно перейти к пространству главных компонент. Ведь на карте мы видим распределение аналогов популяций с определенными значениями главных компонент в географическом пространстве. Наша задача — увидеть, как распределены эти популяции в самом пространстве главных компонент.