ЖАНРЫ

Русский генофонд на Русской равнине
Шрифт:

ЧТО ТАКОЕ «КАРТА ГЕНЕТИЧЕСКИХ РАССТОЯНИИ»?

Это карта, рассчитанная по совокупности множества карт разных генов. В каждом узле такой карты находятся не частота гена, а величина средней генетической удаленности данного узла сетки от той популяции, которая нас интересовала при создании данной карты генетических расстояний. Для этого рассчитываются многомерные расстояния (показатели генетических различий) от каждой популяции на изучаемой территории до генетических характеристик популяции, интересующей исследователя (так называемой «реперной» популяции). Соответственно, на карте каждая популяция присущим ей значением расстояний говорит о себе, насколько она генетически сходна с реперной популяцией. Например, если за реперную точку отсчёта взять обобщённую русскую популяцию, придав ей средние — по всем русским популяциям — значения частот признаков, то карта генетических расстояний покажет, насколько все русские популяции сходны или же отличны от среднеэтнических характеристик. Затем мы можем задать вопрос, а какие русские популяции и насколько близки к татарскому этносу? И тогда для тех же русских популяций мы рассчитаем их генетические расстояния до татар, а карта наглядно даст ответ на поставленный вопрос. Если в следующие карты мы включим не только русские, но и соседние популяции Восточной Европы, то значения расстояний будут показаны и для популяций иных народов. Тогда по карте можно сразу же увидеть, какие из них генетически наиболее близки к русскому или к татарскому генофонду.

АЛГОРИТМЫ

Для построения карт генетических расстояний наряду с традиционной и общеизвестной оценкой генетических расстояний по М. Nei [1975], нами используется алгоритм расчёта угловых расстояний © [Cavalli-Sforza, Edwards, 1967], где для локуса / с А аллелями:

?l=across??qnaqma, где qa — частота a– того аллеля, п и тпопуляции.

Эта функция привлекательна тем, что её квадрат пропорционален времени, потребовавшемуся на формирование генетического расстояния. Картографирование квадратов расстояний, таким образом, связывает географию генофонда со временем его развития. Для совокупности Lлокусов:

?2=1/k??2l; k=?(Al– 1).

Этот несложный алгоритм позволяет создать карту с принципиально новым генетическим рельефом, обнаруживающим в терминах генетических расстояний близость либо отдалённость любых районов от заданных (реперных) значений: близости соответствуют низины, отдалённости — поднятия генетического рельефа, в какой бы части ареала они ни встречались. Для создания такой карты достаточно для каждого из аллелей локуса вместо qam использовать реперную (например, средне региональную) частоту аллеля qa и провести для каждого узла сетки карты расчёт расстояний от локального значения признака в узле до средне-регионального: а I=

?2l=across2??qanqa,

где qaконстанта, соответствующая заданному средне региональному значению частоты гена а; qanзначение частоты гена а в n-ном узле (с координатами i,j) сетки карты, где n принимает значения от 1 до N (общего числа узлов карты).

Помещая каждое из полученных значений ?2 в соответствующий n-ный узел новой карты, мы картографируем генетические расстояния и получаем искомую карту генетической удаленности каждой из точек карты от реперных частот. Усреднением карт по всем анализируемым генам получаются средние карты генетических расстояний, которые и используются как окончательный результат анализа.

Располагая достаточно большой выборкой генов и популяций, можно с помощью описанного инструментария — картографирования генетических расстояний — исследовать историю генофонда в целом, обнаруживать генетические следы исторических событий [Рычков, Батсуурь, 1987; Рычков, Балановская, 1988; Балановская и др., 1997, 1998; Кравчук и др., 1998, Почешхова, 1998]. Принципиально важно, что, создавая серии карт генетических расстояний, мы можем последовательно формулировать и проверять гипотезы о сходстве и генетических различиях между любыми группами народонаселения. Это позволяет перейти от картографического моделирования к картографическому эксперименту и открывает чрезвычайно широкие перспективы для геногеографии. В целом, инструментарий генетических расстояний является много более мощным и перспективным, чем методы главных компонент, автокорреляций, «wombling»-анализа и другие, используемые ныне мировым научным сообществом для описания генофондов.

§ 8. «Синтетические» карты главных компонент

Карты главных компонент представлять не надо, как и их аналог для признаков с внутригрупповой корреляцией — канонические переменные. Эти методы уже давно стали традиционными как в антропологии, так и в генетике.

СУТЬ МЕТОДА ГЛАВНЫХ КОМПОНЕНТ

Метод главных компонент относится к группе методов снижения размерности, наряду с многомерным шкалированием, факторным анализом, анализом канонических переменных, методом экстремальной группировки признаков и другими [Айвазян и др., 1989]. Снижение размерности представляет собой переход от исходного набора многих показателей к небольшому числу вспомогательных переменных, на основании которых можно достаточно точно воспроизвести свойства анализируемого массива данных [Айвазян и др., 1989].

Первой главной компонентой исследуемой системы показателей называется такая нормированно-центрированная линейная комбинация этих показателей, которая среди всех прочих нормированно-центрированных линейных комбинаций обладает наибольшей дисперсией. Любой k-той главной компонентой называется такая нормированно-центрированная линейная комбинация, которая некоррелирована с предыдущими главными компонентами и среди всех прочих нормированно-центрированных и некоррелированных с предыдущими линейными комбинациями обладает наибольшей дисперсией [Айвазян и др., 1989].

Главные компоненты обладают следующими основными свойствами [Айвазян и др., 1989; Дерябин, 2001]:

1. Первые главные компоненты характеризуются наибольшей информативностью, которая определяется величиной их дисперсии (долей от общей суммарной дисперсии всех исходных признаков).

2. Все главные компоненты нескоррелированы и поэтому представляют собой независимые признаки.

Таким образом, анализ главных компонент представляет собой процедуру для упрощения многомерных данных с минимальной потерей информации [Cavalli-Sforza et al., 1994].

КАРТОГРАФИРОВАНИЕ-ГЛАВНЫХ КОМПОНЕНТ

Геногеография позволяет не только провести стандартную процедуру анализа главных компонент, но и увидеть их распределение в географическом пространстве. Каждая из карт главных компонент отражает динамику новых обобщённых признаков генофонда, имеет свой генетический ландшафт и выдвигает на первый план особый исторический сценарий [Cavalli-Sforza, Piazza, 1993] развития генофонда. Карты главных компонент уже не раз публиковались и демонстрировались для самых разных генофондов — Восточной Европы, Европы, Евразии, мира [Menozzi et al., 1978; Ammerman, Cavalli-Sforza, 1984; Rendine et al., 1986; Рычков, Балановская 1992; Cavalli-Sforza et al., 1995; Балановская, Нурбаев, 1997; Рычков и др., 1997, 1998].

Основным стимулом для развития всей компьютерной геногеографии (как для зарубежной, так и для отечественной геногеографических школ) явилось именно стремление построить географические карты главных компонент. По мнению Л. Д. Кавалли-Сфорца [Cavalli-Sforza et al., 1994], построение карт главных компонент может облегчить визуализацию древних миграций, а также иные факторы, однотипно влияющие одновременно на целый ряд генов. Впервые карты главных компонент были созданы коллективом под руководством L. L. Cavalli-Sforza [Menozzi et al., 1978], причём для этого коллектива карты главных компонент («синтетические» карты) являются основным методом картографического обобщения [Menozzi et al., 1978; Piazza et al., 1981 a,b; Ammerman, Cavalli-Sforza, 1984; Cavalli-Sforza et al., 1995]. Независимо собственная технология картографирования главных компонент разрабатывалась одним из авторов (Е. В. Балановской) в сотрудничестве с Ю. Г. Рычковым, С. М. Кошелем, Д. Б. Патрикеевым, Т. П. Папковой, С. Д. Нурбаевым. Последняя версия включает нормировку исходных данных, нормировку дисперсии, расчёт по корреляционной матрице и оптимизацию решения (упорядочивание собственных векторов и собственных чисел для обеспечения инвариантности решения). Основное отличие наших карт от создаваемых коллективом L. L. Cavalli-Sforza — в том, что наши карты обладают большей точностью и разработанностью деталей рельефа главных компонент (это связано с особенностями построения исходных карт генов). Однако по самой сути подхода и те, и другие карты главных компонент чрезвычайно сходны и могут сопоставляться без дополнительной коррекции.

Расчёт главных компонент осуществляется следующим образом. По значениям признаков (частот аллелей) в популяциях рассчитывается матрица корреляций всех аллелей друг с другом. Значения главных компонент для данной популяции вычисляются по значениям исходных признаков, умноженных на соответствующие коэффициенты. В качестве коэффициентов выступают собственные векторы ковариационной матрицы отдельных признаков, при условии некоррелированности получаемых на их основе главных компонент. Поэтому первым шагом является расчёт коэффициентов ковариации, затем производится решение соответствующего уравнения, корнями которого являются собственные вектора ковариационной матрицы, и, наконец, перемножением этих коэффициентов и значений частот аллелей находятся величины главных компонент.

Поделиться с друзьями: