Русский генофонд на Русской равнине
Шрифт:
Чтобы карта была информативна, важно легко на ней ориентироваться, соотносить выявляемые зоны генетического рельефа с другими географическими объектами — странами, областями, городами, реками, природными зонами, этническими ареалами и так далее. Для этого на всех картах приведены береговые линии морей и гидрографическая сеть (озера, реки), горные хребты, государственные границы, несколько крупных городов (значимых, согласно замыслу книги, скорее для средневековой, чем современной, России), а самой надёжной привязкой карты к реальному географическому пространству служит, разумеется, градусная сетка.
ЦИФРОВАЯ МОДЕЛЬ КАРТЫ. Процедуры построения и анализа компьютерных карт подробно описаны в Приложении. Здесь напомним лишь, что в основе компьютерных карт лежат их цифровые модели (ЦМ) — двумерные числовые матрицы частот аллеля, а значения частоты аллеля прогнозируются для каждого узла сетки карты. Для создания такой матрицы пространство карты было покрыто густой равномерной сетью, состоящей из 9064 узлов. Для каждого узла сетки с помощью интерполяционной процедуры рассчитано значение частоты аллеля. В расчёте значений каждого узла участвовали все изученные русские популяции в пределах заданного радиуса, взятые с весом, обратным расстоянию от популяции до данного узла сетки. Параметры картографирования для русского генофонда: использована нулевая степень полинома, шестая степень весовой функции и учитывалась информация об исходных популяциях в радиусе 2000 км. Такой расчёт проводился независимо для каждого узла сетки. Это означает, что для каждого из 9064 узлов сетки учитывались одни и те же опорные точки (реально изученные популяции), но расстояния до популяций и, следовательно, вес каждой популяции при определении частоты аллеля в данном узле сетки — менялись. Часто спрашивают: зависит ли карта от того, с какого угла мы начнём её строить? Еще раз подчеркнём — рассчитанные значения в каких-либо узлах сетки никак не влияют на определение частоты аллеля в других её узлах. Отвечаем на вопрос: поэтому-то совершенно неважно, откуда мы начнём и в каком порядке будем проводить расчёт для разных узлов карты.
СОЗДАНИЕ ИЗОБРАЖЕНИЯ. Но цифровая модель — это матрица, таблица. Чтобы отобразить её в виде карты, каждое значение окрашивается своим цветом — в зависимости от того, в какой из интервалов попадает это значение. Шкала интервалов задаётся исследователем-автором карты. Понятно, что образ одной и той же карты (одной и той же ЦМ) может различаться в зависимости от избранной шкалы. Поэтому так важно следовать определённым правилам выбора шкалы (см. Приложение). Шкала обязательно приводится в легенде каждой карты. Граничные значения интервалов шкалы приводятся под гистограммой. Сама гистограмма и числа над столбцами гистограммы указывают долю площади карты, занятой точками, значения в которых попали в данный интервал.
НАДЁЖНОСТЬ. Карта каждого аллеля сопровождается специальной картой надёжности — она для каждого узла сетки указывает достоверность рассчитанного значения частоты аллеля [Нурбаев, Балановская, 1998]. Значения принимались как достоверные, когда вероятность правильного прогноза составляла Р>0.95 при уровне строгости[29] r=0.3. «Ненадёжные», то есть слабоизученные области, залиты на картах белым цветом и заточкованы, и все характеристики карты рассчитываются только по надёжному пространству. Число узлов карты (N), вошедших в «надёжное пространство» данного аллеля, указано в легенде каждой карты.
После того, как для каждого «надёжного» узла сетки получен независимый прогноз частоты аллеля, создание цифровой модели (ЦМ) карты завершено. Далее с ЦМ (как с обычными матрицами) проводим все дальнейшие преобразования и статистические расчёты — корреляций, трендов, главных компонент, получая количественные оценки связей и закономерностей. При этом карта, содержащая прогнозированные значения для каждой точки, становится не иллюстрацией, а математической моделью пространственной изменчивости. Карта служит инструментом количественного анализа генофонда. Это значит, что карта становится не «графическим», а «алгебраическим» объектом.
КОРРЕЛЯЦИИ. Связь частоты аллеля с широтой и долготой оценивалась не только обычным — единственным — значением коэффициента корреляции, но ещё и строились три корреляционных карты. Одна такая карта содержала в каждом узле показатели корреляции значения признака с широтой. Другая — с долготой. Третья — показатель множественной корреляции с широтой и долготой. Среднее значение корреляции по всем точкам карты является аналогом обычного коэффициента корреляции. Сама же карта показывает, какова теснота связи в том или ином регионе, в той или иной части карты. Ведь вполне возможна ситуация, когда в одном регионе изменчивость аллеля широтна, а в другом — коррелирует с долготой. Более того, при переходе от региона к региону может измениться даже знак корреляции. В этом случае обычный коэффициент корреляции неэффективен, и реально существующую закономерность может выявить только корреляционная карта.
Для построения корреляционных карт используется разработанная нами процедура «плывущего окна» (см. Приложение, а также [Балановская и др., 1994а, б; Балановская, Нурбаев, 1995]). В каждом узле сетки указан показатель корреляции, рассчитанный для «плывущего окна» — области карты заданной площади, в центре которой находится данный узел. Иными словами, для совокупности всех узлов сетки, попавших в это «окно», рассчитывался коэффициент корреляции между частотой аллеля в этих точках и географическими координатами (широтой, долготой) этих точек. И полученное значение коэффициента корреляции заносилось в центральный узел окна. Затем окно перемещалось на один узел сетки, и операция повторялась. После того, как окно «проплыло» по всей карте и все её узлы побывали центральными, каждый из «надёжных» узлов получил свое значение корреляции признаков. Из этих значений построена карта корреляций, показывающая, как меняется уровень связи (корреляции) в различных частях карты. В таблице 5.2.1 приведены MIN, MEAN, МАХ, — соответственно минимальное, среднее и максимальное значения коэффициента корреляции. Напомним, что в статистике коэффициенты частной корреляции меняются от -1 до +1, а множественные — всегда положительны (от 0 до 1).
ТРЕНДЫ. Для большей простоты и наглядности в работе приведены карты, полученные при небольшом окне сглаживания (фоновые карты или «карты трендов», см. Приложение, а также [Балановская, Нурбаев, 1995]). Эти карты, также как и корреляционные, получены с помощью процедуры «плывущего окна». Только в центральный узел заносились не коэффициенты корреляции, а средняя частота по всем узлам сетки, попавшим в «плывущее» окно. В результате «сглаживались» резкие колебания частоты гена — ведь такие колебания частоты между соседними популяциями обычно связаны с несовершенством популяционных выборок. В таблице 5.2.1. и в легендах соответствующих карт раздела 5.2 приведены статистические характеристики исходного (несглаженного) генетического рельефа.
СТАТИСТИКИ КАРТ. Использованы следующие обозначения: MIN, MAX, MEAN — соответственно минимальное, максимальное и среднее значения частоты аллеля, GST — межпо-пуляционная изменчивость, HS — вклад данного аллеля в общую гетерозиготность локуса. Построенные нами компьютерные геногеографические карты характеризуют изменчивость 44 классических генетических маркёров в русском ареале. Конечно, в данной главе мы можем обсудить лишь часть этих карт. Однако в сводной таблице 5.2.1. приведены основные характеристики всех 44 аллелей. Напомним также, что многие карты Атласа русского генофонда, в том числе и раздел классических генных маркёров, представлены на сайте www.genofond.ru.
АТЛАС
Картографический Атлас русского народа по классическим генным маркёрам состоит из двух основных разделов — «простых» и обобщённых карт (глава 3 и Приложение, раздел 5).
Первый раздел Атласа вобрал карты географического распределения в «исконном» русском ареале частот отдельных аллелей, а также результаты их анализа. Каждую простую карту (каждого аллеля) сопровождают карты трендов различной степени «сглаженности» и корреляционные карты — с географической широтой и долготой.
Второй раздел Атласа содержит карты, обобщающие изменчивость не одного аллеля или локуса, а всех вместе. Они отражают средние показатели разнообразия всего русского генофонда по классическим маркёрам: карты гетерозиготности и межпопуляционных различий, карты корреляционных связей, карты генетических расстояний и главных компонент изменчивости в историческом «исконном» ареале.
При создании Атласа из банка данных «Русский генофонд» по классическим маркёрам были выбраны гены, по которым изучено хотя бы около десятка популяций. При этом мы учитывали географию изученных популяций — они должны представлять самые разные части «исконного» русского ареала. Иначе — если все популяции относятся лишь к одной части ареала — то, хотя бы этих популяций было и много, но такая информация не охватывает всю реальную изменчивость гена. И такой ген лучше не включать в анализ русского генофонда (это относится к локусам АK, C3F, GD, КР, LU, Р). В итоге, хотя карты были построены для всех 66 аллелей, в картографический Атлас вошли карты 44 аллелей 17 локусов — ABO, АСР, ESD, GC, GLO1, HP, MN, 6PGD, PGM1, PI, PTC, RH*d, TF, CV, KEL, LEW и HLA. Для всех 17 локусов был проведён картографо-статистический анализ, но в обобщённый анализ последние 4 локуса (CV, KEL, LEW и HLA) мы не включали — слишком слаба их изученность в «исконном» русском ареале.