Русский генофонд на Русской равнине
Шрифт:
Процедура осреднения производится в следующем порядке. Начиная с минимального размера WMIN, окно осреднения увеличивается до тех пор, пока в него не попадает число опорных точек равное KOPT. Если окно увеличилось до WMAX, то даже если число опорных точек, попавших в окно, ещё не достигло KOPT, окно перестает увеличиваться и проводится расчёт.
Затем проверяется, сколько опорных точек находится в каждом из квадрантов окна — чем больше точек в квадранте, тем больший вес придаётся значениям узлов сетки этого квадранта (в соответствии с функцией fK) при расчёте среднего значения, которое присваивается центральной точке окна. Благодаря такой процедуре осреднения (повторенной для каждого узла сетки ЦМ), окно осреднения пропорционально популяционным ареалам и изученности картографируемого гена в различных областях картографируемого пространства. Благодаря различному весу квадрантов окна значения средних формируются по наиболее точным (наиболее обеспеченным опорными точками) областям окна.
В эффективности такого алгоритма легко убедиться при сравнении карты, полученной на его основе, с картами, полученными при плывущем окне постоянного размера. Это сравнение удобно тем, что оптимальное окно ожидается равным «б», WMIN соответствует фоновой поверхности с окном «а», WMAX соответствует фоновой поверхности с окном «в». В таблице 3.2. приведены статистические параметры сравниваемых карт: исходной карты распределения гена НР*1, трех карт с постоянным окном и карты с меняющимся окном (далее называемой CW — сокращенно от «Changing Window»).
Как и следовало ожидать, при увеличении размера окна осреднения экстремумы (MAX, MIN) сближаются и размах изменчивости R (R=MAX-MIN) падает (Ra=0.39, RB=0.24). При этом значение средней остаётся практически неизменным, варьируя около 0.33 (табл. 3.2). Наибольшие изменения наблюдаются в показателе межпопуляционной изменчивости GST: при увеличении окна от «а» до «в» его величина падает втрое (GSTa=0.018, GSTb=0.006). Наблюдаемое изменение GST соответствует переходу в анализе межпопуляционной изменчивости от уровня локальных популяций к уровню лингвистических семей.
Таблица 3.2. Приложения
Статистические показатели исходной и трендовых карт при различных параметрах алгоритма осреднения(на примере распределения гена НР*1)
Практически по всем статистическим параметрам (табл. 3.2.) карты с CW наиболее близки к карте с постоянным окном осреднения «б», причём особенно важна близость показателей GST (GST(CW)=0.011, GSTб=0.010). Однако при практически одинаковом размахе изменчивости (RCW=Rб=0.33) минимальные значения частоты гена НР*1 на карте с меняющимся окном приближаются к значениям карты с окном «в», а максимальные — к показателям карты с окном «а». Это связано с различной обеспеченностью областей экстремумов исходными данными: области минимальных значений оказались слабо обеспечены исходными данными и потому менее надёжны и более интенсивно осредняются, чем области максимальных значений, надёжно обеспеченные для данного гена опорными данными и потому сохраняющиеся при методе меняющегося окна.
Генетический рельеф карты с CW в целом также наиболее близок к карте с постоянным окном осреднения «б». Однако карта с CW географически и исторически более точно воспроизводит границы ареалов тех или иных частот, поскольку ориентирована на фактический размер популяционного ареала и генетическую изученность народов. Карта CW отражает масштаб осреднения, связанный не с аморфным физическим пространством, а с историческим пространством, освоенным этносом.
Таким образом, метод «Changing Window» — осреднения в плывущем окне, размер которого меняется в зависимости от реального масштаба популяционного ареала и обеспеченности исходной информацией — позволяет даже в чрезвычайно гетерогенном регионе проводить осреднение во всех его частях на заданном уровне обобщения. Благодаря этому методу географическое пространство, вмещающее генофонд, перестает быть аморфным, однородным и нейтральным по отношению к структуре генофонда: при ориентации на реальный размер популяционного ареала в неявном виде учитываются природные и социальные барьеры на пути распространения генов. Возможность гибко изменять все четыре параметра окна осреднения (WMIN, WMAX, KOPT’ fK) позволяет создавать серии картографических версий заданного уровня обобщения и тем самым как бы объемно моделировать генетический рельеф тех или иных исторических эпох.
ВЫЯВЛЕНИЕ ТРЕНДА АППРОКСИМИРУЮЩЕЙ ФУНКЦИЕЙ
Однако методы осреднения в окне — постоянного или меняющегося размера — «носят эмпирический характер и содержат элементы субъективизма» [Берлянт, 1986, с. 169]. Альтернативными считаются методы аппроксимации той или иной функцией, поскольку их модели опираются на строгий математический аппарат. При использовании аппроксимирующих функций фоновая и остаточная составляющие выделяются строго формально: аппроксимирующая функция описывает фоновую поверхность карты, отражающую искомые закономерности, а неучтенная часть соответствует остаточной компоненте [Берлянт, 1986]:
Z=f(u,v) + Eps=ZF + ZO; f(u, v)=ZF; Eps=ZO.
Поставленной задаче — разделения фоновой и остаточной поверхностей — с математической точки зрения полностью соответствует математический аппарат разложения в ряды, в частности, ортогональные многочлены (полиномы) Чебышева. При их использовании фоновая поверхность представляет собой графическое изображение аппроксимирующего многочлена, сумма квадратов отклонений которого от фактической поверхности минимальна [Берлянт, 1986]. Но у математических моделей есть общий недостаток — простоте и четкости математического аппарата не всегда соответствует простота и ясность интерпретации.
В картографии, геологии, физике для аппроксимации принято использовать 1-й, 2-й и 3-й порядки ортогональных многочленов Чебышева, содержательная интерпретация которых наиболее очевидна. Согласно [Берлянт, 1986], каждой из этих моделей соответствуют определённые классы явлений, для которых они оптимальны. Аппроксимация многочленом 1-го порядка (ZF1) моделирует моноклинальные поверхности, выявляющие направление сквозного градиента частот в распределении картографируемого признака и пронизывающие в едином направлении весь картографируемый ареал. Многочлены
2-го порядка (ZF2) служат адекватной моделью для явлений, распространяющихся из единого центра с уменьшением градиента плотности признака во все стороны по мере удаления от центра. Многочленом 3-го порядка (ZF3) наиболее оптимально аппроксимируется наложение двух различно ориентированных факторов или поверхности интерференции, создаваемой двумя центрами.
Фоновые поверхности, полученные из исходной поверхности рассмотренного выше распределения гена НР*1 с помощью ортогональных многочленов Чебышева, дали следующие результаты (эти же закономерности характерны практически для всех геногеографических карт) [Балановская, Нурбаев, 1995]. Аппроксимация многочленом:
1) 1-го порядка-моноклинальная изменчивость — позволяет определить направление общего наклона картографической поверхности данного гена. Эту карту можно интерпретировать как основной тренд гена, преобладающее направление общерегионального градиента частот.
2) 2-го порядка указывает расположение гипотетического центра распространения гена согласно модели эволюции из единого центра. Пик прогнозируемых значений значительно превосходит реально наблюдаемые пределы вариации аллеля.
3) 3-го порядка, т. е. в предположении наложения влияния двух центров, практически не отличается от предыдущей: ядро лишь несколько смещается в том или ином направлении.
4) более высоких порядков в географии, как правило, не используется. Объясняется это тем, что «содержательная интерпретация фоновых поверхностей, описываемых уравнениями четвертой и более высоких степеней, встречает затруднения» [Берлянт, 1986, с. 173]. Видимо, это справедливо по отношению к несложным поверхностям, которые удовлетворительно описываются уже многочленом 2-го порядка [Берлянт, 1986]. Однако для геногеографических карт со сложным рельефом, сформировавшимся под действием многих, часто разнонаправленных и локальных факторов, использование более высоких степеней не только оправдано, но и необходимо. Компьютеризация процедур расчёта, усложняющихся пропорционально степени многочлена, позволяет построить аппроксимирующие поверхности любого порядка (необходимо лишь оборудование достаточно высокого класса, иначе построение карты высокой степени многочлена может занять несколько суток непрерывной работы компьютера).