Рассказ предка. Паломничество к истокам жизни
Шрифт:
Отвлечемся от гиббонов и займемся Чосером, а именно четырьмя из 85 списков “Кентерберийских рассказов”. Эти рукописи называются: “Британская библиотека” (British Library), “Крайст-Черч” (Christ Church), “Эджертон” (Edgerton) и “Хенгурт” (Hengwrt) [14] . Вот две первые строки “Общего пролога”:
Когда Апрель обильными дождямиРазрыхлил землю, взрытую ростками… [15]14
Манускрипт “Британская библиотека” принадлежал Генри Дину, который в 1501 году был архиепископом Кентерберийским. Как и некоторые другие списки, сегодня он хранится в Британской библиотеке в Лондоне. Список “Крайст-Черч” хранится близко к месту, в котором я пишу эту книгу – в библиотеке колледжа Крайст-Черч в Оксфорде. Самое раннее из найденных свидетельств о списке “Хенгурт” показывает, что в 1537 году он принадлежал Фулку Даттону. Эта рукопись сейчас хранится в Национальной библиотеке Уэльса.
15
Пер. И. Кашкина. – Прим. пер.
Теперь сравним. Список из Британской библиотеки гласит:
Whan that Aprylle / wyth hys showres sooteThe drowhte of Marche / hath pcede to the rote“Крайст-Черч”:
Whan that Auerell wt his shoures sooteThe droght of Marche hath pced to the roote“Эджертон”:
Whan that Aprille with his showres sooteThe drowte of marche hath pced to the roote“Хенгурт”:
Whan that Aueryll wt his shoures sooteThe droghte of March / hath pced to the rooteПервое, что нужно сделать с последовательностью ДНК или текстом, – выявить сходства и различия. Для этого нужно их “выровнять” – а это бывает не так-то просто: тексты могут быть фрагментарными и иметь разную длину. Здесь очень помогает компьютер, но чтобы выровнять первые две строки “Общего пролога”, он не понадобится. На рисунке выделены 14 позиций, по которым тексты не совпадают.
Вторая и пятая позиции представлены даже не двумя вариантами, а тремя. В целом это дает 16 “различий”. После того, как мы составили список различий, нужно определить, какое древо лучше всего их объясняет. Есть множество способов это сделать, и все их можно применить и к животным, и к текстам. Самый простой пример – группировка текстов на основе общего сходства. Как правило, при этом используют варианты следующего метода. Сначала мы находим пару наиболее сходных текстов. Затем мы используем эту пару в качестве единого усредненного текста и сравниваем его с оставшимися, чтобы найти следующую пару наиболее сходных текстов. Так мы последовательно формируем новые пары, пока не получится генеалогическая схема. Такой способ построения деревьев используется чаще всего и называется методом поиска ближайшего соседа (neighbourpmmg). Он прост, но не учитывает логику эволюционного процесса: мы просто оцениваем сходство. Поэтому сторонники “кла-дистического” подхода в систематике (он основан на принципах эволюции) предпочитают иные методы. Первым был разработан метод парсимонии (экономии).
Экономия, как мы узнали из “Рассказа Орангутана”, означает здесь экономичность объяснения. В эволюции (животного ли, манускрипта ли) самым экономичным является объяснение, подразумевающее наименьшее число эволюционных изменений. Если два текста объединены общим признаком, самое экономичное объяснение будет гласить: оба текста унаследовали этот признак от общего предка. Конечно, и у этого правила есть исключения, однако чаще всего оно верно. Метод парсимонии – по крайней мере в теории – сравнивает все возможные деревья и выбирает то, в котором количество изменений минимально.
Когда мы сравниваем деревья по их экономичности, некоторые виды признаков оказываются бесполезными. Признаки, уникальные для манускрипта или вида животного, неинформативны. В методе поиска ближайшего соседа такие признаки учитываются, однако метод парсимонии целиком их игнорирует. Метод парсимонии опирается на информативные признаки, то есть такие, которые наблюдаются более чем в одном манускрипте. Предпочтительным древом является объясняющее максимальное количество информативных признаков общим происхождением. В строках Чосера пять таких информативных признаков. Четыре из них делят манускрипты на следующие группы:
{“Британская библиотека” + “Эджертон”} и (“Крайст-Черч” + “Хенгурт”}
Эти признаки выделены первой, третьей, седьмой и восьмой вертикальными линиями. Пятый признак – косая черта – выделен двенадцатой вертикальной линией. По этому признаку манускрипты подразделяются на другие группы:
{“Британская библиотека” + “Хенгурт”} и {“Крайст-Черч” + “Эджертон”}
Полученные результаты противоречат друг другу. Мы не можем построить древо, в котором каждое изменение отображалось бы лишь один раз. Самым приемлемым окажется древо, изображенное ниже (заметьте – оно неукорененное). Эта схема сокращает противоречия до минимума: мы повторно учитываем лишь один признак – косую черту.
Вообще-то я не уверен, что мы сделали правильное предположение. В текстах часто встречаются совпадения и реверсии, особенно если смысл строк при этом не меняется. Средневековый переписчик наверняка не испытывал угрызений совести, изменяя написание, и еще меньше его волновали вставки или удаления знаков, например косой черты. В этом случае информативнее такие изменения, как перестановка слов. В генетике аналогами таких изменений являются “редкие геномные изменения”: крупные вставки, делеции и дупликации ДНК. Мы можем оценить информативность, присвоив большее или меньшее значение (вес) различным типам признаков. Недостоверные или слишком частые изменения при подсчете будут иметь меньший вес. А редкие изменения, которые служат надежными показателями родства, – больший вес. Повышенный вес признака говорит о том, что мы не хотим учитывать его дважды. Таким образом, наиболее экономное древо – то, которое имеет наименьший общий вес.
Метод парсимонии широко используется для поиска эволюционных деревьев. Но в том случае, когда конвергенций и реверсий слишком много – а это случается и с последовательностями ДНК, и с текстами Чосера, – метод парсимонии может оказаться недостоверным. Эта проблема известна как “эффект притяжения длинных ветвей”.
Кладограммы – как укорененные, так и неукорененные – отражают лишь порядок ветвления. Филограммы, или филогенетические деревья, похожи на кладограммы, но в них длина ветвей несет дополнительную информацию. Обычно длина ветвей отражает эволюционное расстояние: длинные ветви обозначают крупные изменения, а короткие – мелкие. На основе первой строки “Кентерберийских рассказов” можно построить следующую филограмму.
Здесь длина ветвей не слишком различается. Но представьте, что будет, если два манускрипта сильно отличаются от двух других. Тогда ветви первых манускриптов будут очень длинными. Однако изменения могут оказаться не уникальными. Изменения могут случайно оказаться идентичными изменениям в другом месте древа. Но с наибольшей вероятностью (именно в этом заключается проблема) они совпадут с изменениями на другой длинной ветви. Ведь длинные ветви – это те, в которых произошло наибольшее число изменений. И если изменений окажется слишком много, две длинные ветви на филограмме будут отображаться как родственные, даже если это не так. Таким образом, метод парсимонии, основываясь на простом подсчете изменений, может ошибочно сгруппировать две самые длинные ветви, “притянуть” их друг к другу.
Эффект притяжения длинных ветвей – серьезная помеха для систематики. Он проявляется везде, где много конвергенций и реверсий. К сожалению, эту проблему нельзя решить простым увеличением объема рассматриваемого текста. Наоборот, чем больше текст, тем выше вероятность обнаружения случайных совпадений. Про такие деревья говорят, что они лежат в “зоне Фельзенстайна” (звучит устрашающе!), названной в честь американского биолога Джо Фельзенстайна. Увы, ДНК особенно подвержена эффекту притяжения длинных ветвей. Основная причина в том, что в ДНК всего четыре “буквы”. Поскольку большинство изменений затрагивают всего одну “букву”, случайные мутации с высокой вероятностью могут привести к совпадениям. Так возникает притяжение длинных ветвей. Очевидно, что для таких случаев нужна альтернатива методу парсимонии. Она существует – это метод правдоподобия. В последнее время он используется все чаще.