Капеллан дьявола: размышления о надежде, лжи, науке и любви - Ричард Докинз
Шрифт:
Интервал:
Закладка:
Все это хорошо с точки зрения экономики. Но с другой стороны, сохранять некоторую избыточность в сообщениях, ради исправления ошибок, тоже неплохая идея. Если в сообщении, совершенно лишенном избыточности, произошла ошибка, восстановить его исходный смысл уже никак невозможно. В машинные коды часто преднамеренно включают избыточные “биты контроля четности”, помогающие находить ошибки. У ДНК тоже есть различные механизмы исправления ошибок, основанные на избыточности. Когда я перейду к разговору о геномах, я вернусь к разнице между упомянутыми тремя понятиями: суммарной информационной емкости, реально использованной информационной емкости и настоящим количеством информации.
Открытие Шеннона состояло в том, что информацию любого рода, независимо от ее смысла, ее истинности или ложности, ее физического носителя, можно измерять в битах и переводить на любой другой носитель. Великий биолог Джон Б. С. Холдейн использовал теорию Шеннона, чтобы подсчитать число бит информации, передаваемое рабочей пчелой своим соседям по улью, когда она “танцует”, сообщая о местоположении источника пищи (около трех бит, чтобы сообщить направление на этот источник, и еще три бита, чтобы сообщить расстояние до него). В тех же самых единицах, как я недавно подсчитал, мне понадобилось бы сто двадцать мегабит машинной памяти моего лэптопа, чтобы записать торжественные вступительные аккорды симфонической поэмы Рихарда Штрауса “Так говорил Заратустра” (“тема из ‘Космической одиссеи 2001 годаʼ”), которые я хотел проиграть в середине одной лекции об эволюции. Экономический метод Шеннона также позволяет сосчитать, сколько модемного времени потребуется, чтобы послать полный текст книги издателю в другую страну. Спустя пятьдесят лет после открытия Шеннона его идея информации как предмета потребления, такого же измеримого и взаимопревраща-емого, как деньги или энергия, окончательно вступила в свои права.
ДНК переносит информацию очень по-компьютерному, и емкость генома тоже можно, если захочется, измерять в битах. В ДНК используется не двоичный код, а четверичный. В то время как в компьютере единица информации — это 1 или 0, в ДНК это Т, А, С или G. Сколько информации будет передано от меня к вам, если я сообщу вам, что в определенном месте последовательности ДНК стоит Г? Начнем с измерения априорной неопределенности. Сколько открыто возможностей до поступления сообщения “Г”? Четыре. Сколько возможностей остается после его поступления? Одна. Стало быть, можно подумать, что было передано четыре бита информации, но на самом деле их только два. И вот почему (исходя из того, что все четыре буквы встречаются с равной вероятностью, как четыре масти в колоде карт). Вспомним, что шенноновская мера касается наиболее экономного способа передачи сообщения. Представьте ее себе как число вопросов, предполагающих ответ “да” или “нет”, которые понадобилось бы задать, чтобы свести исходную неопределенность из четырех возможностей к определенности, если предположить, что вопросы будут сформулированы самым экономным способом. “Идет ли эта таинственная буква по алфавиту перед D)?”[123] Нет. Это сводит неопределенность к вариантам Т и G, и теперь нам понадобится только один дополнительный вопрос, чтобы узнать разгадку. Итак, в соответствии с этим методом измерения, информационная емкость каждой “буквы” ДНК составляет два бита.
Во всех случаях, когда априорную неопределенность знаний получателя можно выразить как число равновероятных альтернатив N, количество информации в сообщении, сводящем эти альтернативы к одной, составляет log2N (степень, в которую нужно возвести двойку, чтобы получить число альтернатив N). Если выбрать карту — любую карту — из обычной колоды, то сообщение, какая это карта, будет нести log252, или 5,7 бит информации. Иными словами, если бы мы сыграли в большое число игр на угадывание, нам потребовалось бы в среднем 5,7 вопроса, требующих ответа “да” или “нет”, чтобы угадать эту карту, при условии, что мы будем задавать вопросы самым экономным способом. Первые два вопроса позволили бы нам узнать масть (например, “Она красная?” и “Это бубны?”), а оставшиеся три или четыре — успешно разделить и проверить всю эту масть (“Старше шестерки?” и тому подобное), в итоге неминуемо придя к искомой карте. Когда априорная неопределенность представляет собой своего рода смесь альтернатив, которые не равновероятны, формула Шеннона преобразуется в немного усложненную формулу для расчета взвешенного среднего, которая, впрочем, по сути аналогична. Кстати, шенноновская формула взвешенного среднего — это именно та формула, которую физики с XIX века используют для расчета энтропии. Отсюда следуют интересные вещи, но здесь я не буду их рассматривать[124].
Этих сведений из теории информации будет достаточно. Эта теория давно привлекает меня, и я использовал ее в некоторых своих научных работах разных лет. Теперь давайте подумаем, как ее можно использовать, чтобы ответить на вопрос, увеличивается ли количество информации в геномах в ходе эволюции. Во-первых, давайте вспомним разницу между тремя понятиями: суммарной информационной емкости, реально использованной информационной емкости и настоящим количеством информации, записанной самым экономным из всех возможных способов. Суммарная информационная емкость человеческого генома измеряется в гигабитах. У обыкновенной бактерии кишечной палочки (Escherichia coli) она измеряется в мегабитах. Мы, как и все другие животные, происходим от предка, которого, если бы у нас сегодня была возможность его исследовать, мы отнесли бы к бактериям. Итак, за миллиарды лет эволюции, прошедшие со времени жизни этого предка, информационная емкость нашего генома могла вырасти где-то на три порядка (степени десятки) — примерно в тысячу раз. Это довольно правдоподобно и утешительно для человеческого достоинства.
Должны ли мы тогда чувствовать, что человеческое достоинство унижает тот факт, что у гребенчатого тритона (Triturus cristatus) емкость генома оценивается в сорок гигабит — на порядок больше, чем у человека? Нет, потому что большая часть емкости генома любого животного в любом случае не используется для хранения полезной информации. Существует множество нефункциональных псевдогенов (см. ниже) и множество повторяющихся бессмысленных последовательностей, полезных для судебно-медицинских экспертов, но не транслируемых в живых клетках в белки. У гребенчатого тритона “жесткий диск” вместительнее, чем у нас, но поскольку основная часть жесткого диска у обоих наших видов не используется, нам не стоит обижаться. У родственных гребенчатому видов тритонов геномы гораздо меньше. Зачем Создателю понадобилось так произвольно и нечестно разыграть размеры генома между тритонами — проблема, над которой могли бы поразмыслить креационисты. С эволюционной точки зрения все объясняется просто[125].
Ясно, что суммарная емкость геномов весьма изменчива во всех царствах живой природы и должна была сильно меняться в ходе эволюции, вероятно в обоих направлениях. Потери генетического материала называют делециями. Новые гены возникают посредством разных форм дупликации. Это можно хорошо проиллюстрировать на примере генов гемоглобина — сложной белковой молекулы, переносящей кислород в крови.
Гемоглобин взрослого человека составлен из четырех белковых цепочек, называемых глобинами, сплетенных друг с другом. Их подробные последовательности показывают, что четыре цепочки глобинов близкородственны друг другу, но не идентичны. Две из них называют альфа-глобинами (каждый из них представлен цепочкой из 141 аминокислоты), а еще две — бета-глобины (каждый из них представлен цепочкой из 146 аминокислот). Гены, кодирующие альфа-глобины, находятся в 11-й хромосоме, а гены, кодирующие бета-глобины, в 16-й хромосоме. В каждой из этих хромосом имеется кластер из расположенных подряд генов глобинов, разделенных вкраплениями из некоторого количества “мусорной ДНК”. Альфа-кластер, на 11-й хромосоме, содержит семь генов глобинов. Четыре из них — псевдогены: варианты генов альфа-глобина, испорченные ошибками в их последовательностях и не транслируемые в белки. Два — настоящие альфа-глобины, используемые у взрослого человека. Последний называется дзета-глобином и используется только у эмбрионов. Сходным образом и бета-кластер, на 16-й хромосоме, содержит шесть генов, из которых часть выключены, а один используется только у эмбриона. Гемоглобин взрослых, как мы уже поняли, содержит две альфа- и две бета-цепочки.
Не забивайте себе голову подробностями. Вот что важно: точный анализ, буква за буквой, показывает, что разные типы генов глобинов в буквальном смысле родственны друг другу, как члены одной семьи. Но эти дальние родственники по-прежнему живут вместе в нашем собственном геноме, а также в геномах всех позвоночных. В масштабе целых организмов все позвоночные — тоже родственники. Древо эволюции позвоночных — это генеалогическое древо, с которым мы все знакомы. Точки его ветвления соответствуют случаям видообразования — разделения видов на пары дочерних видов. Но есть и еще одно генеалогическое древо, занимающее ту же временную шкалу, ветви которого соответствуют не случаям видообразования, а случаям дупликации генов в пределах генома.