ОБЩАЯ БИОЛОГИЯ

С.А. БОРИНСКАЯ, М.С. ГЕЛЬФАНД, А.А. МИРОНОВ

Компьютерная геномика – новая эра

Ранее биологи изучали формы и функции организмов, переходя от изучения целого к изучению частей живого – органов и тканей. Современная биология изучает части – гены и молекулы, пытаясь воссоздать картину их функционирования в целом организме. Появилась новая наука – геномика. Объектом ее является совокупность всей генетической информации организма – геном. Работа генов определяет, какие белки синтезируются в клетке. Именно от разнообразия и активности белков зависят молекулярные процессы, обеспечивающие жизнь клетки и организма. Установление и характеристика полного набора белков данного организма относится к компетенции еще одного нового направления биологии – протеомики (от protein – белок).

В настоящее время число генов в геноме человека оценивается примерно в 30 тыс. Большинство генов в каждой клетке «молчит». К постоянно работающим во всех клетках относятся гены, кодирующие компоненты аппарата синтеза белка, РНК, ферменты, занимающиеся синтезом и починкой ДНК, ферменты системы обеспечения энергией и другие компоненты, необходимые для ведения «домашнего хозяйства» клетки. В геноме человека заведуют «домашним хозяйством» около одной пятой всех генов. Среди остальных есть гены, работающие только на определенных этапах развития организма, – например, те, которые кодируют эмбриональные белки или обеспечивают лактацию. Другие работают лишь в немногочисленных клетках. Так, способность воспринимать запахи связана с обонятельными рецепторами. Всего найдено около 1 тыс. генов, кодирующих рецептор, и в каждой клетке обонятельной луковицы работает только один ген. К удивлению исследователей, оказалось, что некоторые из этих генов работают и в сперматозоидах (предположительно, потому, что им надо как-то в темноте ориентироваться).

Можно сказать, что в каждой клетке «звучит» свой аккорд генов, определяя спектр синтезируемых на них видов РНК, кодируемых матричной РНК белков и, соответственно, свойства клетки. Набор активных генов различается в зависимости от типа ткани, периода развития организма, полученных внешних или внутренних сигналов.

В генетическом коде перед началом гена находятся промоторы – специальные регуляторные последовательности, которые включают и выключают гены в зависимости от полученных клеткой сигналов. Клетка прекрасно «понимает», когда и какой участок генетического текста надо считывать, реализуя записанную в нем информацию. Более 20 лет назад была расшифрована структура регуляторных участков в ДНК бактерий. С тех пор ученым удалось многое понять в работе генов.

Бурное развитие геномики связано, с одной стороны, с совершенствованием методов секвенирования ДНК, т.е. определения в ней последовательности (англ. sequence – последовательность) нуклеотидов. С другой стороны, лавинообразный рост объема накопленных данных вызвал развитие компьютерных технологий анализа информации, записанной в ДНК. Сейчас изучают уже не отдельные фрагменты ДНК, а целые геномы десятков бактерий, дрожжей, червя-нематоды, мухи дрозофилы.

Конечно же, наибольшие ожидания связаны с изучением генома человека, направленным на выявление нуклеотидных последовательностей всех генов человека, установление их функций и взаимодействий в норме и при нарушениях, приводящих к болезням.

Однако сам по себе нуклеотидный текст – только лишь исходный материал для дальнейшего анализа и выявления в нем генов. Необходимо понять, когда и какие фрагменты ДНК-текстов переписываются в набор молекул РНК, какие белки при этом синтезируются, как меняется при этом структура и функция клетки.

Кроме понимания фундаментальных законов жизни открытия геномики приносят заметную практическую пользу. Фармацевтические компании вкладывают огромные средства в геномные исследования. И не зря. Геномика уже многое дала медицине. А по предсказанию Френсиса Коллинза, возглавляющего американскую программу исследования генома человека, через 40 лет лечение самых различных недугов будет основано на использовании синтетических генных продуктов, которые будут изменять работу заболевших клеток и органов в нужном для выздоровления направлении.

Компьютерные эксперименты

В течение 100 лет изучение генов было основано на экспериментах in vivo (в живой клетке) и in vitro (в пробирке). Появившиеся в 1960-х гг. компьютеры были лишь вспомогательным средством для обработки и хранения данных. С конца 1980-х гг. началось создание баз данных, в которых хранится информация о миллионах последовательностей нуклеотидов в ДНК и РНК или аминокислот в белках. Компьютерный анализ превратился в самостоятельную область науки – биоинформатику. Исследования in silico, т.е. в компьютере, уже привели к расшифровке многих «слов» генетического текста – команд, записанных в ДНК и управляющих жизнью клетки.

Для такой расшифровки используют специально разработанные программы, например, для статистического анализа распределения нуклеотидов в ДНК. Напомним, что в генетическом алфавите всего четыре буквы – А (аденин), Т (тимин), Г (гуанин) и Ц (цитозин). Любители подсчета буковок выяснили, сколько может идти подряд букв А или как часто Г встречается после Ц в ДНК бактерий или человека.

В «осмысленных», т.е. кодирующих, участках ДНК эти сочетания подчиняются определенным правилам, тогда как в промежутках между генами, там, где ничего существенного в ДНК не записано, частота сочетаний нуклеотидов близка к случайной. Похоже на правила грамматики, которые мы учили в школе: «жи, ши пиши через и». В словах русского языка буква «ы» после «ж» не встречается (разве что в тетрадях двоечников). Так же и в генетических текстах – в кодирующих участках некоторые сочетания нуклеотидов практически не встречаются, а распределение других сочетаний сильно отличается от случайного. Это видно при подсчете распределения триплетов, кодирующих аминокислоты, в генах излюбленного объекта генетиков – кишечной палочки (см. таблицу на с. 11). У кишечной палочки, так же как и у других организмов, всего имеется 64 триплета. Три из них – ТАА, ТАГ и ТГА – не кодируют аминокислоты, а являются сигналом окончания (терминации) синтеза белка.

Одна и та же последовательность ДНК может быть прочитана тремя способами со сдвигом на один нуклеотид. Способ чтения называется рамкой считывания. Понятно, что терминирующие триплеты не встречаются внутри гена в кодирующей рамке считывания (в других рамках они могут встречаться, но никому там не мешают – они не читаются, если молекулярная машина не собьется). Кодирующие триплеты распределены внутри гена по-разному. Триплет ЦТГ встречается примерно в 10 раз чаще, чем триплет ЦТА, хотя оба они кодируют одну и ту же аминокислоту – лейцин. В межгенных промежутках такие различия частот не наблюдаются.

Такие подсчеты, называемые статистическими методами анализа нуклеотидных последовательностей, позволяют распознать участки генома с определенными свойствами. Например, у бактерий большинство болезнетворных генов находится в так называемых островках патогенности, которые отличаются от остального генома по частоте встречаемости пар нуклеотидов А–Т и Г–Ц .

Где искать гены?

У бактерий выявить гены относительно легко. Во-первых, они занимают 80–90% бактериального генома, так что вероятность попасть в ген гораздо больше, чем промахнуться. Во-вторых, кодирующий участок бактериального гена – это непрерывная открытая рамка считывания, так что если ученому удалось найти в сплошной цепочке букв начало бактериального гена, то он будет читать его, как и клетка, триплетами до самого конца, пока не наткнется на стоп-кодон.

Гены высших организмов, в том числе и человека, искать намного труднее. У человека на участки, кодирующие белки, приходится только 5% генома. При этом кодирующие участки идут не сплошь, как у бактерий, а прерываются вставочными последовательностями – интронами, которые после синтеза матричной РНК из нее вырезаются. Ген может содержать до нескольких десятков кодирующих фрагментов – экзонов, чередующихся с интронами. К тому же в разных клетках могут использоваться разные сочетания экзонов одного и того же гена.

На основе статистического анализа можно с определенной долей вероятности установить, к какому участку генома относится исследуемый фрагмент. Подобно тому, как, включив телевизор и услышав слова «В отличие от обычного средства» или «Дешевле только даром», вы сразу поймете, что попали на рекламный ролик. Эти словосочетания в других передачах почти не встречаются. Так и определенные сочетания нуклеотидов указывают на принадлежность анализируемого куска генетического текста к интрону или экзону, кодирующему белок. Границы интронов и экзонов обозначены в ДНК специальным сочетанием нуклеотидов.

Без компьютерных биоинформационных технологий развитие геномных исследований было бы невозможным. Компьютерный поиск генов особенно важен для исследования генома человека, т.к. методы классической генетики имеют в этом случае ограниченное применение – ведь человек, в отличие от мух-дрозофил, не может быть объектом искусственного мутагенеза или иных генетических экспериментов.

Однако результаты экспериментов, поставленных на животных, могут быть применимы и к человеческому геному. Наиболее важные участки генома относительно мало изменяются в процессе эволюции, и их функции, установленные в экспериментах на мышах или мухах, оказываются такими же и у человека. Компьютерный анализ генетических текстов разных организмов позволяет выявить такие сходные участки.

Медленнее всего меняются участки, кодирующие белки. В наиболее важных белках отдельные участки сохранялись неизменными на протяжении миллиардов лет эволюции – от бактерий до человека. Это дает возможность находить гены при сравнении геномов отдаленно родственных видов. Таким анализом занимается сравнительная геномика. Ее методы используют для выявления родства отдельных генов, родства организмов, установления происхождения видов и более крупных таксонов.

Если сравнивать геномы человека и дрозофилы, то легко выявить гены, т.к. у неродственных организмов более заметна разница между значимыми (медленно меняющимися) и незначимыми участками. Но часть человеческих генов не похожа на мушиные, и выявить их при таком сравнении не удается. У нашей более близкой родственницы – мыши – почти такой же набор генов, как и у человека. Однако сохранение сходства в некодирующих областях создает трудности при выявлении генов сравнительными методами. т.е. выбирать организм для сравнения надо в зависимости от конкретной задачи.

А вот гены шимпанзе почти идентичны человеческим. Генетический текст шимпанзе отличается от нашего в среднем одним нуклеотидом из 300. Так что сравнение генома человека с обезьяньим нельзя использовать для выявления генов. Однако если гены уже известны, то существенные различия между человеком и шимпанзе скорее всего связаны именно с теми генами, которые делают нас людьми. Поэтому, как сообщил недавно журнал Science, в Германии начат проект «Геном шимпанзе».

Сравнительная геномика позволяет по известным функциям генов мухи или червя-нематоды предсказывать функции генов человека. А выявленные у человека гены, работа которых нарушена при тех или иных заболеваниях, могут быть изучены на других животных. Например, у человека найдены гены, мутации в которых приводят к болезни Альцгеймера – одной из форм старческого слабоумия. Оказалось, что изучать действие этих генов и искать способы лечения можно в экспериментах на мухах. Мутации в генах мухи приводят к изменениям в мушиных мозгах, очень сходным с молекулярными нарушениями, происходящими в мозге пациентов с болезнью Альцгеймера. У «слабоумных» мух нарушается способность к запоминанию. Ведется поиск генов мух, связанных с нарушениями памяти, и препаратов, способных замедлить развитие болезни, – сначала у мух, а потом, надо надеяться, и у людей. Важные для медицины и промышленности результаты дали исследования целых геномов бактерий. Уже полностью прочитаны геномы нескольких десятков бактерий. Среди них, кроме уже упоминавшейся кишечной палочки, возбудители социально значимых инфекций – туберкулеза, сифилиса, возбудители тифа, гастрита, некоторые промышленно важные бактерии. Практически все гены в изученных бактериальных геномах выявлены, для многих известны функции белкового продукта. По известным функциям белков проводят реконструкцию обмена веществ – метаболических путей бактерии. Реконструкция основных метаболических процессов организма по последовательности нуклеотидов его генома – одна из важнейших задач геномных исследований. Эту область исследований назвали труднопроизносимым словом метаболомика.

Анализ полной последовательности нуклеотидов генома микобактерии – возбудителя туберкулеза – показал, что у бактерии имеются жизненно важные для нее ферменты, отсутствующие у человека. Поиск лекарств, действующих именно на эти ферменты, обещает переворот в борьбе с инфекцией, уносящей миллионы человеческих жизней.

Перспективы биоинформатики

Экспериментальный поиск одного гена занимает недели и месяцы работы целой лаборатории. Компьютерные методы позволяют сделать это за считанные минуты, если просеквенирована ДНК организма и если есть хорошие алгоритмы поиска. Созданием таких алгоритмов и занимаются специалисты по биоинформатике. Различные программы используют для поиска генов, поиска регуляторных сигналов в ДНК, предсказания структуры и функций белка, его локализации в клетке, для реконструкции метаболизма. Реконструкция метаболических реакций, происходящих в разных клетках и тканях, будет одним из следствий расшифровки генетической информации человека.

Надо отметить, что российская биоинформатика не отстает, а зачастую и опережает мировую. Так, именно российские ученые предложили использовать одновременно несколько разных взаимоподдерживающих алгоритмов анализа последовательностей. Каждая из существующих программ по отдельности ошибается достаточно часто. Но если использовать несколько таких «слабых» программ одновременно, то там, где их предсказания совпадут, обнаружится истина. Например, человеческие гены удается неплохо предсказывать, если одновременно учитывать статистическое распределение нуклеотидов, сигналы сплайсинга и частоту использования кодонов.

Геномные исследования в России развиваются, несмотря на все трудности, с которыми сталкивается наука в нашей стране. И России они необходимы так же, как и другим странам.

Любая биологическая система стремится к поддержанию стабильности своего существования. Даже березовая роща контролирует внутренние условия – в ней и температура воздуха, и освещенность, и влажность воздуха отличаются от окружающих. Со всех видов естественный отбор собирает суровую дань, уничтожая носителей неблагоприятных мутаций, – это плата за приспособленность вида в целом.

К улучшению своей породы люди стремились во все времена. В древней Спарте сбрасывали «неудавшихся» младенцев со скалы. В 1930-х гг. в США с той же целью около 100 тыс. человек было подвергнуто принудительной стерилизации – с точки зрения генетики бессмысленной, т.к. подобные меры не снижают частоты проявления наследственных заболеваний в следующем поколении. В начале третьего тысячелетия человечество стремится взять под контроль собственные генетические процессы и вносить коррективы не ценой жизни носителя неблагоприятных мутаций, а подправляя их генетические тексты с учетом результатов исследований генома человека.

Таблица. Триплетный код (в скобках указана средняя частота встречаемости данного кодона на 1 тыс. ) в геноме кишечной палочки

ТТТ (22) Фенилаланин
ТТЦ (16) Фенилаланин
ТТА (14) Лейцин
ТТГ (13) Лейцин
ТЦТ (10) Серин
ТЦЦ (9) Серин
ТЦА (8) Серин
ТЦГ ( 9) Серин
ТАТ (16) Тирозин
ТАЦ (12) Тирозин
ТАА ( 2) стоп
ТАГ (0,3) стоп
ТГТ (5) Цистеин
ТГЦ (6) Цистеин
ТГА (1) стоп
ТГГ (14) Триптофан
ЦТТ (11) Лейцин
ЦТЦ (11) Лейцин
ЦТА (4) Лейцин
ЦТГ (50) Лейцин
ЦЦТ (7) Пролин

ЦЦЦ (5) Пролин
ЦЦА (9) Пролин
ЦЦГ (22) Пролин
ЦАТ (13) Гистидин
ЦАЦ (10) Гистидин
ЦАА (15) Глутамин
ЦАГ (29) Глутамин
ЦГТ (21) Аргинин
ЦГЦ (21) Аргинин
ЦГА (4) Аргинин
ЦГГ (6) Аргинин
АТТ (30) Изолейцин
АТЦ (24) Изолейцин
АТА (6) Изолейцин
АТГ (27) Метионин
АЦТ (10) Треонин
АЦЦ (23) Треонин
АЦА (8) Треонин
АЦГ (14) Треонин
ААТ (19) Аспарагин
ААЦ (22) Аспарагин

ААА (35) Лизин
ААГ (12) Лизин
АГТ (9) Серин
АГЦ (16) Серин
АГА (3) Аргинин
АГГ (2) Аргинин
ГТТ (19) Валин
ГТЦ (15) Валин
ГТА (11) Валин
ГТГ (25) Валин
ГЦТ (16) Аланин
ГЦЦ (25) Аланин
ГЦА (21) Аланин
ГЦГ (32) Аланин
ГАТ (32) Аспарагиновая к-та
ГАЦ (19) Аспарагиновая к-та
ГАА (39) Глутаминовая к-та
ГАГ (18) Глутаминовая к-та
ГГТ (25) Глицин
ГГЦ (28) Глицин
ГГА (9) Глицин
ГГГ (11) Глицин

 

 

Рейтинг@Mail.ru
Рейтинг@Mail.ru