VII Съезд биофизиков России
Краснодар, Россия
17-23 апреля 2023 г.
Главная
О Съезде
Организаторы
Программный комитет
Программа Съезда
Место проведения Съезда
Проживание
Оргвзносы
Основные даты
Регистрация
Публикации материалов Съезда
Молодежный конкурс
Контакты
Тезисы
English version
Партнеры Съезда
Правила оформления докладов

Программа Съезда

Секции и тезисы:

Биофизика сложных многокомпонентных систем. Математическое моделирование. Биоинформатика

База данных потенциальных промоторных последовательностей в геномах эукариот

В.М. Руденко1*, Е.В. Коротков1

1.ФИЦ Биотехнологии РАН;

* v.m.rudenko(at)gmail.com

Промоторные области служат для инициализации процесса транскрипции и расположены выше кодирующих областей последовательностей ДНК. Определение их местоположения крайне актуально для решения задачи аннотации генома.

В эукариотических геномах промоторы имеют сложный состав. Они содержат специфические сайты связывания РНК полимеразы, а также регуляции транскрипции, в число которых входит инициатор (Inr), TATA-box, DPE и некоторые другие. При этом состав сайтов и их положение изменчиво. Ситуация усложняется тем, что у генов может быть не один, а несколько промоторов. Наличие альтернативных промоторов является причиной транскрипции с одного гена различных матричных РНК в зависимости от тканей и стадий развития организма.

Указанные сложности приводят к тому, что на сегодняшний день большинство биоинформационных методов поиска промоторов могут выявить лишь небольшую часть промоторных последовательностей. Также требуются априорные знания о структуре промотора. Известные промоторы, по большей части для модельных видов организмов, были определены экспериментальными методами и хранятся в банке данных EPD. Пользуясь этими данными, реально обучить нейронную сеть или построить Марковскую модель и при этом достичь высокой чувствительности метода при распознавании промоторов, сходных с представленными в обучающей выборке [1]. Однако возникает сложность с распознаванием промоторных последовательностей, если в них присутствует большое число мутаций по сравнению с последовательностями обучающей выборки, или же надо определить промоторы биологического вида, который отсутствует в EPD.

В нашей работе мы использовали для поиска промоторов MAHDS – метод множественного выравнивания сильнодивергентных последовательностей. MAHDS состоит из 4 шагов. На первом шаге в известном множестве промоторов конкретного биологического вида определяются классы. В случае, если нет данных по экспериментально подтвержденным промоторам, вместо них в качестве обучающей выборки берутся последовательности длины 600 нп, находящиеся в диапазоне -500..+100 нп относительно сайта старта транскрипции. На втором шаге строится множественное выравнивание последовательностей, входящих в каждый класс, и на основании этого выравнивания генерируется профиль или матрица класса. В зависимости от модификации метода при создании профиля учитываются частоты нуклеотидов или же динуклеотидов в различных позициях промотора. Далее для для всех возможных фрагментов длины 650 пн хромосом определяется локальное выравнивание с профилем каждого класса промоторов. Длина промотора нами была определена как 600 нп, дополнительно 50 нп было предусмотрено на случай множественных вставок. Если вес выравнивания статистически значим, считается, что найдена потенциальная промоторная последовательность (ППС). Последний этап заключается в удалении перекрывающихся ППС с целью устранения избыточности в полученных результатах. Используя термин ППС, мы подчеркиваем тот факт, что определенные промоторные последовательности, обнаруживаются при помощи биоинформационных методов, но не подтверждены экспериментально.

Как видно, MAHDS можно использовать для поиска ППС в любом геноме. MAHDS не требует никакой априорной информации о структуре промоторов, поскольку он самостоятельно определяет эти структуры - профили.

MAHDS был применен для поиска ППС в геномах различных эукариот, а именно: Oriza sativa, Capsicum annuum, Lactuca sativa и Homo sapiens. Все обнаруженные ППС были размещены в базе данных, которая установлена на сервере Центра Биоинженерия ФИЦ Биотехнологии РАН [2]. Доступ осуществляется по ссылке: http://victoria.biengi.ac.ru/cgi-bin/dbPPS/index.cgi. Предполагается, что база данных будет пополняться ППС геномов других видов. Для каждого ППС хранится идентификатор, название биологического вида, номер хромосомы, нить ДНК – прямая или обратная, длина ППС, левая и правая позиция в хромосоме, левая и правая позиция в профиле, сам профиль (или матрица класса), значение статистической значимости. Реализована функция фильтрации записей по этим параметрам. После задания параметров или их возможных диапазонов результаты представляются в виде списка с постраничным выбором. Также есть возможность просмотра более детальной информации по каждому ППС, которая открывается при нажатии на кнопку “>>”. В открывающемся окне имеется гиперссылка на исходную хромосомную последовательность и выравнивание последовательности ППС относительно профиля. Также здесь можно увидеть множественное выравнивание, по которому рассчитывался профиль ППС.

Число идентифицированных методом MAHDS ППС значительно превышает количество генов в указанных геномах. Так, например, для Capsicum annuum количество ППС составляет 825136, в то время как аннотированных генов всего 31600, т.е. наблюдается разница указанных величин в 26 раз. Похожая картина наблюдается и для других геномов. Возможно несколько причин такого расхождения. Во-первых, мы полагаем, что существуют неаннотированные в настоящее время гены, промоторы которых не определены. Во-вторых, часть промоторов может являться альтернативными, вследствие чего транскрипция с них идет только при определенных условиях. Также часть ППС пересекаются с мобильными генетическими элементами, число которых особенно много в растительных геномах.

Мы полагаем, что база данных ППС может представлять интерес в изучении генетической регуляции процесса транскрипции. Также представленные данные можно использовать в экспериментальных исследованиях, по изучению альтернативных путей транскрипции и в области генетической инженерии.

СПИСОК ЛИТЕРАТУРЫ

1. Umarov R., Solovyev V. Recognition of prokaryotic and eukaryotic promoters using convolutional deep learning neural networks. PLoS ONE 12, 2

2. Rudenko V., Korotkov E. Database of potential promoter sequences in the Capsicum annuum genome. Biology. 2022, 11, 1117

Database of Potential Promoter Sequences in Eukaryotic Genomes

V.M. Rudenko1*, E.V. Korotkov1

1.Research Center of Biotechnology RAS;

* v.m.rudenko(at)gmail.com

Promoter regions serve to initiate the transcription process. They are located upstream of the coding regions of DNA sequences. Determining their location is extremely important for solving the problem of genome annotation.

Promoters have a complex composition in eukaryotic genomes. They contain specific binding sites for RNA polymerase, as well as transcription regulation sites, including the initiator (Inr), TATA-box, DPE, and some others. At the same time, the composition of sites and their position is inconstant. The situation is complicated by the fact that genes can have not one, but several promoters. The presence of alternative promoters causes transcription of different mRNAs from one gene, depending on the tissues and developmental stages of the organism.

These difficulties lead to the fact that today most bioinformatic methods for searching for promoters can reveal only a small part of the promoter sequences. A priori knowledge of the promoter structure is also required. Known promoters, mostly for model organisms, have been determined experimentally and are stored in the EPD database. Using these data, it is possible to train a neural network or build a Markov model and achieve a high sensitivity of the method in recognizing promoters similar to those presented in the training set [1]. However, it becomes difficult to recognize promoter sequences if they contain a large number of mutations compared to the sequences of the training set, or if it is necessary to determine the promoters of species that are absent in the EPD.

In our work we used MAHDS, a highly divergent sequence multiple alignment method, to search for promoters. MAHDS consists of 4 steps. At the first step, classes are determined in the known set of promoters of a particular biological species. If the experimentally confirmed promoters are unknown than sequences of length 600 bp, which are located at -500..+100 bp from the transcription start site are taken as a training set. In the second step, a multiple alignment of the sequences included in each class is built; a class profile is generated based on this alignment. There are some modifications of the method when creating a profile, the frequencies of nucleotides or dinucleotides in different positions of the promoter are taken into account. Further, for all possible fragments of length 650 bp of chromosomes, local alignment with the profile of each class of promoters is determined. The length of the promoter was determined by us as 600 bp, an additional 50 bp was provided for the case of multiple insertions. If the alignment weight is statistically significant, it is considered that a potential promoter sequence (PPS) has been found. The last step is to remove overlapping PPS in order to eliminate redundancy in the results. By using the term PPS, we emphasize the fact that certain promoter sequences are found using bioinformatics methods but have not been verified experimentally.

As can be seen, MAHDS can be used to search for PPS in any genome. MAHDS does not require any a priori information about the structure of the promoters, since it independently determines these structures such as profiles.

MAHDS has been applied to search for PPS in the genomes of various eukaryotes: Oriza sativa, Capsicum annuum, Lactuca sativa, and Homo sapiens. All detected PPS were placed in the database installed on the server of the Bioengineering Center of the Federal Research Center for Biotechnology of the RAS [2]. The link: http://victoria.biengi.ac.ru/cgi-bin/dbPPS/index.cgi. It is assumed that the database will be fill in with PPS of other genomes. For each PPS, an identifier, species name, chromosome number, DNA strand (direct or reverse), PPS length, left and right positions in the chromosome, left and right positions in the profile, the profile (or class matrix), and the value of statistical significance are stored. The filtering function by these parameters has been implemented. After specifying the parameters or their possible ranges, the results are presented as a paginated list. It is also possible to view more detailed information for each PPS, that opens by clicking on the “>>” button. In the opened window, there is a hyperlink to the original chromosome sequence and the alignment between PPS and profile. Also here you can see the multiple alignment used to calculate the PPS profile.

The number of PPS identified by the MAHDS method significantly exceeds the number of genes in these genomes. For example, for Capsicum annuum genome, the number of PPS is 825136, while there are only 31600 annotated genes, i.e. there is a difference of the indicated values by 26 times. A similar picture is observed for other genomes. There may be several reasons for this discrepancy. First, we think that there are currently unannotated genes thats promoters have not been identified yet. Secondly, some promoters may be alternative. Also, part of PPS intersects with mobile genetic elements, that are common in plant genomes.

We believe that the PPS database may be helpful for studying the genetic regulation of the transcription process. Also, the presented data can be used in experimental studies, on the study of alternative transcription pathways and in the field of genetic engineering.

REFERENCES

1. Umarov R., Solovyev V. Recognition of prokaryotic and eukaryotic promoters using convolutional deep learning neural networks. PLoS ONE 12, 2

2. Rudenko V., Korotkov E. Database of potential promoter sequences in the Capsicum annuum genome. Biology. 2022, 11, 1117





Докладчик: Руденко В.М.
245
2022-10-20

Национальный комитет Российских биофизиков © 2022
National committee of Russian Biophysicists