VII Congress of Russian Biophysicists
Krasnodar, Russia
April 17-23, 2023
Main
About The Congress
Organizers
Program Committee
Congress program
Venue of the Congress
Accommodation
Registration fees
Dates and deadlines
Registration
Congress proceedings and papers
Youth contest
Contacts
Abstracts
Русская версия
Congress Partners
Talks and posters design

Congress program

Секции и тезисы:

Biophysics of complex multicomponent systems. Math modeling. Bioinformatics

Статистические оценки кластеризации сайтов связывания транскрипционных факторов в геномах растений

А.И. Дергилев1,2*, В.А. Иванисенко2, Ю.Л. Орлов2,3, М. Чен4

1.Новосибирский государственный университет;
2.Институт цитологии и генетики СО РАН;
3.Аграрно-технологический институт, Российский Университет Дружбы Народов;
4.Университет Чжецзян;

* arturd1993(at)yandex.ru



Развитие высокопроизводительного геномного секвенирования в сочетании с технологиями иммунопреципитации хроматина позволяет изучать сайты связывания белковых транскрипционных факторов (CCТФ) в масштабе генома. Увеличение объема данных по экспериментально определенным сайтам связывания ставит качественно новые задачи для анализа регуляции экспрессии генов, предсказания генов-мишеней для факторов транскрипции и реконструкции регуляторных генных сетей, в том числе в геномах растений.

Совместное расположение сайтов связывания двух или более различных факторов в промоторной области гена может определять элемент сети регуляторных генов: два белковых фактора транскрипции могут связываться с одной и той же промоторной областью гена, что соответствует взаимодействию. Белок ТФ может связываться с промотором собственного гена, образуя регуляторный контур.

Сеть регуляторных генов может быть реконструирована из набора местоположений сайтов связывания, образующих кластеры в геноме, с помощью нескольких различных ТФ. Такая регуляторная сеть может сохраняться между видами.

Распределение числа связей в сети белок-белковых взаимодействий подчиняется определенным статистическим закономерностям. Распределение числа узлов в такой сети для транскрипционных факторов также имеет экспоненциально убывающий характер. Новые технологии полногеномного определения сайтов связывания белковых транскрипционных факторов (ChIP-seq) позволяют исследовать распределение узлов более детально для различных модельных объектов (геном человека, геномы млекопитающих и растений). Высказывается гипотеза об общем характере распределения кластеров сайтов связывания в геноме по числу различных транскрипционных факторов, обусловленном структурой регуляторной генной сети. Предложен метод поиска регуляторных районов на основе статистики распределения сайтов связывания в геномах растений, представлены компьютерные инструменты такого анализа и визуализации (Dergilev et al., 2021).

Показано существование неслучайных кластеров сайтов связывания во всех исследованных геномах растений, детально рассмотрены кластеры в геноме Arabidopsis thaliana. Было показано, что фактор LFY, отвечающий за рост цветков у растений, как правило, встречается в геноме Arabidopsis thaliana наиболее часто среди всех остальных, тогда как факторы группы SRS наименее экспрессированы. В геноме Physcomitrella patens фактор LFY стоит на первом месте, а фактор G2, участвующий в процессе клеточного цикла и влияющий на дифференциацию клеток, встречается реже других. Интересно также отметить, что фактор LFY, как правило, встречается наиболее часто среди всех остальных, но слабо коррелирует с другими факторами. В целом можно отметить, что эволюционно более древние факторы GATA и MYB представлены в кластерах сайтов у всех исследованных видов растений.

Для рассматриваемых геномов растений анализ расширенного набора сайтов связывания факторов транскрипции подтвердил широкую совместную кластеризацию сайтов связывания факторов транскрипции семейства GATA, то есть факторов транскрипции, характеризующихся способностью связываться с последовательностью ДНК GATA.

Вопреки ожиданиям, фактор LFY слабо коррелирует с другими факторами из выбранного набора. Однако в процессе кластеризации LFY активно ассоциируется с другими факторами.

В целом предлагаемые статистические оценки позволяют выявлять неслучайные кластеры сайтов связывания ТФ в геномах растений. Распределение кластеров сайтов по размерам показывает общие закономерности формирования кластеров сайтов в эукариотических геномах. Такие участки генома растений необходимо дополнительно исследовать экспериментальными методами для выявления кооперативных взаимодействий, определения функциональной роли обнаруженных кластеров, в том числе в ответ на стресс (Doroshkov et al., 2019).

В общем случае задача совместной регуляции недостаточно изучена. Для геномов растений такие исследования представлены в отдельных базах данных. Для моделирования генных сетей – комплексов взаимодействующих макромолекул в клетке растения – будет использован сетевой подход, инструменты STRING-DB, KEGG Pathways (Orlov et al., 2021).

Разработанные компьютерные подходы могут быть применены к широкому кругу задач оценки кластеров функциональных элементов в геноме. К ним могут относиться области низкой сложности текста, тандемные повторы и островки CpG (Babenko et al., 2018). Анализ функциональных кластеров позволяет статистически описывать энхансеры, аннотировать геномы. Интеграция экспериментальной геномной информации, больших данных в целом представляет собой важную проблему молекулярной биофизики, требующую интеграции существующих программных средств и решений.

Благодарности: Проект поддержан грантом РНФ 23-44-00030.



Литература

1. Dergilev A.I., Orlova N.G., Dobrovolskay O.B., Orlov Y.L. Statistical estimates of transcription factor binding site clusters in plant genomes based on genome-wide data. Journal of Integrative Bioinformatics. 2021; 18, 20200036 doi: 10.1515/jib-2020-0036

2. Орлов Ю.Л., Галиева А.Г., Орлова Н.Г. и др. Реконструкция генной сети болезни Паркинсона для поиска генов-мишеней. Биомедицинская химия. 2021; 67(3): 222-230 doi: 10.18097/PBMC20216703222

3. Doroshkov A.V., Konstantinov D.K., Afonnikov D.A., Gunbin K.V. The evolution of gene regulatory networks controlling Arabidopsis thaliana L. trichome development. BMC Plant Biol. 2019; 19(Suppl 1):53. doi: 10.1186/s12870-019-1640-2

4. Babenko V.N., Bogomolov A.G., Babenko R.O., Galieva E.R., Orlov Y.L. CpG islands’ clustering uncovers early development genes in the human genome. Computer Science and Information Systems, 2018; 15(2): 473-485 (2018) doi: 10.2298/CSIS170523004B

Statistical estimates of clustering of transcription factor binding sites in plant genomes

A.I. Dergilev1,2*, V.A. Ivanisenko2, Y.L. Orlov2,3, M. Chen4

1.Novosibirsk State University;
2.Institute of Cytology and Genetics SB RAS;
3.Agrarian and Technological Institute, Peoples' Friendship University of Russia;
4.Zhejiang University;

* arturd1993(at)yandex.ru

The development of high-throughput genomic sequencing combined with chromatin immunoprecipitation technologies makes it possible to study the binding sites of protein transcription factors (TF BS) at the genome scale. An increase in the volume of data on experimentally determined binding sites poses qualitatively new tasks for the analysis of gene expression regulation, prediction of target genes for transcription factors, and reconstruction of regulatory gene networks, including plant genomes analysis.

The co-location of binding sites for two or more different factors in the promoter region of a gene may define an element of the network of regulatory genes: two protein transcription factors can bind to the same promoter region of the gene, which corresponds to the interaction. The TF protein can bind to the promoter of its own gene, forming a regulatory circuit. The network of regulatory genes can be reconstructed from a set of binding site locations that form clusters in the genome using several different TFs. Such a regulatory network may persist between species.

The distribution of the number of bonds in the network of protein-protein interactions follows certain statistical patterns. The distribution of the number of nodes in such a network for transcription factors also has an exponentially decreasing character. New technologies for genome -wide determination of binding sites for protein transcription factors (ChIP - seq) make it possible to study the distribution of nodes in more detail for various model objects (human genome, mammalian and plant genomes). A hypothesis is put forward about the general nature of the distribution of clusters of binding sites in the genome according to the number of different transcription factors, which is determined by the structure of the regulatory gene network. A method for searching for regulatory regions based on statistics on the distribution of binding sites in plant genomes has been proposed; computer tools for such analysis and visualization have been presented (Dergilev et al., 2021).

The existence of non-random clusters of binding sites in all studied plant genomes has been shown, clusters in the Arabidopsis genome have been considered in detail. thaliana . It has been shown that the LFY factor, which is responsible for the growth of flowers in plants, is usually found in the genome of Arabidopsis . thaliana is the most common among all others, while the SRS group factors are the least expressed . In the Physcomitrella genome patens factor LFY is in the first place, and factor G2, which is involved in the process of the cell cycle and affects cell differentiation, is less common than others. It is also interesting to note that the LFY factor tends to be the most common among all the others, but weakly correlates with other factors. In general, it can be noted that evolutionarily older factors GATA and MYB are present in site clusters in all studied plant species.

For the plant genomes under consideration, analysis of an expanded set of transcription factor binding sites confirmed a broad co-clustering of binding sites for transcription factors of the GATA family, that is, transcription factors characterized by the ability to bind to the GATA DNA sequence.

Contrary to expectations, the LFY factor weakly correlates with other factors from the selected set. However, during the clustering process, LFY is actively associated with other factors.

In general, the proposed statistical estimates make it possible to identify nonrandom clusters of TF binding sites in plant genomes. The distribution of site clusters by size shows the general patterns of the formation of site clusters in eukaryotic genomes. Such regions of the plant genome need to be further investigated by experimental methods to identify cooperative interactions, determine the functional role of the detected clusters, including in response to stress ( Doroshkov et al., 2019).

In the general case, the problem of joint regulation has not been sufficiently studied. For plant genomes, such studies are presented in separate databases. To model gene networks - complexes of interacting macromolecules in a plant cell - a network approach will be used, tools STRING-DB, KEGG Pathways (Orlov et al., 2021).

The developed computer approaches can be applied to a wide range of tasks for assessing clusters of functional elements in the genome. These may include areas of low text complexity, tandem repetitions, and CpG islands (Babenko et al., 2018). Analysis of functional clusters makes it possible to statistically describe enhancers and annotate genomes. The integration of experimental genomic information, big data in general is an important problem of molecular biophysics that requires the integration of existing software tools and solutions.

Acknowledgments: The project was supported by the RSF grant 23-44-00030.



Literature

1. Dergilev A.I., Orlova N.G., Dobrovolskay O.B., Orlov Y.L. Statistical estimates of transcription factor binding site clusters in plant genomes based on genome-wide data. Journal of Integrative Bioinformatics. 2021; 18, 20200036 doi : 10.1515/jib-2020-0036

2. Orlov Y.L., Galieva A.G., Orlova N.G., Ivanova E.N., Mozyleva Y.A., Anashkina A.A. Reconstruction of gene network associated with Parkinson disease for gene targets search. Biomeditsinskaya Khimiya, 2021; 67(3), 222-230 (in Russian) doi: 10.18097/PBMC20216703222

3. Doroshkov A.V., Konstantinov D.K., Afonnikov D.A., Gunbin K.V. The evolution of gene regulatory networks controlling Arabidopsis thaliana L. trichome development. BMC Plant Biol. 2019; 19( Suppl 1):53. doi : 10.1186/s12870-019-1640-2

4. Babenko V.N., Bogomolov A.G., Babenko R.O., Galieva E.R., Orlov Y.L. CpG islands' clustering uncovers early development genes in the human genome. Computer Science and Information Systems, 2018; 15(2): 473-485 (2018) doi : 10.2298/CSIS170523004B





Speaker: Dergilev A.I.
Institute of Cytology & Genetics SB RAS
2023-02-09

Национальный комитет Российских биофизиков © 2022
National committee of Russian Biophysicists