VII Съезд биофизиков России
Краснодар, Россия
17-23 апреля 2023 г.
Главная
О Съезде
Организаторы
Программный комитет
Программа Съезда
Место проведения Съезда
Проживание
Оргвзносы
Основные даты
Регистрация
Публикации материалов Съезда
Молодежный конкурс
Контакты
Тезисы
English version
Партнеры Съезда
Правила оформления докладов

Программа Съезда

Секции и тезисы:

Биофизика сложных многокомпонентных систем. Математическое моделирование. Биоинформатика

Применение методов оценки сложности текста к анализу геномных кластеров сайтов связывания транскрипционных факторов

А.И. Дергилев1,2*, Н.Г. Орлова3, А.В. Митина4, Ю.Л. Орлов1,4

1.Новосибирский государственный университет,;
2.Институт цитологии и генетики СО РАН;
3.Финансовый Университет при Правительстве РФ;
4.Первый Московский государственный медицинский университет им. И.М. Сеченова Минздрава России (Сеченовский Университет);

* arturd1993(at)yandex.ru

Представлено программное приложение для исследования молекулярных механизмов образованию комплексов белок-ДНК на примере оценки информационной сложности геномных последовательностей, содержащих сайты связывания транскрипционных факторов. Работа опирается на применение современных математических и компьютерных методов теории передачи информации и сжатия данных (Orlov and Potapov, 2004), а также теории анализа данных и поиска закономерностей к исследованию генетических последовательностей Витяев и др., 2001; Orlov et al., 2002).

Понимание биологических процессов требует разработки новых программных средств (Dergilev A.I. et al., 2021) для определения сайтов связывания (участков последовательности) по данным секвенирования, в том числе в новых модельных геномах растений, на основе обработки больших массивов данных и реализации алгоритмов оценок сложности, в том числе алгоритма Лемпеля-Зива и оценок энтропии Шеннона.

Удобство использования программ анализа генетических текстов на персональных компьютерах и возможность обработки больших объемов данных делают их необходимым инструментом в экспериментальной работе молекулярных биологов. Огромное количество экспериментальных данных о последовательностях ДНК, накопленное в специализированных базах данных, дает возможность получения качественно новых знаний о структуре и эволюции геномов. Так, ранее было показано понижение сложности текста (включая энтропию Шеннона и оценки лингвистической сложности) в районах ДНК, содержащих участки однонуклеотидных полиморфизмов (Сафронова и др., 2015). Далее ставились задачи оценки групп (кластеров) совместно расположенных сайтов связывания транскрипционных факторов на ДНК (Dergilev and Orlov, 2020). Показано изменение сложности текста ДНК в среднем (в скользящем окне) для выборок нуклеотидных последовательностей, содержащих кластеры сайтов связывания транскрипционных факторов. На большем объеме данных подтверждено различие в сложности текста для кодирующих и регуляторных частей генома, к которым относятся кластеры сайтов.

В представленной работе поставлены задачи разработки и применения новых компьютерных методов статистического анализа сложности генетических текстов (Орлов et al., 2006), предсказания функциональных сайтов и регуляторных районов в геномной ДНК, поиска повторов в геномах и анализа их структуры. Разработаны скрипты на языке Python для быстрого кодирования и декодирования методом LZ77. Получена программа для работы с компактным сжатием текстов большого объёма информации, методы и скрипты проверены на экспериментальных данных.

Разработан собственный набор инструментов Genomic Texts Complexity Analysis на последней версии языка Python в среде программирования PyCharm, с использованием графического модуля Qt5, обладающий удобством и простотой интерфейса, позволяющий удобно работать в одном окне с несколькими задачами, предоставляющий пользователю возможности кодирования / декодирования текстов, процедуру вычисления профиля сложности по модифицированному алгоритму Лемпеля-Зива в скользящем окне, визуализацию полученных профилей сложности. Таким образом, обновлен программный инструмент для анализа информационного содержания ДНК, сделаны новые оценки информационного содержания и энтропии регуляторных районов генов.

Благодарности: Работа поддержана грантом РНФ 23-44-00030.



Литература

1. Витяев Е.Е., Орлов Ю.Л., Вишневский О.В., Беленок А.С., Колчанов Н.А. (2001) Компьютерная система "GENE DISCOVERY" для поиска закономерностей организации регуляторных последовательностей эукариот. Молекулярная биология, 2001, Т. 35(6), С. 952-960. / Vityaev E.E., Orlov Yu.L., Vishnevsky O.V., Belenok A.S., Kolchanov N.A. Computer system "Gene Discovery" to search for patterns in eukaryotic regulatory nucleotide sequences. Molecular Biology. 2001; 35(6):810-817.

2. Сафронова Н.С., Пономаренко М.П., Абнизова И.И., Орлова Г.В., Чадаева И.В., Орлов Ю.Л. Фланкирующие повторы мономеров определяют пониженную контекстную сложность сайтов однонуклеотидных полиморфизмов в геноме человека. Вавиловский журнал генетики и селекции. 2015;19(6): 668-674 DOI 10.18699/VJ15.092 (РИНЦ IF=0,389) / Safronova N.S., Ponomarenko M.P., Abnizova I.I., ..., Chadaeva I.V., Orlov Y.L. Flanking monomer repeats determine decreased context complexity of single nucleotide polymorphism sites in the human genome

3. Dergilev A.I., Orlova N.G., Dobrovolskay O.B., Orlov Y.L. Statistical estimates of transcription factor binding site clusters in plant genomes based on genome-wide data. Journal of Integrative Bioinformatics. 2021; 18, 20200036 doi: 10.1515/jib-2020-0036

4. Orlov Y.L., Te Boekhorst R., Abnizova I.I. Statistical measures of the structure of genomic sequences: entropy, complexity, and position information. J Bioinform Comput Biol. 2006; 4:523-36.

5. Orlov Yu.L., Filippov V.P., Potapov V.N., Kolchanov N.A. (2002) Construction of stochastic context trees for genetic texts. In Silico Biology 2(3), 257-262.

6. Orlov Yu.L., Potapov V.N. Complexity: Internet-resource for analysis of DNA sequence complexity. Nucleic Acids Res. 2004; Web-issue 2004, V. 32: 628-633.

7. Dergilev A.I., Orlov Y.L. Statistical problems of clusters of transcription factor binding sites in plant genomes. 2020; Cognitive Sciences, Genomics and Bioinformatics (CSGB) IEEE Xplore digital library. eCF Paper ID: 264845, pp 233-235. Doi: 10.1109/CSGB51356.2020.9214705

Application of text complexity estimation methods to the analysis of genomic clusters of transcription factor binding sites

A .I. Dergilev1,2*, N.G. Orlova3, A.V. Mitina4, Y.L. Orlov1,4

1.Novosibirsk State University;
2.Institute of Cytology and Genetics SB RAS;
3.Financial University under the Government of the RF;
4.I.M.Sechenov First Moscow State Medical University (Sechenov University;

* arturd1993(at)yandex.ru

A software application is presented for studying the molecular mechanisms of formation of protein-DNA complexes using the example of assessing the informational complexity of genomic sequences containing transcription factor binding sites. The work is based on the application of modern mathematical and computer methods of the theory of information transmission and data compression (Orlov and Potapov, 2004), as well as the theory of data analysis and search for patterns to the study of genetic sequences (Vityaev et al., 2001; Orlov et al., 2002).

Understanding biological processes requires the development of new software tools (Dergilev A.I. et al., 2021) to determine binding sites (sequence regions) from sequencing data, including in new model plant genomes, based on the processing of large data sets and the implementation of algorithms for estimating complexity, including the Lempel-Ziv algorithm and Shannon entropy estimates (Orlov and Potapov, 2004).

The convenience of using programs for the analysis of genetic texts on personal computers and the ability to process large amounts of data make them a necessary tool in the experimental work of molecular biologists. A huge amount of experimental data on DNA sequences, accumulated in specialized databases, makes it possible to obtain qualitatively new knowledge about the structure and evolution of genomes. Thus, a decrease in text complexity (including Shannon entropy and linguistic complexity estimates) was previously shown in DNA regions containing regions of single nucleotide polymorphisms (Safronova et al., 2015). Next, the tasks were to evaluate groups (clusters) of co-located transcription factor binding sites on DNA (Dergilev and Orlov, 2020). The change in the complexity of the DNA text on average (in a sliding window) for samples of nucleotide sequences containing clusters of transcription factor binding sites is shown.

A larger amount of data confirmed the difference in text complexity for the coding and regulatory parts of the genome, which include site clusters. In the presented work, the tasks are set to develop and apply new computer methods for statistical analysis of the complexity of genetic texts (Orlov et al., 2006), prediction of functional sites and regulatory regions in genomic DNA, search for repeats in genomes and analysis of their structure. Python scripts have been developed for fast encoding and decoding using the LZ77 method. A program for working with compact compression of texts of a large amount of information has been obtained, methods and scripts have been tested on experimental data.

A proprietary set of “Genomic Texts Complexity Analysis” tools has been developed using the latest version of the Python language in the PyCharm programming environment, using the Qt5 graphical module, which has the convenience and simplicity of an interface that allows you to conveniently work in one window with several tasks, providing the user with the ability to encode / decode texts, the calculation procedure complexity profile according to the modified Lempel-Ziv algorithm in a sliding window, visualization of the obtained complexity profiles. Thus, the software tool for analyzing the information content of DNA has been updated, and new estimates of the information content and entropy of the regulatory regions of genes have been made.

Acknowledgments: The work was supported by the Russian Science Foundation (grant 23-44-00030).

References

1. Dergilev A.I., Orlov Y.L. Statistical problems of clusters of transcription factor binding sites in plant genomes. 2020; Cognitive Sciences, Genomics and Bioinformatics (CSGB) IEEE Xplore digital library. eCF Paper ID: 264845, pp 233-235. DOI: 10.1109/CSGB51356.2020.9214705

2. Dergilev A.I., Orlova N.G., Dobrovolskay O.B., Orlov Y.L. Statistical estimates of transcription factor binding site clusters in plant genomes based on genome-wide data. Journal of Integrative Bioinformatics. 2021; 18, 20200036 doi: 10.1515/jib-2020-0036

3. Orlov Y.L., Te Boekhorst R., Abnizova I.I. Statistical measures of the structure of genomic sequences: entropy, complexity, and position information. J Bioinform Comput Biol. 2006; 4:523-36.

4. Orlov Y.L., Filippov V.P., Potapov V.N., Kolchanov N.A. (2002) Construction of stochastic context trees for genetic texts. In Silico Biology 2(3), 257-262.

5. Orlov Y.L., Potapov V.N. Complexity: Internet-resource for analysis of DNA sequence complexity. Nucleic Acids Res. 2004; Web-issue 2004, V. 32: 628-633.

6. Safronova N.S., Ponomarenko M.P., Abnizova I.I., Orlova G.V., Chadaeva I.V., Orlov Y.L. Flanking monomer repeats determine decreased context complexity of single nucleotide polymorphism sites in the human genome. Vavilov Journal of Selection and Breeding 2015;19(6): 668-674 (in Russian) DOI:10.18699/VJ15.092

7. Vityaev E.E., Orlov Yu.L., Vishnevsky O.V., Belenok A.S., Kolchanov N.A. Computer system "Gene Discovery" to search for patterns in eukaryotic regulatory nucleotide sequences. Molecular Biology. 2001; 35(6):810-817 (in Russian).





Докладчик: Дергилев А.И.
111
2023-02-09

Национальный комитет Российских биофизиков © 2022
National committee of Russian Biophysicists