VII Съезд биофизиков России
Краснодар, Россия
17-23 апреля 2023 г.
Главная
О Съезде
Организаторы
Программный комитет
Программа Съезда
Место проведения Съезда
Проживание
Оргвзносы
Основные даты
Регистрация
Публикации материалов Съезда
Молодежный конкурс
Контакты
Тезисы
English version
Партнеры Съезда
Правила оформления докладов

Программа Съезда

Секции и тезисы:

Биофизика сложных многокомпонентных систем. Математическое моделирование. Биоинформатика

Оценка лингвистической сложности генетических последовательностей штаммов SARS-CoV-2

А.В. Митина1*, Ю.Л. Орлов1

1.Первый Московский государственный медицинский университет имени И. М. Сеченова (Сеченовский Университет);

* alinamitina44(at)gmail.com

Мотивация и цели. Активное распространение коронавирусной инфекции требует разработки новых моделей вариантов связи нуклеотидных последовательностей вирусов и их функциональной значимости и возможной патогенности. На сегодняшний день описано несколько тысяч штаммов SARS-CoV-2, являющихся возбудителями COVID-19. Отдельные варианты представляют особый интерес, так как отличаются высокими показателями трансмиссивности и летальности. Существующее разнообразие данных, полученных путём секвенирования, позволяет провести анализ геномных последовательностей различных штаммов коронавируса, используя математические методы оценки структуры генома, исследования «горячих точек» мутаций.

Методы. Анализ последовательностей штаммов SARS-CoV-2, полученных из Genbank, проводился путем оценки лингвистической (комбинаторной) сложности текста (Orlov, Potapov, 2004). Значение комбинаторной сложности определяется отношением числа встретившихся слов к количеству возможных слов в последовательности фиксированной длины. Данный метод позволяет установить уровень насыщенности генетического текста повторами. Оценка фланкирующих районов точек нуклеотидных полиморфизмов показала присутствие участков низкой сложности текста, что связано с повторами, повышенной вероятностью разрывов ДНК с последующими ошибками репарации. Участки низкой сложности текста менее эволюционно консервативны и подвержены мутациям с большей частотой.

Результаты. Применен алгоритм оценки лингвистической сложности генома для дельта- и омикрон-вариантов SARS-CoV-2. Определены участки, соответствующие низкому и высокому уровню насыщенности генетического текста. Проведено сравнение профиля сложности текста с расположением открытых рамок считывания коронавируса. Данные были сопоставлены с вариабельностью генома по расчетам Пекинского Института Геномики (Beijing Institute of Genomics).

Заключение. Заражение вирусом SARS-CoV-2 может иметь ряд неблагоприятных последствий для организма человека, начиная от легкого недомогания и заканчивая летальным исходом. В мире на данный момент продолжается рост числа заболевших, а количество смертей от COVID-19 приближается к отметке в 7 млн. человек. Сложность для диагностики и лечения обусловлена непрерывным процессом мутирования, что приводит к появлению новых вариантов коронавируса. Предполагается, что компьютерные методы позволят проводить оценку патогенности новых штаммов на основе их генетической последовательности.

Assessment of linguistic complexity of genetic sequences of SARS-CoV-2 strains

A.V. Mitina1*, Y.L. Orlov1

1.I.M. Sechenov First Moscow State Medical University (Sechenov University);

* alinamitina44(at)gmail.com

Motivation and purposes. The active spread of coronavirus infection requires the development of new models of variants of the connection of nucleotide sequences of viruses and their functional significance and possible pathogenicity. To date, several thousand strains of SARS-CoV-2 have been described, which are the causative agents of COVID-19. Some variants are of particular interest, as they have high transmissivity and lethality rates. The existing variety of data obtained by sequencing makes it possible to analyze the genomic sequences of various strains of coronavirus using mathematical methods for assessing the structure of the genome, studying "hot spots" of mutations.

Methods. Sequences of SARS-CoV-2 strains obtained from Genbank were analyzed by evaluating the linguistic (combinatorial) complexity of the text (Orlov, Potapov, 2004). The value of combinatorial complexity is determined by the ratio of the number of words encountered to the number of possible words in a sequence of fixed length. This method allows you to set the level of saturation of the genetic text with repetitions. Evaluation of the flanking regions of nucleotide polymorphism points showed the presence of areas of low text complexity, which is associated with repetitions, increased probability of DNA breaks with subsequent repair errors. Sections of low text complexity are less evolutionarily conservative and are subject to mutations with a higher frequency.

Results. An algorithm for estimating the linguistic complexity of the genome for delta and omicron variants of SARS-CoV-2 is applied. The sites corresponding to the low and high levels of saturation of the genetic text have been identified. The complexity profile of the text is compared with the location of the open reading frames of the coronavirus. The data were compared with the variability of the genome according to the calculations of the Beijing Institute of Genomics (Beijing Institute of Genomics).

Conclusion. Infection with the SARS-CoV-2 virus can have a number of adverse consequences for the human body, ranging from mild malaise to death. The number of cases continues to grow in the world at the moment, and the number of deaths from COVID-19 is approaching the mark of 7 million people. The complexity for diagnosis and treatment is due to the continuous process of mutation, which leads to the emergence of new variants of the coronavirus. It is assumed that computer methods will allow assessing the pathogenicity of new strains based on their genetic sequence.



Докладчик: Митина А.В.
503
2023-02-15

Национальный комитет Российских биофизиков © 2022
National committee of Russian Biophysicists