VII Съезд биофизиков России
Краснодар, Россия
17-23 апреля 2023 г.
Главная
О Съезде
Организаторы
Программный комитет
Программа Съезда
Место проведения Съезда
Проживание
Оргвзносы
Основные даты
Регистрация
Публикации материалов Съезда
Молодежный конкурс
Контакты
Тезисы
English version
Партнеры Съезда
Правила оформления докладов

Программа Съезда

Секции и тезисы:

Биофизика сложных многокомпонентных систем. Математическое моделирование. Биоинформатика

Анализ палиндромных последовательностей в геноме SARS-CoV-2

С.К. Капунац1, М.Б. Беляански1, Н.М. Митић1*

1.Белградский университет, факультет математики, Белград, Сербия;

* nenad.mitic(at)matf.bg.ac.rs

Капунац С.В.1, Белянски М.В.1, Митич Н.С.*1



Капунац С.В - Капунац Стефан Веляко, студент

Беляански М.В. - Беляански Милос Витомир, пенсионер

Митич Н.С. - Митич Ненад Слободан, профессор



1 Белградский университет, факультет математики, Белград, Сербия

* Эл. почта: nenad.mitic@matf.bg.ac.rs



Недавно было показано, что нуклеотидная последовательность генома SARS-CoV-2 организована в виде структурных и функциональных блоков информации разграниченных короткими последовательностями точек разрыва РНК, которые способствуют рекомбинации в определенных неслучайных местах внутри вирусного генома, состоящего из коротких повторяющихся последовательностей, а именно палиндромов. Палиндромные последовательности участвуют в формировании вторичных структур РНК. Это могут быть места, распознаваемые РНК-связывающими белками, а также места рекомбинации РНК [1].

Мы проанализировали геномы SARS-COV-2, уделяя особое внимание мутациям в палиндромных последовательностях. Набор данных из 423425 полных нуклеотидных последовательностей изолятов был извлечен из https://www.ncbi.nlm.nih.gov/sars-cov-2 (25/08/2021г). После процесса очистки осталось 347962 изолятов с 123667 уникальными (имеющими соответствующую нуклеотидную последовательность) с 226624 уникальными белок-кодирующими нуклеотидными последовательностями, и 141926 уникальными аминокислотными последовательностями. Согласованность двух последовательностей проверяли с использованием стандартной таблицы генетического кода (transl_table 1). Каждая последовательность была снабжена аннотацией SARS-CoV-2 Всемирной организации здравоохранения (ВОЗ).

Каждую нуклеотидную последовательность индивидуально выравнивали с эталонной последовательностью SARS-COV-2 (NC_045512.2) с использованием программы выравнивания MAFFT [2]. С помощью программы StatRepeats [3] были определены все палиндромы с минимальной длиной 8. Всего было определено 801 935 394 палиндрома. Среди них 785 854 841 повторов были идентичны их паре в эталонной последовательности NC_045512.2. Другие палиндромы (16.080.553) имеют некоторые мутации, связанные с эталонной последовательностью. Анализ количества встречаемости палиндромов проводился в 5 временных интервалах по 4 месяца с 31.12.2019. по 25.08.2021. Среднее число палиндромов на изолят показывает постоянное увеличение соответственно по временным интервалам: 1,92, 3,51, 9,31, 14,84 и 20,66.

Мы анализируем мутации во всех 12 типах ORF, присутствующих в наборе выделенных последовательностей (полипротеин ORF1a, полипротеин ORF1ab, поверхностный гликопротеин, белок ORF3a, белок оболочки, мембранный гликопротеин, белок ORF6, белок ORF7a, белок ORF7b, белок ORF8, нуклеокапсидный фосфопротеин, белок ORF10). Среди них, нормализованных по средней длине белка, после ORF1a и ORF1ab поверхностный гликопротеин (S-белок) имеет наибольшее количество повторов, в среднем 4,65 палиндрома при длине >=8. Наибольшее количество палиндромов расположено вокруг позиций 22.000 (левая часть) и 24.300 (правая часть), считая позиции относительно начала изолятов. Из общего числа мутаций почти 78% привели к аминокислотным изменениям в соответствующих белках.

В дальнейших исследованиях мы планируем провести подробный анализ мутаций палиндромных последовательностей в соответствии с классификацией вариантов SARS-CoV-2 ВОЗ, а также их влияние на изменения аминокислот и возникающие вторичные структуры или местоположения РНК, распознаваемые РНК-связывающими белками.

Литература

[1] Gallaher, W. R.: A palindromic RNA sequence as a common breakpoint contributor to copy-choice recombination in SARS-COV-2, Archives of Virology. 2020; 165:2341–2348, https://doi.org/10.1007/s00705-020-04750-z

[2] Katoh, Rozewicki, Yamada: MAFFT online service: multiple sequence alignment, interactive sequence choice and visualization, Briefings in Bioinformatics, 2019; 20:1160-1166

[3] Jelovic, A., Mitic, N., Eshafah, S., and Beljanski, M.: Finding Statistically Significant Repeats in Nucleic Acids and Proteins, Journal of Computational Biology 2018; 25:375-387, doi 10.1089/cmb.2017.0046

Analysis of palindromic sequences in SARS-CoV-2 genome

S.K. Kapunac1, M.B. Beljanski1, N.M. Mitić1*

1.University of Belgrade, Faculty of Mathematics, Belgrade, Serbia;

* nenad.mitic(at)matf.bg.ac.rs

Kapunac S.V. - Kapunac Stefan Veljko, student

Beljanski M.V- - Beljanski Miloš Vitomir, retiree

Mitić N.S. - Mitić Nenad Slobodan, professor





1 University of Belgrade, Faculty of Mathematics, Belgrade, Serbia



* E-mail: nenad.mitic@matf.bg.ac.rs



Recently, the RNA genome of SARS-CoV-2 was shown to be organised into structural and functional blocks of RNA information that are demarcated by short RNA breakpoint sequences that promote recombination at specific non-random locations within the viral genome consisting of short repetitive sequences, namely palindromes. Palindromic sequences are involved in the formation of RNA secondary structures. They can be locations recognised by RNA-binding proteins as well as places of RNA recombination [1].

We analyse SARS-COV -2 genomes with particular attention to mutations within palindromic sequences. A dataset of 423.425 complete isolate nucleotide sequences was extracted from https://www.ncbi.nlm.nih.gov/sars-cov-2 (database access on August 25, 2021. After the cleanup process, 347.962 isolates with 123.667 unique (related nucleotide sequences) with 226.624 corresponding unique protein (nucleotide) coding sequences and 141.926 unique protein (AA) sequences remain. The consistency of the two sequences was checked using the standard genetic code table (transl_table 1). Each sequence was annotated with a World Health Organisation (WHO) SARS-CoV-2 annotation.

Each nucleotide sequence was individually aligned to the reference sequence SARS-COV -2 (NC_045512.2) using the MAFFT alignment program [2]. The StatRepeats program [3] was used to determine all palindromes with a minimum length of 8. A total of 801.935.394 palindromes were determined. Among them, 785.854.841 repeats were identical with their pair in reference sequence NC_045512.2. Other (16.080.553) palindromes have some mutations related to reference sequence.

The analysis of the number of palindrome occurrences was performed in 5 time intervals of 4 months from 31.12.2019. to 25.08.2021. The average number of palindromes per isolate shows a constant increase, respectively by intervals: 1.92, 3.51, 9.31, 14.84, and 20.66.

We analyse mutations in all 12 types of ORFs present in the set of extracted sequences (ORF1a polyprotein, ORF1ab polyprotein, surface glycoprotein, ORF3a protein, envelope protein, membrane glycoprotein, ORF6 protein, ORF7a protein, ORF7b protein, ORF8 protein, nucleocapsid phosphoprotein, ORF10 protein). Among them, normalised on average protein length, after ORF1a and ORF1ab,the surface glycoprotein (S-protein) has the highest number of repeats, on average 4.65 palindromes with a length of > =8. The highest number of palindromes is located around positions 22.000 (left part) and 24.300 (right part), counting the positions with respect to the beginning of the isolates. For the total number of mutations, almost 78% resulted in amino-acid changes in the corresponding proteins.

In further research, we plan to perform a detailed analysis of mutations of palindromic sequences according to the SARS-CoV-2 WHO variant classification and also their influence on amino-acid changes and occurring RNA secondary structures or locations recognized by RNA binding proteins.



References

[1] Gallaher, W. R.: A palindromic RNA sequence as a common breakpoint contributor to copy-choice recombination in SARS-COV-2, Archives of Virology. 2020; 165:2341–2348, https://doi.org/10.1007/s00705-020-04750-z

[2] Katoh, Rozewicki, Yamada: MAFFT online service: multiple sequence alignment, interactive sequence choice and visualization, Briefings in Bioinformatics, 2019; 20:1160-1166

[3] Jelovic, A., Mitic, N., Eshafah, S., and Beljanski, M.: Finding Statistically Significant Repeats in Nucleic Acids and Proteins, Journal of Computational Biology 2018; 25:375-387, doi 10.1089/cmb.2017.0046


Докладчик: Митић Н.М.
999
2023-02-16

Национальный комитет Российских биофизиков © 2022
National committee of Russian Biophysicists