VII Съезд биофизиков России
Краснодар, Россия
17-23 апреля 2023 г.
Главная
О Съезде
Организаторы
Программный комитет
Программа Съезда
Место проведения Съезда
Проживание
Оргвзносы
Основные даты
Регистрация
Публикации материалов Съезда
Молодежный конкурс
Контакты
Тезисы
English version
Партнеры Съезда
Правила оформления докладов

Программа Съезда

Секции и тезисы:

Биофизика сложных многокомпонентных систем. Математическое моделирование. Биоинформатика

Распределение значений GC-состава фрагментов в пространственной структуре геномов хлоропластов, бактерий и митохондрий

М.Ю. Сенашова1*, М.Г. Садовский1

1.ИВМ СО РАН;

* msen(at)icm.krasn.ru

Введение

Изучение особенностей и деталей структуры нуклеотидных последовательно-стей является важнейшей задачей биологии в настоящее время. Выявление связи между структурными компонентами и соответствующим им функциями представляет собой классическую проблему молекулярной и системной биологии и, несмотря на обширный поток публикаций и исследований в этом направлении, она всё ещё далека от завершения.

-состав геномов как в целом, так и отдельных участков очень часто используется в исследованиях структуры и функций геномов. Этому вопросу посвящено много работ, как в случае геномов хлоропластов [1-2] и митохондрий [3-4], так и бактерий [5-6]. В данной работе мы рассматриваем, как распределяются значения GC-состава выделенных фрагментов этих геномов в пространственной структуре генома, полученной на основе частотных словарей фрагментов.

Материалы и методы.

Рассмотривается генетическая последовательность длины L, состоящая из символов алфавита {A,C,G,T}. Эта последовательность делится на подпоследовательности длины d. Для каждой из подпоследовательностей составляются частотные словари W толщины 3. Под частотным словарем толщины 3 подразумевается список всех троек w=v1v2v3 идущих подряд нуклеотидов, с указанием частот этих троек. Частота fw — это отношение числа копий nw данного слова к общему числу всех триплетов N, где N — сумма всех nw: fw=nw/N.

Словарь W задает отображение генома в 64-мерное метрическое пространство. Для построения частотных словарей триплетов последовательность каждого генома сканировалась окном длины d c шагом t. Для каждого положения i окна определялся участок генетической последовательности, совпадающий с рамкой считывания, для которого вычислялся частотный словарь Wi, соответствующий i-ой точке в 64-мерном пространстве.

Для исследования были использованы данные, содержащиеся в открытом до-ступе в базе EMBL-банка. Визуализация полученных данных проводилось программой VidaExpert, которая проецирует точки многомерного пространства в пространство первых трех главных компонент. В ходе работы анализировался вид полученных проекций в этом пространстве.

Пространственная структура величины GC-состава фрагментов геномов хлоропластов, бактерий и митохондрий.

Было рассмотрено 570 геномов хлоропластов, 280 геномов бактерий и 488 геномов митохондрий из базы EMBL. Для всех геномов интервал имеющихся значений GC-состава разбивался на 7 подинтервалов равной длины. Интервалу с минимальными значениями соответствует фиолетовый цвет, с максимальными – красный. Было обнаружено, что распределение величины GC-состава фрагментов геномов хлоропластов по пространственной структуре однотипно. GC-состав фрагментов распределен по градиенту вдоль оси симметрии пространственной структуры генома.

Для GC-бедных геномов бактерий (значение GC-состава меньше 50%) характерно центрально-симметричное распределение значений. При центрально-симметричном распределении минимальные значения преимущественно располагаются в центре структуры, а максимальные по краям. Для GC-богатых геномов наблюдается градиентное распределение значений.

Геномы митохондрий наземных растений, печеночных мхов, одноклеточных водорослей, обычных мхов и высших грибов имеют ярко выраженное градиентное распределение значений GC-состава. Многоклеточные водоросли, лишайники и низшие грибы также имеют градиентное распределение, но оно не так явно выражено. Для геномов митохондрий насекомых, паукообразных и ракообразных характерно центральносимметричное распределение значений GC-состава. У геномов губок, моллюсков, плоских, кольчатых и круглых червей встречаются распределения значений GC-состава в виде неявного градиентного распределения и центральносимметричное. Для позвоночных животных не удалось выявить какую-либо типичную картину распределения GC-состава фрагментов внутри классов и между классами.

Было обнаружено, что все выявленные распределения GC-состава фрагментов геномов являются устойчивыми относительно различной длины окна .

Выводы.

Результаты, описанные выше, показывают, что существует упорядоченность в распределении значений GC-состава фрагментов различных геномов. Причем эта упорядоченность имеет типичный вид для отдельных групп геномов. Наибольшим разнообразием в типах распределений GC-состава фрагментов обладают геномы митохондрий.

Список литературы

1. Qian J. et al. The complete chloroplast genome sequence of the medicinal plant Salvia miltiorrhiza //PloS One. – 2013. – Т. 8. – №. 2. – С. e57607.

2. Yang Y. et al. Comparative analysis of the complete chloroplast genomes of five Quer-cus species //Frontiers in plant science. – 2016. – Т. 7. – С. 959.

3. Johnston I. G., Williams B. P. Evolutionary inference across eukaryotes identifies spe-cific pressures favoring mitochondrial gene retention // Cell systems. – 2016. – Т. 2. – №. 2. – С. 101-111.

4. Wei L. et al. Analysis of codon usage bias of mitochondrial genome in Bombyx mori and its relation to evolution //BMC evolutionary biology. – 2014. – Т. 14. – №. 1. – С. 262.

5. Peano C. et al. An efficient rRNA removal method for RNA sequencing in GC-rich bacteria //Microbial informatics and experimentation. – 2013. – Т. 3. – №. 1. – С. 1.

6. Zhou H. Q. et al. Analysis of the relationship between genomic GC content and pat-terns of base usage, codon usage and amino acid usage in prokaryotes: similar GC con-tent adopts similar compositional frequencies regardless of the phylogenetic lineages //PloS one. – 2014. – Т. 9. – №. 9. – С. e107319.



Spatial pattern of the distribution of GC-content of the fragments of mitochondrial, chloroplast and bacterial genomes

M.Yu. Senashova1*, M.G. Sadovsky1

1.ICM SB RAS;

* msen(at)icm.krasn.ru

Introduction

The study of the features and peculiarities of the structure of nucleotide sequences is one of the most important tasks of biology at present. Revealing the relationship between structural components and their corresponding functions is a common problem in molecular and systems biology, and despite the large quantity of publications and research in this direction, it is still far from being completed.

The genome GC- composition, both in general and in individual regions, is widey used in studies of the genome structure and functions. Many works appeared in this issue, both in the case of genomes of chloroplasts [1–2] and mitochondria [3–4], and bacteria [5–6]. In this work, we consider how the selected fragment GC-composition values of these genomes are distributed in the genome spatial structure, obtained on the basis of fragment frequency dictionaries.

Materials and methods.

We consider a genetic sequence of length L, consisting of symbols of the alphabet {A,C,G,T}. This sequence is divided into subsequences of length d. For each of the subsequences, frequency dictionaries W of thickness 3 are compiled. The frequency dictionary of thickness 3 is a list of all triplets w=v1v2v3 of consecutive nucleotides, indicating the frequencies of these triples. Frequency fw is the ratio of the copies number nw of a given word to the total number of all triplets N, where N is the sum of all nw: fw=nw/N.

The dictionary W specifies the correspondence of the genome into a 64-dimensional metric space. To build triplet frequency dictionaries, the sequence of each genome was scanned by window of length d with a step t. For each window position i, a section of the genetic sequence was determined that coincided with the reading frame, for which the frequency dictionary Wi was calculated corresponding to the i-th point in 64-dimensional space.

The data contained in the open access in the EMBL-bank database were used for the study. The data visualization obtained was carried out by the VidaExpert program, which projects points of a multidimensional space into the space of the first three principal components. The form of the obtained projections in this space was analyzed in the course of the work.

Spatial distribution of the GC-content values of the chloroplasts, bacteria and mitochondria genome fragments.

We examined 570 chloroplast, 280 bacterial and 488 mitochondrial genomes from the EMBL database. The available GC-content values interval was divided into 7 subintervals of equal length for all genomes. The interval with minimum values corresponds to purple, and the interval with maximum values corresponds to red. It was found that the distribution of the GC-content of chloroplast genome fragments according to the same type spatial structure. GC-content of fragments is distributed along a gradient along the genome spatial structure symmetry axis.

A centrally symmetrical distribution of values is typical for GC-poor bacterial genomes (the value of GC-content is less than 50%). The minimum values are predominantly located in the center of the structure and the maximum values are at the edges for a centrally symmetrical distribution. A gradient distribution of values is observed for GC-rich genomes.

The mitochondrial genomes of land plants, liverworts, unicellular algae, mosses, and higher fungi have a pronounced gradient distribution of GC-content values. Multicellular algae, lichens and lower fungi also have a gradient distribution, but it is not so pronounced. The mitochondrial genomes of insects, arachnids, and crustaceans are characterized by a centrally symmetric distribution of GC-content values. There are distributions of GC-content values in the form of an implicit gradient distribution and a centrally symmetric one in the genomes of sponges, mollusks, flatworms, annelids, and roundworms. It was not possible to reveal any typical picture of the distribution of the GC-content of fragments within classes and between classes for vertebrates.

It was found that all identified genome fragment GC-content distributions are stable with respect to different window lengths .

Conclusions.

The results described above show that there is an order in the distribution of different genome fragments GC-content values. Moreover, this ordering has a typical pattern for individual genome groups. Mitochondrial genomes have the greatest diversity in the types of fragment GC-content distributions.

References

1. Qian J. et al. The complete chloroplast genome sequence of the medicinal plant Salvia miltiorrhiza //PloS One. – 2013. – Т. 8. – №. 2. – С. e57607.

2. Yang Y. et al. Comparative analysis of the complete chloroplast genomes of five Quercus species //Front. Plant Sci. – 2016. – Т. 7. – С. 959.

3. Johnston I. G., Williams B. P. Evolutionary inference across eukaryotes identifies specific pressures favoring mitochondrial gene retention //Cell Syst. – 2016. – Т. 2. – №. 2. – С. 101-111.

4. Wei L. et al. Analysis of codon usage bias of mitochondrial genome in Bombyx mori and its relation to evolution //BMC Evol. Biol. – 2014. – Т. 14. – №. 1. – С. 262.

5. Peano C. et al. An efficient rRNA removal method for RNA sequencing in GC-rich bacteria //MIE. – 2013. – Т. 3. – №. 1. – С. 1.

6. Zhou H. Q. et al. Analysis of the relationship between genomic GC content and patterns of base usage, codon usage and amino acid usage in prokaryotes: similar GC content adopts similar compositional frequencies regardless of the phylogenetic lineages //PloS One. – 2014. – Т. 9. – №. 9. – С. e107319.







Докладчик: Сенашова М.Ю.
247
2023-02-18

Национальный комитет Российских биофизиков © 2022
National committee of Russian Biophysicists