VII Congress of Russian Biophysicists
Krasnodar, Russia
April 17-23, 2023
Main
About The Congress
Organizers
Program Committee
Congress program
Venue of the Congress
Accommodation
Registration fees
Dates and deadlines
Registration
Congress proceedings and papers
Youth contest
Contacts
Abstracts
Русская версия
Congress Partners
Talks and posters design

Congress program

Секции и тезисы:

Biophysics of complex multicomponent systems. Math modeling. Bioinformatics

Формирование системы статистически значимых предикторов для применения машинного обучения для предсказания вторичной структуры белка

Ю.В. Мильчевский1*, В.Ю. Мильчевская1, Л.Л. Тевонян1, А.Ф. Арутюнян1, Ю.В. Кравацкий1,2

1.ИМБ РАН;
2.Центр высокоточного редактирования и генетических технологий для биомедицины, ИМБ РАН;

* milch(at)eimb.ru

Повышение точности предсказания структуры белков в последнее время тесно связано с применением и совершенствованием методов машинного обучения. Кодирование последовательности аминокислот является начальным этапом предсказания структуры, и поэтому играет фундаментальную роль в успехе этих методов.

За последние годы наблюдался значительный прогресс в методах предсказания структуры и функций белка на основе последовательности. Существенные продвижения произошли в таких задачах, как предсказание вторичной и локальной структуры белка, белковых контактов, белок-связывающих участков и т.д. Существенный прогресс в этих задачах достигнут за счет использования методов машинного обучения, особенно с использованием методов глубокого обучения. Подготовка данных для обучения предсказательных моделей является одной из наиболее трудоёмких задач, как в методическом, так и в алгоритмическом смысле. Генерация входных данных для машинного обучения для задач предсказания структур и функций белков не является стандартной процедурой, и обычно реализуется в контексте конкретной задачи.

Таким образом, выбор начального набора предикторов исключительно важен для построения модели, описывающей связь последовательности с локальной структурой белка. Необходимо создание и реализация алгоритма, позволяющего уменьшить количество признаков, упростить модель и исключить любую избыточную информацию, но с сохранением статистической значимости сформированной системы предикторов. Следует отметить, что при использовании методов машинного обучения оценить вклад и значимость отдельного предиктора не представляется возможным, поэтому в процессе отладки модели изменение входного набора предикторов обычно происходит волюнтаристски или перебором. Наша подход в формировании начального набора предикторов состоит в использовании набора статистически значимых признаков, предварительно полученных другими методами, которые позволяют эту статистическую значимость количественно оценить [1]. Мы использовали предикторы из нашей предыдущей работы по предсказанию локальной структуры [2]. В этой работе мы для каждого из 16 протеиновых блоков (protein blocks, PBs), представленных в [3], выявляли значимые предикторы, основанные как на физико-химических свойствах аминокислотных остатков, так и на статистических характеристиках структурных элементов [1]. Предсказание для каждого элемента последовательности представляет собой набор расстояний по метрике RMSD до каждого из 16 PB. Таким образом, составление предсказательной модели состояло из 16 отдельных задач, в каждой из которых выявлялся набор статистически значимых предикторов из большого исходного набора предикторов. Каждый из предикторов формализовал предположения о физических факторах, определяющих локальную структуру. Выбор наиболее значимых предикторов для каждого PB осуществлялся с помощью пошагового регрессионного анализа[1]. Все значимые предикторы были объединены в набор для последующего использования в методах глубокого обучения. Многие предикторы оказались значимыми для предсказания нескольких, и даже всех 16 PB. Итоговый набор состоит из 243 предикторов, отобранных из 852 входных предикторов. Среди отобранных присутствуют как предикторы, основанные на базе свойств аминокислот AAindex [4], так и предикторы, отражающие статистические характеристики встречаемости структурных элементов.

Полученная система предикторов позволяет расширять или редуцировать её предсказуемым образом (т.е. добавляя или исключая из предсказательной модели те или иные физико-химические и/или структурные параметры белковых цепей).

Формирование систем предикторов подробно описано в наших работах [1] и [2]. Программы, осуществляющие пошаговые регрессионный и дискриминантный анализы, свободно доступны на Github: https://github.com/Milchevskiy/protein-encoding-projects.

Работа поддержана грантом РНФ 22-24-01088.



1. Мильчевский Ю.В., Мильчевская В.Ю., Кравацкий Ю.В. Метод комплексного формирования предикторов для применения алгоритмов машинного обучения в задаче предсказания структуры и функций белка. Молекулярная Биология, 2023, т.57, № 1.

2. Milchevskaya V., Nikitin A.M., Lukshin S.A., Filatov I.V., Kravatsky Y.V., Tumanyan V.G., Esipova N.G., Milchevskiy Y.V. Structural coordinates: A novel approach to predict protein backbone conformation. PLoS One. 2021. 16, e0239793.

3. de Brevern A.G., Etchebest C., Hazout S. Bayesian probabilistic approach for predicting backbone structures in terms of protein blocks. Proteins. 2000, 41, 271-287.

4. Kawashima S., Pokarowski P., Pokarowska M., Kolinski A., Katayama T., Kanehisa M. 2008. AAindex: amino acid index database, progress report. Nucleic Acids Res. 2008, 36, D202-205.

Generation of a statistically significant predictors system for the application of machine learning in predicting the secondary structure of proteins

Y.V. Milchevsky1*, V.Y. Milchevskaya1, L.L. Tevonyan1, A.F. Arutyunyan1, Y.V. Kravatsky1,2

1.Engelhardt Institute of Molecular Biology of RAS;
2.Center for Precision Genome Editing and Genetic Technologies for Biomedicine, EIMB RAS;

* milch(at)eimb.ru

In recent years, the improvement of protein structure prediction accuracy has been closely related to the application and refinement of machine learning methods. Encoding the amino acid sequence is the initial stage of structure prediction, and therefore plays a fundamental role in the success of these methods.

Significant progress has been observed in protein structure and function prediction methods based on sequence over the past few years. Substantial advancements have been made in tasks such as predicting secondary and local protein structure, protein contacts, protein-binding sites, and more. The use of machine learning methods, particularly deep learning methods, has been essential in achieving progress in these tasks.

Data preparation for predictive models generation is one of the most challenging tasks, both methodologically and algorithmically. Generating input data for machine learning tasks for predicting protein structures and functions is not a standard procedure and is usually implemented in the context of a specific task.

Thus, the choice of the initial set of predictors is crucial for building a model that describes the relationship between sequence and protein local structure. It is necessary to create and implement an algorithm that allows reducing the number of features, simplifying the model and excluding any redundant information, while preserving the statistical significance of the predictor system formed.

It should be noted that application of machine learning methods doesn’t permit to assess the contribution and significance of individual predictors. Therefore, during model debugging, changing the input set of predictors usually performs by rundown or by researcher’s personal choice. Our approach to generation of the initial set of predictors consists of using a set of statistically significant features previously obtained by other methods, which allow this statistical significance to be quantitatively evaluated [1]. We applied predictors from our previous work on predicting local structure [2]. In this work, for each of the 16 protein blocks (PBs) [3], we identified significant predictors based on both the physicochemical properties of amino acid residues and the statistical characteristics of structural elements [1]. The prediction for each element of the sequence is a set of distances calculated by the RMSD metric to each of the 16 protein blocks (PB). Thus, creating a predictive model involved 16 separate tasks, each of which identified a set of statistically significant predictors from a large initial set of predictors. Each predictor formalized assumptions about the physical factors that determine local structure. The selection of the most significant predictors for each PB was performed using stepwise regression analysis [1]. All significant predictors were combined into a set for subsequent use in deep learning methods. Many predictors were found to be significant for predicting multiple, and even all 16 PBs. The final set consists of 243 predictors, selected from 852 input predictors. Among the selected predictors are those based on the properties of amino acids (AAindex [4] database) as well as predictors reflecting statistical characteristics of the occurrence of structural elements.

The obtained predictor system can be expanded or reduced in a predictable way (i.e. by adding or excluding certain physicochemical and/or structural parameters of protein chains). The generation of predictor systems is described in detail in our works [1] and [2]. Programs that implement stepwise regression and discriminant analyses are freely available on Github: https://github.com/Milchevskiy/protein-encoding-projects.

The work was supported by RFBR grant 22-24-01088.



1. Milchevskiy Y.V., Milchevskaya V.Y., Kravatsky Y.V. Method to Generate Complex Predictive Features for Machine Learning-Based Prediction of the Local Structure and Functions of Proteins. Molecular Biology (Moscow), 2023, vol.57, no 1.

2. Milchevskaya V., Nikitin A.M., Lukshin S.A., Filatov I.V., Kravatsky Y.V., Tumanyan V.G., Esipova N.G., Milchevskiy Y.V. Structural coordinates: A novel approach to predict protein backbone conformation. PLoS One. 2021. 16, e0239793.

3. de Brevern A.G., Etchebest C., Hazout S. Bayesian probabilistic approach for predicting backbone structures in terms of protein blocks. Proteins. 2000, 41, 271-287.

4. Kawashima S., Pokarowski P., Pokarowska M., Kolinski A., Katayama T., Kanehisa M. 2008. AAindex: amino acid index database, progress report. Nucleic Acids Res. 2008, 36, D202-205.


Speaker: Kravatsky Y.V.
Engelhardt Institute of Molecular Biology of RAS
2023-02-15

Национальный комитет Российских биофизиков © 2022
National committee of Russian Biophysicists