VII Съезд биофизиков России
Краснодар, Россия
17-23 апреля 2023 г.
Главная
О Съезде
Организаторы
Программный комитет
Программа Съезда
Место проведения Съезда
Проживание
Оргвзносы
Основные даты
Регистрация
Публикации материалов Съезда
Молодежный конкурс
Контакты
Тезисы
English version
Партнеры Съезда
Правила оформления докладов

Программа Съезда

Секции и тезисы:

Биофизика сложных многокомпонентных систем. Математическое моделирование. Биоинформатика

Новый меганабор данных в сочетании с глубокой нейронной сетью позволил добиться прогресса в предсказании эффекта мутаций на стабильность белков

М.А. Пак1*, Н.В. Довидченко2,3, S.M. Sharma 1, Д.Н. Иванков1

1.Сколковский институт науки и технологий ;
2.Институт белка РАН;
3.Atlas Biomed Group-Knomx LLC;

* Marina.Pak(at)skoltech.ru

Предсказание изменения стабильности белка (∆∆G) вследствие мутации является одной из важнейших нерешенных проблем структурной биоинформатики. Недавний успех AlphaFold в предсказании трехмерных структур белков с точностью, близкой к экспериментальной, показал перспективность методов глубокого обучения для решения биологических задач. Огромное количество известных белковых последовательностей (Uniprot Consortium, 2012) и известные кристаллографические структуры сыграли решающую роль в успехе AlphaFold. Недостаток данных всегда был главной проблемой предсказания ∆∆G: к середине 2022 года было собрано всего ~14 тысяч экспериментальных записей, что может быть слишком мало для обучения предсказанию ∆∆G с помощью глубокой нейронной сети.

Недавно Цубояма и др. опубликовали экспериментально измеренные значения ∆∆G для 851 552 мутаций, из которых 376 918 - высококачественные одиночные мутации [1]. Этот набор данных намного больше, чем любой другой, использовавшийся ранее, и в нем нет смещения в сторону мутаций на малые аминокислоты, в частности до аланина. Таким образом, это дает уникальную возможность разработать несмещенный современный предиктор ∆∆G с использованием одной из мощных моделей глубокого обучения.

В данной работе представлен инструмент ABYSSAL (Mega dataset и Deep neural network with attention-like mechanism), первый предиктор изменения стабильности белка вследствие единичной мутации, обученный на таком большом объеме данных. ABYSSAL использует преимущества современной модели глубокой нейронной сети ESM2 [2]. ABYSSAL предсказывает экспериментальные значения ∆∆G с коэффициентом корреляции Пирсона 0,85, что соответствует качеству, близкому к экспериментальному [1]. Мы показали, что обучающий набор данных должен содержать около ~100 000 мутаций - этого достаточно, чтобы в полной мере использовать преимущества современных моделей глубоких нейронных сетей, таких как ESM2 [2].



1. Tsuboyama et al. (2022). Mega-scale experimental analysis of protein folding stability in biology and protein design. bioRxiv 2022.12.06.519132.

2. Lin et al. (2022). Evolutionary-scale prediction of atomic level protein structure with a language model. bioRxiv 2022.07.20.500902.

New mega dataset combined with deep neural network makes a progress in predicting impact of mutation on protein stability

M.A. Pak1*, N.V. Dovidchenko 2,3, S.M. Sharma 1, D.N. Ivankov1

1.Skolkovo Institute of Science and Technology;
2.Institute of Protein Research RAS;
3.Atlas Biomed Group-Knomx LLC;

* Marina.Pak(at)skoltech.ru

Prediction of protein stability change (∆∆G) upon mutation is one of the most important unsolved problems of structural bioinformatics. The recent success of AlphaFold in predicting 3D protein structures at near-to-experimental accuracy showed the perspectives of deep learning techniques for solving biological problems. The vast amount of known protein sequences (Uniprot Consortium, 2012) and known crystallographic structures played a crucial role in AlphaFold’s success. Field of ∆∆G prediction always suffered from the lack of data: by the middle of 2022, only ~14k experimental records were collected, which may be too low to learn the ∆∆G prediction by a deep neural network.

Recently, Tsuboyama et al. published the experimentally measured ∆∆G values for 851,552 mutations, with 376,918 being high-quality single mutations [1]. The dataset is much larger than any dataset used before and has no bias towards ‘truncating’ mutations to smaller amino acids, especially to alanine. Thus, it provides a unique opportunity to develop an unbiased state-of-the-art ∆∆G predictor using one of the powerful deep learning models.

Here we present ABYSSAL (Mega dataset and Deep neural network with attention-like mechanism), the first predictor of protein stability change due to a single mutation trained on such a large amount of data. ABYSSAL takes advantage of the state-of-the-art deep neural network model ESM2 [2]. ABYSSAL predicts experimental ∆∆G values with the Pearson correlation coefficient (PCC) of 0.85, which amounts to near-to-experimental quality [1]. We have shown that a training dataset should contain around ~100,000 data points is enough to take full advantage of the current state-of-the-art deep neural network models like ESM2 [2].



1. Tsuboyama et al. (2022). Mega-scale experimental analysis of protein folding stability in biology and protein design. bioRxiv 2022.12.06.519132.

2. Lin et al. (2022). Evolutionary-scale prediction of atomic level protein structure with a language model. bioRxiv 2022.07.20.500902.



Докладчик: Пак М.А.
562
2023-02-19

Национальный комитет Российских биофизиков © 2022
National committee of Russian Biophysicists