VII Съезд биофизиков России
Краснодар, Россия
17-23 апреля 2023 г. |
Программа СъездаСекции и тезисы:
Биофизика сложных многокомпонентных систем. Математическое моделирование. БиоинформатикаНовый меганабор данных в сочетании с глубокой нейронной сетью позволил добиться прогресса в предсказании эффекта мутаций на стабильность белковМ.А. Пак1*, Н.В. Довидченко2,3, S.M. Sharma 1, Д.Н. Иванков1 1.Сколковский институт науки и технологий ; 2.Институт белка РАН; 3.Atlas Biomed Group-Knomx LLC; * Marina.Pak(at)skoltech.ru Предсказание изменения стабильности белка (∆∆G) вследствие мутации является одной из важнейших нерешенных проблем структурной биоинформатики. Недавний успех AlphaFold в предсказании трехмерных структур белков с точностью, близкой к экспериментальной, показал перспективность методов глубокого обучения для решения биологических задач. Огромное количество известных белковых последовательностей (Uniprot Consortium, 2012) и известные кристаллографические структуры сыграли решающую роль в успехе AlphaFold. Недостаток данных всегда был главной проблемой предсказания ∆∆G: к середине 2022 года было собрано всего ~14 тысяч экспериментальных записей, что может быть слишком мало для обучения предсказанию ∆∆G с помощью глубокой нейронной сети.
Недавно Цубояма и др. опубликовали экспериментально измеренные значения ∆∆G для 851 552 мутаций, из которых 376 918 - высококачественные одиночные мутации [1]. Этот набор данных намного больше, чем любой другой, использовавшийся ранее, и в нем нет смещения в сторону мутаций на малые аминокислоты, в частности до аланина. Таким образом, это дает уникальную возможность разработать несмещенный современный предиктор ∆∆G с использованием одной из мощных моделей глубокого обучения. В данной работе представлен инструмент ABYSSAL (Mega dataset и Deep neural network with attention-like mechanism), первый предиктор изменения стабильности белка вследствие единичной мутации, обученный на таком большом объеме данных. ABYSSAL использует преимущества современной модели глубокой нейронной сети ESM2 [2]. ABYSSAL предсказывает экспериментальные значения ∆∆G с коэффициентом корреляции Пирсона 0,85, что соответствует качеству, близкому к экспериментальному [1]. Мы показали, что обучающий набор данных должен содержать около ~100 000 мутаций - этого достаточно, чтобы в полной мере использовать преимущества современных моделей глубоких нейронных сетей, таких как ESM2 [2]. 1. Tsuboyama et al. (2022). Mega-scale experimental analysis of protein folding stability in biology and protein design. bioRxiv 2022.12.06.519132. 2. Lin et al. (2022). Evolutionary-scale prediction of atomic level protein structure with a language model. bioRxiv 2022.07.20.500902. New mega dataset combined with deep neural network makes a progress in predicting impact of mutation on protein stabilityM.A. Pak1*, N.V. Dovidchenko 2,3, S.M. Sharma 1, D.N. Ivankov1 1.Skolkovo Institute of Science and Technology; 2.Institute of Protein Research RAS; 3.Atlas Biomed Group-Knomx LLC; * Marina.Pak(at)skoltech.ru Prediction of protein stability change (∆∆G) upon mutation is one of the most important unsolved problems of structural bioinformatics. The recent success of AlphaFold in predicting 3D protein structures at near-to-experimental accuracy showed the perspectives of deep learning techniques for solving biological problems. The vast amount of known protein sequences (Uniprot Consortium, 2012) and known crystallographic structures played a crucial role in AlphaFold’s success. Field of ∆∆G prediction always suffered from the lack of data: by the middle of 2022, only ~14k experimental records were collected, which may be too low to learn the ∆∆G prediction by a deep neural network.
Recently, Tsuboyama et al. published the experimentally measured ∆∆G values for 851,552 mutations, with 376,918 being high-quality single mutations [1]. The dataset is much larger than any dataset used before and has no bias towards ‘truncating’ mutations to smaller amino acids, especially to alanine. Thus, it provides a unique opportunity to develop an unbiased state-of-the-art ∆∆G predictor using one of the powerful deep learning models. Here we present ABYSSAL (Mega dataset and Deep neural network with attention-like mechanism), the first predictor of protein stability change due to a single mutation trained on such a large amount of data. ABYSSAL takes advantage of the state-of-the-art deep neural network model ESM2 [2]. ABYSSAL predicts experimental ∆∆G values with the Pearson correlation coefficient (PCC) of 0.85, which amounts to near-to-experimental quality [1]. We have shown that a training dataset should contain around ~100,000 data points is enough to take full advantage of the current state-of-the-art deep neural network models like ESM2 [2]. 1. Tsuboyama et al. (2022). Mega-scale experimental analysis of protein folding stability in biology and protein design. bioRxiv 2022.12.06.519132. 2. Lin et al. (2022). Evolutionary-scale prediction of atomic level protein structure with a language model. bioRxiv 2022.07.20.500902. Докладчик: Пак М.А. 562 2023-02-19
|