VII Съезд биофизиков России
Краснодар, Россия
17-23 апреля 2023 г.
Главная
О Съезде
Организаторы
Программный комитет
Программа Съезда
Место проведения Съезда
Проживание
Оргвзносы
Основные даты
Регистрация
Публикации материалов Съезда
Молодежный конкурс
Контакты
Тезисы
English version
Партнеры Съезда
Правила оформления докладов

Программа Съезда

Секции и тезисы:

Биофизика сложных многокомпонентных систем. Математическое моделирование. Биоинформатика

BioGraph: компьютерная модель данных для стандартизации поиска и запросов разнородных биологических метаданных

А.В. Велькович1, Ю.О. Орлов2, Н.М. Митић1*

1.Белградский университет, факультет математики, Белград, Сербия;
2.Первый Московский государственный медицинский университет им. И.М.Сеченова (Сеченовский университет), Москва, Россия;

* nenad.mitic(at)matf.bg.ac.rs

Изучение связи функции генов, заболеваний и реконструкции сети регуляторных генов требует совместимости данных. Данные из разных баз данных следуют разным схемам и доступны неоднородными способами. Хотя эксперименты различаются, данные могут относиться к одним и тем же биологическим объектам. Некоторые объекты могут не быть строго биологическими, например, геолокации мест обитания или ссылки на литературу, но они обеспечивают более широкий контекст для других объектов. Одни и те же объекты из разных наборов данных могут иметь схожие свойства, которые могут быть обнаружены или отсутствовать в других наборах данных. Совместная одновременная выборка данных из нескольких источников данных сложна для конечного пользователя или, во многих случаях, не поддерживается и неэффективна из-за различий в структурах данных и способах доступа к данным.

Мы предлагаем BioGraph — новую модель, которая позволяет соединять и извлекать информацию из связанных биологических данных, полученных из различных наборов данных. Мы протестировали модель на метаданных, собранных из 5 различных общедоступных наборов данных, и успешно построили граф знаний, содержащий более 2 500 000 отдельных объектов сущностей, связанных между собой более чем 4 миллионами отношений. Модель позволяет выбирать сложные шаблоны и извлекать совпадающие результаты, которые можно обнаружить только путем объединения данных из нескольких источников. Биологические данные весьма разнообразны.

Данные, полученные в результате экспериментов по кристаллизации белков, сильно отличаются от данных, полученных в результате экспериментов по нарушению белков. Однако оба эксперимента могут дать информацию об одних и тех же биологических объектах, в данном случае об одних и тех же белках. Поскольку белки получены из генов, эксперименты, связанные с соответствующими генами, также могут предоставить ценную информацию в более широкой картине, если они связаны с данными о белках. Однако запись белка из одной базы данных может не содержать точного свойства, которое связывает его с соответствующим геном из другой базы данных, и, возможно, для установления этой связи требуется третья база данных. Некоторые базы данных, такие как MobiDB [1], содержат широкий спектр идентификаторов сущностей, полученных из нескольких баз данных, но поиск основан только на точном сопоставлении свойств, без возможности создания сложных запросов с использованием различных атрибутов метаданных. Практическим примером сложного запроса к нескольким базам данных может быть выбор генов опухолевых антигенов человека, связанных с белками с содержанием нарушений выше определенного значения. Такой мощный механизм запросов недоступен при использовании доступных методов запроса данных в отдельных базах данных, но требует определенного уровня унификации и связывания данных.

Использование графа знаний для соединения данных из источников биологических данных не является новой идеей [2]. Графы знаний являются фундаментальной структурой для интеллектуального здравоохранения [3]. Существует много активных инициатив по объединению данных из нескольких наборов данных в граф знаний, но большинство доступных в настоящее время решений сосредоточены на конкретных подобластях, таких как открытие лекарств и протеомика, редко на общей связи общих биологических данных из различных областей. Мы представляем новую модель, которая позволяет одновременно запрашивать свойства биологических данных из нескольких наборов данных на основе запроса метаданных, доступных из исходных баз данных. Модель ориентирована не на копирование данных из исходных наборов данных, а на связывание метаданных таким образом, чтобы их можно было использовать для эффективного выполнения сложных запросов к связанным данным. Модель позволяет добавлять свойства к сущностям и отношениям и унифицировать метаданные из различных форматов данных. Также были разработаны инструмент и веб-интерфейс, использующие новую модель данных. Инструмент и соответствующие пакеты можно развернуть локально как автономную систему, чтобы запросы можно было выполнять в автономном режиме. Предустановленный веб-интерфейс BioGraph в настоящее время доступен по адресу http://andromeda.matf.bg.ac.rs:54321.

Для проверки предложенной модели и ее реализации мы успешно собрали и объединили метаданные из пяти наборов данных различного формата: DisProt [4], HGNC [5], Tantigen 2.0 [6], IEDB [7] и DisGeNET [8].

Литература

1. Piovesan, D.; Del Conte, A.; Clementel, D.; Monzon, A.M.; Bevilacqua, M.; Aspromonte, M.C.; Iserte, J.A.; Orti, F.E.; Marino-Buslje, C.; Tosatto, S.C. MobiDB: 10 years of intrinsically disordered proteins. Nucleic Acids Research 2023, 51, D438–D444.

2. Ji, S.; Pan, S.; Cambria, E.; Marttinen, P.; Yu, P.S. A Survey on Knowledge Graphs: Representation, Acquisition, and Applications. IEEE Transactions on Neural Networks and Learning Systems 2022, 33, 494–514. https://doi.org/10.1109/TNNLS.2021.3070843.

3. Wu, X.; Duan, J.; Pan, Y.; Li, M. Medical knowledge graph: Data sources, construction, reasoning, and applications. Big Data Mining and Analytics 2023, 6, 201–217.

4. Vucetic, S.; Obradovic, Z.; Vacic, V.; Radivojac, P.; Peng, K.; Iakoucheva, L.M.; Cortese, M.S.; Lawson, J.D.; Brown, C.J.; Sikes, J.G.; et al. DisProt: a database of protein disorder. Bioinformatics 2004, 21, 137–140.4.

5. Seal, R.L.; Braschi, B.; Gray, K.; Jones, T.E.; Tweedie, S.; Haim-Vilmovsky, L.; Bruford, E.A. Genenames. org: the HGNC resources in 2023. Nucleic Acids Research 2023, 51, D1003–D1009.

6. Zhang, G.; Chitkushev, L.; Olsen, L.R.; Keskin, D.B.; Brusic, V. TANTIGEN 2.0: a knowledge base of tumor T cell antigens and epitopes. BMC bioinformatics 2021, 22, 1–8.

7. IEDB. Retrieved from http://www.iedg.org. Accessed: 2023-02-06

8. Piñero, J.; Juan Manuel, R.A.; Josep Saüch-Pitarch, F.R.; Emilio Centeno, F.S.; Furlong, L.I. The DisGeNET knowledge platform for disease genomics: 2019 update. Nucl. Acids Res. 2019. https://doi.org/10.1093/nar/gkz1021.

BioGraph: Data Model for Linking and Querying Diverse Biological Metadata

A.V. Veljković1, Y.O. Orlov2, N.M. Mitić1*

1.FAculty of Mathematics, University of Belgrade, Serbia;
2.I.M.Sechenov First Moscow State Medical University (Sechenov University), Moscow, Russia;

* nenad.mitic(at)matf.bg.ac.rs

Studying of the association of gene function, diseases, and regulatory gene network reconstruction demands data compatibility. Data from different databases follow distinct schemas and are accessible in heterogenic ways. Although the experiments differ, data may still be related to the same biological entities. Some entities may not be strictly biological, like geolocations of habitats or paper references, but they provide a broader context for other entities. The same entities from different datasets can share similar properties, which may or may not be found within other datasets. Joint, simultaneous data fetching from multiple data sources is complicated for the end-user or, in many cases, unsupported and inefficient due to differences in data structures and ways of accessing the data. We propose BioGraph - a new model that enables connecting and retrieving information from the linked biological data that originated from diverse datasets. We have tested the model on metadata collected from 5 diverse public datasets and successfully constructed a knowledge graph containing more than 2,500,000 individual entity objects, interconnected with more than 4 million relations. The model enables the selection of complex patterns and retrieval of matched results that can be discovered only by joining the data from multiple sources.

Biological data is highly diverse. Data produced from protein crystallization experiments are very different from those from protein disorder experiments. However, both experiments may give information about the exact biological entities, in this case, the same proteins. As the proteins are sourced from genes, experiments related to their respective genes can also supply valuable information in a broader picture when linked with the protein data. However, a protein record from one database may not contain an exact property that connects it to its respective gene from the other database, but possibly requires a third database to establish that connection. Some databases, like MobiDB [1], contain a wide range of entity identifiers sourced from several databases, but the search is based only on exact property matching, without the ability to create complex queries using various metadata attributes. A practical example of a complex query over multiple databases would be selecting human tumor antigen genes associated with proteins with disorder content higher than a specific value. Such a powerful querying mechanism is not available using available data querying methods on individual databases but requires a certain level of data unification and linking.

Using a knowledge graph for interconnecting data from biological data sources is not a novel idea [2]. Knowledge graphs are the foundational structure for intelligent health care [3]. There are many active initiatives to join data from multiple datasets into a knowledge graph, but most nowadays available solutions focus on particular subdomains, like drug discovery and proteomics, rarely on the overall connection of general biological data from various domains. We present a new model which enables simultaneous querying of biological data properties from multiple datasets based on querying metadata available from the original databases. The model is not focused on copying the data from the original datasets but linking the metadata in a way that can be used for efficiently executing complex queries on linked data. The model allows adding properties to entities and relations and unifying metadata from diverse data formats. A tool and a Web interface that use the new data model were also developed. The tool and the corresponding packages can be deployed locally as a standalone system so that the queries can be executed offline. The predeployed BioGraph Web interface is currently available on http://andromeda.matf.bg.ac.rs:54321.

For verification of the proposed model and its implementation, we successfully collected and joined metadata from five diversely formatted datasets: DisProt [4], HGNC [5], Tantigen 2.0 [6], IEDB [7] and DisGeNET [8].



References

1. Piovesan, D.; Del Conte, A.; Clementel, D.; Monzon, A.M.; Bevilacqua, M.; Aspromonte, M.C.; Iserte, J.A.; Orti, F.E.; Marino-Buslje, C.; Tosatto, S.C. MobiDB: 10 years of intrinsically disordered proteins. Nucleic Acids Research 2023, 51, D438–D444.

2. Ji, S.; Pan, S.; Cambria, E.; Marttinen, P.; Yu, P.S. A Survey on Knowledge Graphs: Representation, Acquisition, and Applications. IEEE Transactions on Neural Networks and Learning Systems 2022, 33, 494–514. https://doi.org/10.1109/TNNLS.2021.3070843.

3. Wu, X.; Duan, J.; Pan, Y.; Li, M. Medical knowledge graph: Data sources, construction, reasoning, and applications. Big Data Mining and Analytics 2023, 6, 201–217.

4. Vucetic, S.; Obradovic, Z.; Vacic, V.; Radivojac, P.; Peng, K.; Iakoucheva, L.M.; Cortese, M.S.; Lawson, J.D.; Brown, C.J.; Sikes, J.G.; et al. DisProt: a database of protein disorder. Bioinformatics 2004, 21, 137–140.4.

5. Seal, R.L.; Braschi, B.; Gray, K.; Jones, T.E.; Tweedie, S.; Haim-Vilmovsky, L.; Bruford, E.A. Genenames. org: the HPC resources in 2023. Nucleic Acids Research 2023, 51, D1003–D1009.ь

6. Zhang, G.; Chitkushev, L.; Olsen, L.R.; Keskin, D.B.; Brusic, V. TANTIGEN 2.0: a knowledge base of tumor T cell antigens and epitopes. BMC bioinformatics 2021, 22, 1–8.

7. IEDB. Retrieved from http://www.iedg.org. Accessed: 2023-02-06

8. Piñero, J.; Juan Manuel, R.A.; Josep Saüch-Pitarch, F.R.; Emilio Centeno, F.S.; Furlong, L.I. The DisGeNET knowledge platform for disease genomics: 2019 update. Nucl. Acids Res. 2019. https://doi.org/10.1093/nar/gkz1021.


Докладчик: Митић Н.М.
999
2023-02-16

Национальный комитет Российских биофизиков © 2022
National committee of Russian Biophysicists