VII Съезд биофизиков России
Краснодар, Россия
17-23 апреля 2023 г.
Главная
О Съезде
Организаторы
Программный комитет
Программа Съезда
Место проведения Съезда
Проживание
Оргвзносы
Основные даты
Регистрация
Публикации материалов Съезда
Молодежный конкурс
Контакты
Тезисы
English version
Партнеры Съезда
Правила оформления докладов

Программа Съезда

Секции и тезисы:

Медицинская биофизика. Нейробиофизика

Методы машинного обучения для прогнозирования исхода заболевания COVID-19 у детей

А.В. Кузнецова1,2*, Е.М. Воронин1, Э.Р. Самитова3

1.ФБУН ЦНИИ Эпидемиологии Роспотребнадзора, г. Москва;
2.ФГБУН Институт биохимической физики им. Н.М. Эмануэля РАН, г. Москва;
3.ГБУЗ Детская городская клиническая больница имени З.А. Башляевой;

* azforus(at)yandex.ru

В работе проведен базы данных клинико-лабораторных показателей у детей - пациентов с заболеванием Covid-19. Многопараметрический анализ проводили с помощью методов машинного обучения, основанных на оригинальных методах оптимально достоверных разбиениях и статистически взвешенных синдромах.

Заболеваемость Covid-19, по общему мнению, больше касалась взрослого населения. Но и дети тоже заболевали. В Тушинской больнице была собрана база клинико-лабораторных показателей у детей, больных Covid-19. Взятие анализов проводили при поступлении в больницу, на 7 день и на 11 день. Количество показателей – 55. Количество пациентов с летальным исходом было невелико - первый класс 10 человек. Количество пациентов, выписанных из больницы после выздоровления - второй класс – 45. Общее количество пациентов – 55.

Применяли методы машинного обучения из комплекса Data Master Azforus. На наборе лучших методов использовали ансамбль для улучшения результата распознавания.

Сравнение методов машинного обучения для использования клинико-лабораторных показателей у пациентов при поступлении в больницу дали следующими результаты (в скобках результаты Roc Auc): Статистически взвешенные синдромы - 0,647, Деревья решений - 0,644, Линейный дискриминантный анализ - 0,578, Градиентный бустинг - 0,533, Метод ближайших соседей - 0,522. Это достаточно низкие значения распознавания. Ансамбль на этих 5-ти методах МО показал значение AUC=0,678. Это соответствует 42 из 55 правильно распознанных исходов заболевания (76,4 %).

Через три дня пребывания в стационаре распознавание методами машинного обучения выросло незначительно. Линейный дискриминантный анализ - 0,656, Деревья решений - 0,644, Статистически взвешенные синдромы - 0,630. Ансамбль на этих трех методах распознавал на скользящем контроле (Leave-One-Out) - 41 правильных исходов (74,5 %). Немного повысился ROC AUC=0,693.

На 7-й день пребывания в стационаре распознавание было уже лучше: Деревья решений -0,744, Статистически взвешенные синдромы - 0,739, Линейный дискриминантный анализ - 0,689. Ансамбль на этих трех лучших методах показал уже ROC AUC=0,822. В группе умерших правильно распознано 7 (70,0 %) из 10 человек. В группе выздоровевших верно распознано 39 (86,7 %) из 45 человек. Общее число верных распознаваний - 46 (83,6%).

На 11-й день после госпитализации результат распознавания на скользящем контроле такой: Статистически взвешенные синдромы - 0,897, Адаптивный бустинг-0,850, Деревья решений - 0,850, Градиентный бустинг - 0,799, Линейный дискриминантный анализ - 0,644. Результаты ансамбля на этих трех лучших методах - ROC AUC=0,9433. В классе умерших число верного распознавания не изменилось - 7 (70,0 %). В классе пациентов, выписанных из больницы, распознавание было на 100,0% - 45 человек правильно отнесены в свой класс. Общий результат распознавания - 52 человека (94,5 %).

Далее перечислены значимые показатели с точки зрения распознавания класса умерших от класса выздоровевших пациентов (показатель с обозначением точки исследования, граница разбиения, значимость): 1) СРБ В - 30,24 - р<0,0005; 2) Мочевина В - 13,15 - р<0,0005; 3) СРБ 7 - 49,325 - р<0,001; 4) глюкоза В - 6,325 - р<0,001; 5) общий белок В - 56,35 -р<0,007; 6) Глюкоза 7 - 5,75 - р<0,008; 7) альбумин В - 35,9 - р<0,008; 8) ЛДГ В - 952,95 - р<0,014; 9) Креатинин 3 - 78 -р<0,019; 10) АСТ 0 - 177,7 - р<0,022; 11) Креатинин В – 66 - р<0,023; 12) Мочевина 7 - 11,6 - р<0,023; 13) ЛДГ 7 - 805,6 - р<0,047; 14) Тромбоциты В - 190,5 - р<0,048.

Таким образом, наиболее значимым показателем оказался С-реактивный белок (значимость на перестановочном тесте р<0,0005). По публикациям это было уже отмечено в статьях. При значении этого показателя выше 49,325 на 7 день стационара и выше 30,24 на 11 день в больнице высока угроза летального исхода.

Далее перечислим показатели с их границами разбиения с указанием класса.

Выше границы преобладает неблагоприятный класс у следующих показателей: Мочевина В, Мочевина 7, Глюкоза В, Глюкоза 7, ЛДГ В, ЛДГ 7, Креатинин В, Креатинин 7, АСТ 0.

Ниже границы неблагоприятный класс преобладает у показателей: Общий белок В, Альбумин В, Тромбоциты В.

Методы машинного обучения позволяют сделать прогноз угрозы летального исхода при заболевании Covid-19 у детей и выявляют наиболее значимые показатели с их границами разбиения, что дает возможность докторам в ранние сроки заболевания предпринять интенсивные меры лечения у пациентов с плохим прогнозом.

Machine learning methods for forecasting outcome of COVID-19 disease in children

A.V. Kuznetsova1,2*, E.M. Voronin1, E.R. Samitova3

1.FSBI Central Research Institute of Epidemiology (CRIE) of Federal Service for the Oversight of Consumer Protection and Welfare (Rospotrebnadzor);
2.N.M. Emanuel Institute of Biochemical Physics (IBCP);
3.GBUZ Children's City Clinical Hospital named after Z.A. Bashlyaeva;

* azforus(at)yandex.ru

A database of clinical and laboratory parameters in children with Covid-19 disease was carried out in the work. The multiparametric analysis was carried out using machine learning methods based on original methods of optimally reliable partitions and statistically weighted syndromes.

The incidence of Covid-19, according to general opinion, was more concerned with the adult population. But the children also got sick. A database of clinical and laboratory parameters in children with Covid-19 was collected at the Tushino Hospital. The tests were taken at admission to the hospital, on day 7 and on day 11. The number of indicators is 55. The number of patients with a fatal outcome was small - the first class was 10 people. The number of patients discharged from the hospital after recovery - second class – 45. The total number of patients is 55.

We used machine learning methods from the Data Master Azforus complex. On a set of the best methods, an ensemble was used to improve the recognition result.

Comparison of machine learning methods for the use of clinical and laboratory indicators in patients on admission to the hospital gave the following results (in parentheses, the results of Roc Auc): Statistically weighted syndromes - 0.647, Decision trees - 0.644, Linear discriminant analysis - 0.578, Gradient boosting - 0.533, Nearest neighbor method - 0.522. These are rather low recognition values. The ensemble on these 5 MO methods showed the value of AUC = 0.678. This corresponds to 42 out of 55 correctly recognized outcomes of the disease (76.4%).

After three days of hospital stay, recognition by machine learning methods increased slightly. Linear discriminant analysis - 0.656, Decision trees - 0.644, Statistically weighted syndromes - 0.630. The ensemble on these three methods recognized 41 correct outcomes (74.5%) on a sliding control (Leave-One-Out). The ROC AUC=0.693 slightly increased.

On the 7th day of hospital stay, recognition was already better: Decision trees -0.744, Statistically weighted syndromes - 0.739, Linear discriminant analysis - 0.689. The ensemble on these three best methods has already shown ROC AUC= 0.822. In the group of deceased, 7 (70.0%) out of 10 people were correctly recognized. In the group of recovered, 39 (86.7%) out of 45 people were correctly recognized. The total number of correct recognitions is 46 (83.6%).

On the 11th day after hospitalization, the recognition result on the sliding control is as follows: Statistically weighted syndromes - 0.897, Adaptive boosting-0.850, Decision trees - 0.850, Gradient boosting - 0.799, Linear discriminant analysis - 0.644. The results of the ensemble on these three best methods are ROC AUC=0.9433. In the class of the deceased, the number of correct recognition has not changed - 7 (70.0%). In the class of patients discharged from the hospital, recognition was 100.0% - 45 people were correctly assigned to their class. The total recognition result is 52 people (94.5%).

The following are significant indicators from the point of view of recognizing the class of deceased from the class of recovered patients (indicator with the designation of the point of study, the division boundary, significance): 1) CRP B - 30.24 - p<0.0005; 2) Urea B - 13.15 - p<0.0005; 3) CRP 7 - 49.325 - p<0.001; 4) Glucose B - 6.325 - p<0.001; 5) Total protein B - 56.35 -p<0.007; 6) Glucose 7 - 5.75 - p<0.008; 7) albumin B - 35.9 - p<0.008; 8) LDH B - 952.95 - p<0.014; 9) Creatinine 3 - 78 -p<0.019; 10) AST 0 - 177.7 - p<0.022; 11) Creatinine B – 66 - p<0.023; 12) Urea 7 - 11.6 - p<0.023; 13) LDH 7 - 805.6 - p<0.047; 14) Platelets B - 190.5 - p<0.048.

Thus, the most significant indicator was the C-reactive protein (significance on the permutation test p<0.0005). According to publications, this has already been noted in articles. If the value of this indicator is higher than 49.325 on the 7th day of the hospital and higher than 30.24 on the 11th day, there is a high risk of death in the hospital.

Next, we list the indicators with their division boundaries, indicating the class.

Above the border, the unfavorable class prevails in the following indicators: Urea B, Urea 7, Glucose B, Glucose 7, LDH B, LDH 7, Creatinine B, Creatinine 7, AST 0.

Below the border, the unfavorable class prevails in the indicators: Total protein B, Albumin B, Platelets B.

Machine learning methods make it possible to predict the threat of death in children with Covid-19 disease and identify the most significant indicators with their division boundaries, which allows doctors to take intensive treatment measures in patients with a poor prognosis at an early stage of the disease.



Докладчик: Кузнецова А.В.
52
2023-02-15

Национальный комитет Российских биофизиков © 2022
National committee of Russian Biophysicists