Провідні країни світу вже розпочинають щеплення своїх громадян від COVID-19. Українцям же доведеться почекати, позаяк вакцина стане доступною не так швидко, як хотілось б, і далеко не всім. Тому напередодні чергового локдауну, який має призупинити розвиток епідемії, ми поспілкувалася з науковцем, котрий займається прогнозуванням поширення коронавірусу.
Про найближчі перспективи пандемії та про те, чи виправдане рішення влади знову посадити країну «під замок», кореспондентові Укрінформу розповів завідувач кафедри системного аналізу та інформаційних технологій, доктор технічних наук, професор, науковий керівник науково-дослідної лабораторії екологічних досліджень та екологічного моніторингу Вінницького національного технічного університету Віталій Мокін.
- Віталію Борисовичу, як ви приєдналися до групи науковців, що роблять прогнози поширення коронавірусу для РНБО та Кабінету міністрів?
- Я тривалий час займаюся так званим напрямком Data Science. Це те, що зараз ще часто називають «штучний інтелект», хоча це дещо різні поняття. Я зосередився на збільшенні рейтингу в опануванні штучного інтелекту на Python (мова програмування – ред.) у системі Kaggle – це платформа Google для обробки даних у різних сферах. У цій платформі я першим з українців отримав статус гросмейстера і входжу в першу п’ятнадцятку із понад 175 тисяч учасників з усього світу – фахівців зі штучного інтелекту. Там усі перебувають у пошуку, до чого застосовувати свої знання.
У квітні стартував челендж для датасайнтистів. Це була система конкурсів із моделювання поширення коронавірусу. Я також долучився, але на той час ряд даних по ковіду був іще замалий, аби щось серйозно прогнозувати. Та я зацікавився тоді цією проблемою, бо вже працював над моделюванням часових рядів з використанням штучного інтелекту.
Влітку серйозно зайнявся цим питанням і побудував власну модель на основі технології Фейсбук для моделювання часових рядів, – так звана модель Prophet (з англійської – «Пророк»). Я дещо там вдосконалив, і моя модель, мій датасет, моя технологія аналогів не мали. Вона опрацьовує дані з 70 країн, а їхня модель працювала тільки з 62-ма.
Потім деякий час іще її вдосконалював, і моя робота потрапила на очі міжвідомчій робочій групі при Національній академії наук України (НАНУ) з прогнозування поширення коронавірусу, створеній для потреб РНБО і Кабміну. Власне кажучи, вони щотижня готують різну аналітику, прогнози і супроводжують систему моніторингу поширення коронавірусу РНБО.
Колеги одразу сказали, що у них є своя модель прогнозування поширення пандемії, але їм цікаво залучити й інших фахівців, адже аналітичної інформації забагато не буває. Бо погляд на одні й ті ж речі з різних точок зору може дати гарний ефект.
Спитали, чи я згоден попрацювати. Я погодився, адже це цікаво, це виклик моїм знанням і навичкам. Тим більше, що це – справді робота для суспільно корисних потреб. Адже коли ти бачиш усі ці проблеми, ти знаєш, що хоча б щось робиш заради їх вирішення. А твої результати потраплять до людей, які ухвалюють рішення. Можливо, саме якийсь із моїх графіків надихне їх на розуміння аспектів проблеми, а прийняті рішення приведуть до покращення ситуації. Я кілька років був радником міністра екології, більше десяти – радником голови Держводагентства і маю приклади, коли твоя порада, «занесена» в потрібні вуха в потрібний момент, дає корисний загальнодержавний результат.
Це купа роботи зі звітністю на вихідних. Звичайно, я все це роблю на волонтерських засадах.
- Що «на виході» даєте ви у розпорядження Кабміну та РНБО?
- На початку мені прислали величезний масив інформації, включаючи інформацію про усі зроблені в Україні ПЛР-тести на коронавірус, звісно, без персональних даних. І я усе це опрацьовував десь із місяць-два, пробував різні моделі. Поступово знайшов свою нішу в роботі групи. Узяв відкриті дані, тому що в Kaggle можна використовувати тільки їх. Зробив нові моделі. Потім написав детальний звіт, як воно все працює. Мене перевірили, сказали – що потрібно поправити, щоб підвищити точність моделі. Врешті, ми (я ще підключив свого аспіранта) отримали графік-прогноз у такому вигляді, як вони хотіли, і вони узяли мене у звіт.
Як бачите, це не була миттєва робота, – там усе верифікується, всіх підряд туди не беруть. Тепер я щотижня надаю свою інформацію, і вони «зістиковуються», – прогноз НАНУ і прогноз Мокіна.
Отож, на основі даних про випадки коронавірусу, підтверджені ПЛР-тестуванням, робиться прогноз кількості нових хворих. Саме за ними йде офіційна статистика в Україні. Ще робляться ІФА-тести, тести на антиген, але вони не йдуть в офіційну статистику захворюваності. Всі стандартні дашборди (аналітичні панелі – ред.) містять тільки тести на ПЛР, позаяк саме вони вважаються точним підтвердженням.
Академія наук використовує так звану компартментну модель. По суті, це – балансова динамічна модель, яка бере за основу різні складові, що характеризують природу явища, й описує, як вони між собою взаємодіють. Я ж використовую статистичну модель – модель часового ряду. Працюю зі своїм аспірантом Арсеном Лосенком. Ми даємо загальний графік тільки по всій країні, оскільки нам треба більше даних. Беремо один показник, ряд його чисел за рік і прогнозуємо наступні значення.
Моя модель працює з показниками, починаючи з моменту різкого збільшення захворюваності, – з 6 липня. Тоді ж почали наростати й обсяги тестування, саме тому цей відрізок, передусім, є сенс аналізувати з метою прогнозування.
У чому специфіка статистичних моделей: вони «чекають» однорідну вибірку даних, коли умови проведення обстежень більш-менш співставні.
Зараз я вже розробив нову модель, яка моделює увесь ряд даних, зокрема і в основних 70 країнах світу. Вона дає досить непогані результати прогнозування. Вона складніша, я її зараз удосконалюю і готую оновлення. Аспірант мені допомагає. За нею ми вже будемо «програвати» сценарії – між оптимістичним і песимістичним, щоб прогнозування можна було зробити більш довгостроковим.
- Якої точності прогнозування вам вдалося домогтися за пів року роботи?
- Наскільки я пам’ятаю, найкращий результат двотижневого прогнозу сумарно за всі дні у мене був із похибкою 2-3%. Зазвичай добре, коли вона є меншою, ніж 10%. У двох останніх прогнозах у мене були показники 7,48% і 5%.
Хочу зазначити, що наша робоча група вирішила на два тижні призупинити прогнозування. З одного боку, маємо новорічні свята. З іншого – суто українська проблема: у свята й вихідні лабораторії значно менше працюють. Наприклад, коли був День захисника України, зробили значно менше аналізів.
Як на мене, це не дуже зрозуміло: чому не можна людям доплатити за роботу, найняти ще персонал? Чому не можна налагодити стабільну роботу? Чому я, працюючи безкоштовно, у вихідні виконую свою роботу, а вони за гроші – ні?.. Ми зав’язані на якість даних: якщо вони приходять зі «спадом» – погіршується якість прогнозу.
- Чимало політиків та експертів кажуть, що кількість тестів на COVID-19 в Україні замала, тому реальної картини захворюваності це не відображає. Наскільки ви довіряєте тій статистиці, з якою доводиться працювати?
У деякі дні оприлюднені дані містили відомості про тести, зроблені ще улітку, або навіть весною!
- Я скажу більше: абсолютно точно відомо, що дані про кількість нових хворих не характеризують реальний стан речей, який є останнім часом. Один експерт, який працює з даними щодо тестування, порівняла дати реєстрації ПЛР-тестів і дату оприлюднення. Дата реєстрації – це коли людина прийшла і зробила тест, дата оприлюднення – коли МОЗ опублікував про це відомості про кількість нових хворих. Ми знаємо, що ПЛР-тест робиться максимум добу. Логічно припустити, що те, що вони написали – це дані за вчора. Нічого подібного! З графіка у нашому звіті видно, що в оприлюднених даних відсотків із 30 результату – це дані вчорашніх аналізів, ще 30-40% – вимірювання за останні 2-3 дні, частина даних – за тиждень тому, ще частина – за два тижні до того, і навіть за місяць! У деякі дати оприлюднені дані містили відомості про тести, зроблені улітку, або навіть весною! Ну, це – звичайно, лише пару відсотків, але коли отакий «салат», така суміш, воно не зовсім достовірно характеризує реальну ситуацію.
Ми це враховуємо. Я стараюся моделювати зараження ковідом, намагаючись відслідкувати його через кількість нових хворих. Враховую державні свята із запізненням на 7 днів. Тобто, припускаю, що люди в ці дні відзначали їх, контактували, і за 7 днів можна чекати, що тести підтвердять у них коронавірус.
Крім того, усе літо я моделював процес, враховуючи теплі дні без опадів. Дані показують, що в погожі дні люди одразу заполоняють парки, спілкуються. Пішли контакти – пішло збільшення хворих. Моя програма відслідковує й такі, як я їх називаю, метеопаттерни, – температуру повітря, опади за місяцями, плюс державні свята. Плюс те, що в святкові дні проводиться менше тестів, – це теж аномалія. І модель усі ці аномалії прибирає.
Плюс є ще поняття послаблення карантину. Наприклад, Оксфордська лабораторія відслідковує у понад 50 країнах світу за 17 критеріями послаблення і посилення карантину. Там ідеться про школи, садочки, аеропорти, внутрішні перевезення тощо. По Україні теж є ці ряди.
- Тобто, йдеться про суто математичний прогноз, виходячи із наявних даних?
- Так. Але тут є один важливий момент: не можна казати, що статистика – це повне «сміття», а ми на її основі щось моделюємо. Насправді моя модель виходить із припущення, що оця кількість нових хворих – це є результат упливу багатьох факторів. Але головне, щоб вони однаково впливали щодня. Тобто, вона не характеризує точно того, що зараз є, вона прогнозує загальний агрегований показник кількості нових хворих. Наскільки воно насправді аналізує зараження – оце сказати важче.
- Ви сказали, що зробили паузу в роботі на свята, але ж прогнози на цей період у вас є?
- Так, по 11 січня. Ми бачимо, що вже кілька тижнів іде зниження кількості виявлення нових випадків коронавірусу. На цей період ми теж прогнозуємо таку тенденцію. За найоптимістичнішим сценарієм, ми можемо вийти на 2,5 тис. нових випадків на добу, але в це важко повірити. Одначе спад буде.
- Але якщо ми виходимо на такі показники і крива захворюваності чітко йде донизу, навіщо нам локдаун?
Цілком можливо, що у нас, попри вказані показники, насправді з кількістю хворих усе складніше
- Хороше питання. Потрібен, бо у хвороби є «приховані резерви».
На жаль, у нас багато інформації оприлюднюється, але безсистемно. «Викидають» пару чисел, і розбирайтеся в них самі. Але допитливі люди познаходили багато цікавих фактів – це з просторів Інтернету.
Наприклад, коли йде зменшення кількості ПЛР-тестів, перше, на що треба дивитися, – кількість позитивних у відсотках. Наприклад, якщо робилося 50 тис. тестів і з них було 10 тис. позитивних, маємо 20%, а коли зроблено 20 тис. тестів і 10 тис. позитивних – то це ж половина! Зрозуміло, що тестів робиться недостатньо. У Німеччині, одній з ключових країн, позитивними є 5-7% ПЛР-тестів, загалом – до 10%. Тобто, якщо у них позитивність більша 10%, вони суттєво нарощують обсяги тестувань, щоб знову знизити показник до 10%. А в нас «вимахало» до 35% і кажуть, що все «ок»! Зараз цей показник упав до 28%, але це все одно утричі перевищує середній показник по Європі! Тобто, порівняно з середніми показниками по ЄС, наші міряють усе-таки малувато. Тому цілком можливо, що у нас, попри вказані показники, насправді з кількістю хворих усе складніше.
Експерти познаходили ще два цікавих показники. Зокрема, щодо летальних випадків і кількості хворих. Різні джерела називають цифри летальності від 1-2% до 8%, тобто – думки і з цього приводу розходяться.
Якщо в сім’ї у когось підтвердили ковід, то решта – за наявності симптомів – здавати тести вже не підуть
Людина, яка сильно захворіла на ковід і дуже погано почувається, в лікарню зазвичай все ж «добіжить». І якщо вона там померла, факт зафіксують. Тож показник летальності – більш достовірний, ніж інфікованість. Ми ж розуміємо: якщо в сім’ї у когось підтвердили ковід, то решта – за наявності симптомів – здавати тести вже не підуть, з огляду на всі незручності, з цим пов’язані. Сидітимуть удома і лікуватимуться так, як призначили їхньому родичу.
І третій факт: статистика щодо летальних випадків теж не завжди правильна. Повторюється ситуація, як із ПЛР-тестами: серед оприлюднених «за вчора» даних про смерті є випадки, зареєстровані місяць тому! Як таке може бути?.. Інформація від лікарні до оприлюднення йде часом 1-2 місяці! Медики кажуть, що вони просто завалені паперовою роботою, попри те, що намагаються лікувати людей. Одні й ті ж дані вони змушені подавати у паперовому вигляді, в електронному, та ще й телефоном! Якщо хворий ковід-позитивний, треба ще одну форму заповнювати.
Тому, як один із чинників виявлення реальної картинки захворюваності, ще аналізують надлишкову смертність. Зараз у всьому світі застосовують таку технологію. Беруть статистику летальних випадків за 5 років у країні та окремо по регіонах – і порівнюють. Є і в нас у звіті такий графік, це робиться помісячно. Єдине, що у нас офіційна статистика йде із запізненням на 2-3 місяці. Один з аналітиків порахував, що в нас очікується надлишкова смертність на рівні близько 250 тис. за рік. Це як один Івано-Франківськ. Автори дослідження не стверджують, що всі ці смерті – наслідок ковіду. Але факт є, і він наштовхує на роздуми. Достеменно підтверджено, що найбільш суттєве зростання надлишкової смертності є в тих регіонах, де було найпомітніше зростання поширення коронавірусної інфекції, – наприклад, Чернівецька, Тернопільська області.
Є ще один момент – гугл-тренди. Весною і влітку спостерігалася така закономірність: у тих регіонах, де поширення хвороби було найбільше, люди вводили у пошуковик різними мовами «нюх», «смак», «сатурація», «пульсоксиметр» тощо, загалом – є до двохсот типових «ковідних» слів. Ці пошуки чітко корелюються з кількістю хворих, причому, із випередженням. Зараз народ уже нагуглився, начитався, уже все знає. Тому ця тенденція трошки розмилася, «просіла».
Але треба розуміти ситуацію. Ось у нас зараз 6-8 тисяч нових випадків COVID-19 на день фіксують, і кажуть: «О, це ж спад!» Хоча улітку, коли йшлося про тисячу випадків на день, то була паніка. Але і 6-8 тисяч – це багато, і казати про те, що ми побороли хворобу – передчасно.
Антоніна Мніх, Вінниця
Фото Олександра Лапіна