Politechniczna symulacja rozprzestrzeniania się epidemii COVID-19
Czy poglądy polityczne mogą wpłynąć na tempo rozprzestrzeniania się koronawirusa? A rodzaj zabudowy - osiedle domków lub blokowiska? Te i około 80 innych czynników bierze pod uwagę zespół badawczy projektu MARCO, który opracował metody symulacji rozprzestrzeniania się epidemii COVID-19. Zapraszamy do wysłuchania najnowszego odcinka podcastu „Trzy kwadranse z badawczą".
Projekt „Metody analizy, prognozowania i rekomendowania w zakresie zapobiegania rozprzestrzenianiu się COVID-19 ze szczególnym uwzględnieniem analizy geoprzestrzennych” realizowany jest w ramach konkursu na granty badawcze IDUB against COVID-19, który został zorganizowany w ramach realizacji projektu „Inicjatywa Doskonałości - Uczelnia Badawcza” na Politechnice Warszawskiej.
Odcinek 4: Politechniczna symulacja rozprzestrzeniania się epidemii COVID-19
Słuchaj odcinka tutaj:
Transkrypcja
Dariusz Aksamit: Wygląda na to, że trzecia fala pandemii jest już za nami. Możemy zacząć przyjmować zakłady czy na jesieni będzie czwarta czy nie. Na razie zakładamy, że w październiku wracamy stacjonarnie. Również Politechnika rzuciła wszystkie ręce na pokład. Kto tylko naukowo mógł przyczynić się do walki z pandemią, zrobił to. Rozmawialiśmy już z chemikami, którzy zajmują się sterylizacją powierzchni, dużo pracy wykonują też tych fizycy, czy biotechnolodzy produkując szczepionkę. Z zaciekawieniem przeczytałem, że również kartografowie mogą się przyczynić do walki z pandemią. Będziemy rozmawiać o grancie badawczym „Metody analizy prognozowania i rekomendowania w zakresie rozprzestrzeniania się COVID-19 ze szczególnym uwzględnieniem analiz geoprzestrzennych”. Kolejnym z grantów projektu Inicjatywa Doskonałości – Uczelnia Badawcza. Dzisiaj jest z nami doktor habilitowany inżynier Robert Olszewski, profesor Politechniki Warszawskiej, kierownik zakładu Kartografii. Panie profesorze co kartografowie mają do pandemii?
Robert Olszewski: Dzień dobry przede wszystkim. Jestem kierownikiem zakładu Kartografii, ale prócz tego, że zajmujemy się kartografią, zresztą bardzo nowocześnie rozumianą, cyfrowobazodaniowo, zajmujemy się także, a może nawet przede wszystkim, geoinformatyką. Gromadzimy dane przestrzenne, przetwarzamy je różnymi metodami, które wyrastają na przykład ze statystyki, czy z informatyki i matematyki, a następnie wizualizujemy je. W tym projekcie, który ma zdecydowanie interdyscyplinarny charakter, oprócz mnie i dwóch pracowników zakładu, którym mam przyjemność kierować, udział bierze jeszcze kilkunastu innych pracowników, zarówno Politechniki Warszawskiej, jak i różnych uczelni. Stąd też, żeby dobrze udzielić odpowiedzi na to pytanie, na wstępie należy powiedzieć, że to nie jest odpowiedź kartografów, nie jest to odpowiedź informatyków, czy epidemiologów. To jest odpowiedź zdecydowanie interdyscyplinarnego zespołu, który złożony jest z osób na co dzień zajmujących się naukowo gromadzeniem danych, w tym danych lokalizowanych przestrzennie, procesem akwizycji wiedzy przestrzennej, czyli przekształceniem tych danych surowych do postaci użytecznej informacji i wiedzy, ale też zespołem informatyków, którzy specjalizują się w kwestiach parametryzowania systemów optymalizacyjnych, systemów wieloagentowych, epidemiologów z Narodowego Instytutu Leków z Warszawskiego Uniwersytetu Medycznego, specjalistów od geografii społeczno-gospodarczej z Uniwersytetu Warszawskiego i wreszcie nasze wsparcie zza wielkiej wody z Harvard Medical School i New York, które zapewnia nam porównywalność tych wyników, które opracowujemy tutaj na Politechnice Warszawskiej, czy szerzej w tym interdyscyplinarnym zespole badaczy z tym co wymyślili Amerykanie. Mamy możliwość porównywania naszych modeli. Chciałbym podkreślić na wstępie, że nasza odpowiedź jest odpowiedzią Politechniki, bo w skład naszego zespołu wchodzą pracownicy nie tylko Wydziału Geodezji i Kartografii, Elektroniki i Technik Informacyjnych, ale także CZIiTT-u, w którym się znajdujemy. To znaczy konkretnie pani Urszula Szczepankowska-Bednarek, która jest z kolei specjalistką od stosowanych nauk społecznych, z wykształcenia socjolog, która bierze udział w tym projekcie jako badaczka specjalizująca się w analizie wpływu czynników społecznych na rozprzestrzenianie się pandemii.
DA: Dla osób spoza Politechniki tylko wyjaśnię że CZIiTT to Centrum Zarządzania Innowacjami i Transferem Technologii, w którym się właśnie znajdujemy nagrywają ten podcast.
Bardzo dużo mówi pan o informatyce. Myślę, że kończąc szkołę podstawową i potem trzymając się na studiach innej specjalizacji niż kartografia, można mieć taki prymitywny jej ogląd, że kartografia to mapy. Ktoś idzie w teren, patrzy, mierzy, później tworzy mapę. Nawet przeglądałam ostatnio podstawę programową i wiem, że dzieci uczą się o skali, o odwzorowaniach, ale ta kartografia w pana ustach jest czymś bardzo nowoczesnym. To się pojawiają satelity, modelowanie, zaraz przejdziemy do deep learning i metod Monte Carlo i modelowania. Na potrzeby tej rozmowy zaczynam myśleć o kartografii jako o wielkim agregacie wszystkich dostępnych danych. Nie tylko patrzymy fizycznie na przestrzeń: tu mamy budynki, tu mamy rzeki itd., ale to są ludzie i nie jacyś ludzie, ale jacyś bardzo konkretni ludzie. Zdaje się, że też dane demograficzne właśnie w tych modelach państwo uwzględniają. To jeszcze jedno pytanie na wstępie: skąd te wszystkie dane?
RO: Zacznijmy od tego czym jest a czym nie jest kartografia. Kartografia zdecydowanie nie jest nauką o tym jak rysować mapy. Kartografia, jeżeli mogę posłużyć się definicją już mojego nieżyjącego nauczyciela i promotora mojego doktoratu pana profesora Makowskiego, jest nauką metodyczną o modelowaniu, podkreślam modelowaniu, i obrazowaniu czasoprzestrzennych struktur geoinformacyjnych. Jeżeli chcielibyśmy jeszcze bardziej pójść w stronę górnego C, mogę zaproponować też własne spojrzenie na sprawę, takie definicyjne. Moim zdaniem istotą kartografii jest modelowanie transcendentalnej rzeczywistości w postaci ustrukturalizowanej bazy wiedzy przestrzennej. To daleko wykracza poza to o czym pan mówił. Takie szkolne rozumienie kartografii, w którym zresztą pojęcie skali, o którym pan wspomniał, jest nieprawidłowe, jest mocno uproszczone, kiedy mówimy, że centymetr na mapie to na przykład kilometr w terenie przy mapie w skali 1 do 100 000. Tak naprawdę skala oznacza stopień zmniejszenia przyjętej powierzchni w odniesienia i różni się w zależności od kierunku, ponieważ nasza ziemia nie jest płaska. Nawet nie jest kulą. Nawet nie do końca jest elipsoida – jest geoidą, czyli ma kształt ziemski. Trudno o lepszą definicję tym czym jest ziemia. Ma po prostu ziemski kształt. Wracając do kartografii. W dzisiejszym rozumieniu kartografia zajmuje się gromadzeniem informacji przestrzennej z wykorzystaniem wszelkich dostępnych źródeł. Rzadko dziś wychodzimy w teren by coś pomierzyć bezpośrednio. Z reguły korzystamy z systemów pośrednich, np. systemów satelitarnych na różnych orbitach. Wykorzystujemy również naloty fotogrametryczne, czyli zdjęcia lotnicze o dużej rozdzielczości, które przekształcamy do postaci ortofotomapy. Coraz częściej korzystamy też z dronów, czy systemów typu lidarowego, czyli wykorzystujących pomiary laserowe i mnóstwa innych danych. Oczywiście także rejestry państwowe, czyli urzędowe dane, ale też dane społecznościowe są wykorzystywane w naszej pracy. Bardzo szeroko rozwijającym się nurtem kartografii jest coś co nazywa się neokartografią. To mieszkańcy, obywatele, wolontariusze gromadzą dane. Przykładem jest Open Street Map, czyli przykład czegoś co zostało zaproponowane ustami niejakiego [niezrozumiałe]. Jest to takie społeczne gromadzenie informacji przestrzennej, co czasami ma ogromne znaczenie, zarówno w odniesieniu do takich danych podstawowych, topograficznych, ale również do danych o charakterze bardziej tematycznym. Nawiązując do tematu grantu, o którym dzisiaj rozmawiamy to dane dotyczące liczby osób, które zachorowały w poszczególnych powiatach, liczby osób, które zmarły w poszczególnych powiatach, które wyzdrowiały itd., były gromadzone zarówno przez służby państwowe podległe Ministerstwu Zdrowiu, jak i absolutnie społecznościowo. W pewnym momencie okazało się, że te drugie są co najmniej równie wiarygodne, a wręcz jedyne, które są dostępne.
DA: Z tego co pamiętam są autorstwa nastolatka. Na bazie jego bazy danych rząd podejmował później decyzje o kolejnych lockdownach. Jest to coś spektakularnego, że można, nie będąc na przykład etatowym naukowcem, mieć faktycznie wpływ na rzeczywistość.
RO: Zdecydowanie tak. Jeżeli teraz chciałby pan pobrać dane ze strony Ministerstwa Zdrowia to występuje w nich bardzo pokaźna luka. To znaczy mamy dane gromadzone w niezbyt ustrukturyzowany sposób – są zgromadzone od początku pandemii, czyli powiedzmy od początku marca ubiegłego roku do 10 października. Później następuje przerwa i następnie pojawiają się dane od 25 listopada do chwili obecnej.
DA: Z czego ta przerwa wynika?
RO: Trudno powiedzieć. Był to okres najcięższego uderzenia trzeciej fali pandemii, gdy wszystkie ręce były rzucone na pokład do bezpośredniej walki z pandemią w szpitalach. W tamtym momencie kwestia raportowania przez wojewódzkie czy powiatowe Stacje Sanitarno-Epidemiologiczne nie była na wysokiej pozycji na liście priorytetów. Co znacząco utrudnia modelowanie systemów, które pozwalają sprawdzić na ile te modele są wiarygodne. Ich wiarygodność badamy w ten sposób, że porównujemy je z danymi rzeczywistymi pomiarowymi. Oczywiście, przy założeniu, że te dane są wiarygodne i rzetelne oraz przy uwzględnieniu faktu, że prawdopodobnie znacznie więcej osób przeszło koronawirusa niż było to raportowane w jakichkolwiek bazie, w jakimkolwiek kraju. Nie mówię tutaj tylko o Polsce. Wracając do odpowiedzi na pana pytanie. Skąd bierzemy dane? Wszędzie skąd się da. Systemy, które staramy się utworzyć, a tworzymy różne systemy modelowania rozwoju pandemii COVID-19, ten rozwój, w cudzysłowie oczywiście, ponieważ słowo rozwój kojarzy nam się z czymś pozytywnym, a tutaj mówimy zdecydowanie o pejoratywnym zjawisku jakim jest wystąpienie pandemii. Otóż te zmiany zachodzą zarówno w czasie, jak i w przestrzeni. Wymaga to uwzględnienia czynników, które są związane z przestrzenią oraz czynników związanych z czasem. W większości modeli epidemiologicznych zakłada się, że im większa intensywność kontaktów albo jeszcze bardziej prymitywnie – im większa gęstość zaludnienia, a co za tym idzie jeszcze większa gęstość kontaktów czy to rodzinnych, czy towarzyskich, czy zawodowych tym większa liczba zachorowań. Ustala się stosowne współczynniki, które mówią o tym czy pandemia będzie się rozprzestrzeniać, czy wygasać i mając tego typu informacje na przykład o gęstości zaludnienia, jesteśmy w stanie tworzyć takie dość proste modele typu SIR czy SEI. Natomiast w naszych badaniach zakładamy dużo więcej potencjalnych zmiennych niezależnych, które mogą wpływać na to zmienną objaśnianą, która jest liczbą zachorowań. Również liczba osób, które zmarły, liczba hospitalizowanych i tych, które przechodziły kwarantannę i wszystkich innych grup mogą być naszego punktu widzenia interesujące. Zakładamy, że oprócz tego ile osób mieszka w danym regionie, interesujące jest to ile osób jeździ do pracy własnym samochodem, rowerem, chodzi pieszo, używa komunikacji miejskiej czy zostały wprowadzone określone rygory w postaci na przykład minimalnej odległości, noszenia maseczek i tak dalej. Co więcej na ile te rygory są przestrzegane. Jak to wygląda społeczeństwie polskim, jak to na przykład wygląda społeczeństwie japońskim, czy na Tajwanie. Zwłaszcza, że nasza sarmacka dusza nieco różni się od natury na przykład konfucjańskiej.
DA: Trzeba się zbuntować. Jak każą nosić maseczki – nosimy na brodzie. Jak taki parametr, bo to już jest parametr, który jest nie do wyliczenia teoretycznie. Trzeba go jakoś empirycznie wydumać. Jak założyć ile osób prawidłowo nosi maseczkę? Zakładamy, że od dzisiaj jest obowiązek noszenia maseczek, ale ile faktycznie osób będzie ten obowiązek spełniało, plus spełniało prawidłowo?
RO: Stąd właśnie badania społeczne, które albo prowadzimy bezpośrednio albo korzystamy z badań, które były prowadzone w innych ośrodkach akademickich, zresztą nie tylko w Polsce, ale w różnych miejscach w na świecie, i staramy się wyestymować wartość, co więcej różnicujących ją przestrzennie – pomiędzy poszczególne województwa, powiaty. Badamy mobilność. Jest ona badana na 2 różne sposoby. Pierwszy to sposób modelowania, który uwzględnia dane z GUS-u z 2019 roku o przepływie mieszkańców z jednej do drugiej gminy w celu świadczenia pracy. Na przykład mieszkaniec gminy A pracuje w gminie B. W niektórych gminach jest to bardzo rzadkie, bo na przykład pomiędzy Sanokiem a Szczecinem ten przepływ jest raczej zerowy, ale w pobliskich gminach ten przepływ bywa dość intensywny. Po zagregowaniu tych danych do postaci powiatowej otrzymaliśmy informację, która muszę przyznać mnie zaskoczyła. Dla większości powiatów jest tak jak mniej więcej się spodziewałam: przepływ sięga kilku do kilkunastu procent. Z kolei na Śląsku jest to ponad 40% w części powiatów. W związku z tym w niektórych powiatach mieszanie się, w tym mieszanie się wirusów jest dość intensywne, co za tym idzie rozwój pandemii jest potencjalnie szybszy.
DA: A czy to nie jest chociażby kwestia samej struktury miast? Patrząc na Katowice, Dąbrowę Górniczą i te kilkanaście miasteczek, które przechodzą jedne w drugie, ale bynajmniej nie chcą się połączyć w jedno, patrząc tak czysto na mapę można by powiedzieć, że jest ileś osób na danym terenie, ale patrząc z administracyjnego punktu widzenia to jest na przykład 10 miast. Czy takie artefakty się nie pojawiają czysto administracyjne?
RO: Zdecydowanie tak, ale wpływ mają na to również inne czynniki: układ sieci komunikacyjnej, sposób w jaki mieszkańcy tego regionu decydują się na to, żeby do tej pracy dojeżdżać, czy to właśnie wykorzystując transport publiczny, czy też własnymi samochodami, czy decydują się pojechać osobiście, czy podwożą sąsiada, czy korzystają z carsharingu. Bardzo różne zagadnienia, które mogą mieć na to wpływ. To tylko jest tylko zgrubne podejście do kwestii mobilności. Bardziej precyzyjnych dostarczają nam dana Google’a, które zostały w okresie pandemii bezpłatnie udostępnione każdemu, do różnych zastosowań. Są to dane, które można pobrać na przykład w podziale administracyjnym sięgającym w Polsce do powiatów i które wyróżniają takich 6 obszarów: na przykład na podstawie telefonów komórkowych. Dostajemy informację różnicowo, to znaczy w stosunku do okresu sprzed pandemii o ile procent zmieniła się mobilność mieszkańców poszczególnych regionów w zakresie na przykład przebywania w miejscach pracy, w miejscach zamieszkania, w sklepach, w parkach, czy w innych miejscach, gdzie można uprawiać turystykę lub w miejscach rekreacji i tak dalej.
DA: Właśnie pan udzielił odpowiedzi na pytanie, które chciałem zadać. Co z kontaktami prywatnymi? Te dane, o których wcześniej pan mówił to są kontakty zawodowe, ale to z kim się spotykamy i przebywamy w pomieszczeniu to zdecydowanie kontakty prywatne mają tu znaczenie i tutaj GUS pewnie nie ma dużo do powiedzenia, ale rozumiem, że te dane z Google’a z telefonów komórkowych mówią, że my właśnie siedzimy w jednym pomieszczeniu.
RO: My w tej chwili jesteśmy w trzech w jednym pomieszczeniu. Są takie pomieszczenia, w których siedziało dużo więcej osób i to wszystko ma wpływ, przynajmniej potencjalnie. Stawiając taką hipotezę zerową musimy metodami statystyki lub statystyki przestrzennej udowodnić, że ta teza jest prawdziwa, czy inaczej odrzucić założenia o poprawności tej hipotezy i poszukać jakieś hipotezy alternatywnej. Takich czynników wymieniliśmy zaledwie kilka. My braliśmy pod uwagę blisko 80 takich czynników, m.in. topograficznych czyli jaki jest układ zabudowy, czy to są bloki, czy to jest zabudowa niska, jedno- lub wielorodzinna, układ komunikacyjny, intensywność korzystania z terenów zielonych, sposób wykorzystania obiektów i przestrzeni publicznej, religijność mieszkańców i ilu z nich uczęszcza regularnie do kościoła i na ile są tam przestrzegane restrykcje.
DA: Tutaj rodzi się pytanie o deklaratywność a fakty. Czy religijność rozstrzygamy o dane z GUS-u, według telefonów, które są w kościele?
RO: Tutaj jest jeszcze inaczej. Staramy się korzystać z danych udostępnionych przez administrację kościelną. Łatwiej jest pozyskać takie dane z okresu sprzed pandemii i w związku z tym bardziej estymować. Jeżeli o połowę w czasie pandemii, 3/4 albo ileś procent spada udział mieszkańców w życiu religijnym lub w bezpośrednim sposobie wykorzystywania miejsc sakralnych, to jest to x% od 80 osób albo x% od ośmiuset albo od ośmiu. To też jest zróżnicowane przestrzennie, pokazując zróżnicowanie demograficzne naszego kraju, które czasami może jeszcze mieć odzwierciedlenie w tym podziale zaborowym lub w szeregu innych czynników o charakterze społecznym. Są jeszcze czynniki atmosferyczne, które dotyczą temperatury dobowej, poziomu wilgotności, nasłonecznienia, czy wręcz długości trwania dnia. Tego typu badania były prowadzone przez różne zespoły z całego świata i wykazują, niezależnie od klimatu i szerokości geograficznej, od kilku do nawet kilkunastu procent potencjalnego wpływu czynników atmosferycznych na poziom zachorowanie albo na to jak silnie dana odmiana wirusa wpływa na mieszkańców danego regionu, bo to jeszcze jest kwestia tego wszystkiego o czym w ostatnich tygodniach mówi się więcej. Chodzi o odmiany brazylijską i indyjską.
DA: Na bieżąco model trzeba aktualizować o te czynniki. Jeśli chodzi o pogodę to jest to kwestia klimatu, a może bardziej chodzi o zmianę zachowania się ludzi, np. częściej spotykają się i wychodzą z domu, czy bardziej jest to kwestia zwiększenia się transmisji wirusa, gdy zmienia się gęstość i wilgotność powietrza, czy wiatr, który drogą kropelkową rozwiewa wirusa?
RO: Jedno i drugie. W sposób bezpośredni warunki atmosferyczne – głównie temperatura i wilgotność – wpływają na propagację przestrzenną wirusa, ale w sposób pośredni warunki atmosferyczne stymulują mieszkańców np. do podniesionego poziomu aktywności na zewnątrz. Wtedy już bezpośrednio przyczynia się to do rozwoju czasowo-przestrzennego pandemii w danym rejonie poprzez zwiększenie liczby kontaktów. Te i szereg innych czynników staramy się wziąć pod uwagę tworząc nasze modele. Jeszcze raz nawiążę do samego początku naszej rozmowy. Do tego jak rozumiemy kartografię. Do tego jak kartografia może być odpowiedzią na problemy, które postawił przed społeczeństwem i całą ludzkością problem wirusa COVID-19. Otóż kartografia to nie tylko kartografia topograficzna, to także kartografia tematyczna. Jeśli się cofniemy nieco ponad 150 lat i znajdziemy się w Londynie, to jednym z pierwszych epidemiologów był John Snow, który nie zgadzał się z dominującą w owym czasie hipotezą o tak zwanej teorii miazmy, upatrującej przyczyny chorób epidemiologicznych w złym powietrzu. Uważał, że problemy, które w londyńskiej dzielnicy Soho występowały w związku z rozwojem cholery nie wynikają z faktu, że jest złe powietrze, tylko musi być jakiś bardziej bezpośredni czynnik, który wywołuje transmisje tego patogenu. Stworzył mapę tematyczną, która pokazywała rozkład przestrzenny tych mieszkańców, którzy zachorowali. Okazało się, że mieszkają w pobliżu studni, w której dalsze badania wykazały, że woda w tej konkretnej studni zawiera zarazki cholery. Tam jeszcze były różnego rodzaju spory dotyczące kwestii tego czy woda z tej studni rzeczywiście korzysta z źródeł podziemnych, czy jest to woda pobierana z zanieczyszczonej części Tamizy. Mnóstwo zagadnień z tym związanych, które przyczyniły się z jednej strony do obalenia teorii miazmy i złego powietrza oraz stworzenia poważnych modeli epidemiologicznych – modeli dyfuzji czasoprzestrzennej, ale także do rozwoju kartografii tematycznej. Okazało się, że kartografia, nawet taka analogowa z połowy XIX wieku może przyczynić się do rozwiązania bardzo poważnych problemów społecznych. Oczywiście, dzisiejsza kartografia to coś zupełnie innego. W ogóle nasz świat się zmienił. Nie żyjemy w dobie Leonardo da Vinci. Mamy takich geniuszy, którzy mogliby się równać swoim potencjałem intelektualnym z Leonardem, ale tak bardzo rozwinęły się poszczególne dziedziny nauki, że dziś absolutnie nikt nie byłby w stanie posiąść wiedzy z zakresu epidemiologii i kartografii. Jest tego za dużo.
DA: W czasach Leonardo było łatwiej wiedzieć prawie wszystko co było dostępne. Zmierzam do tego, że wyobrażając sobie mapę Londynu, który też był mniejszy i ludzi było mniej, wyobrażałam sobie tytaniczną pracę, ale jednak względnie prostą. Rozkładamy na wielkim stole mapę i zaznaczamy kropkami, gdzie są ci chorzy i widzimy to zagęszczenie i widzimy studnię. Natomiast z naszej rozmowy wynika, że ja już się zacząłem gubić ile jest tych parametrów a umówiliśmy może 1/3, więc jasne jest, że człowiek nie jest w stanie już tego ogarnąć, że żadna mapa papierowa, pewnie Excel też już przy tym wymięka, przy tym jak te dane są ze sobą wzajemnie powiązane. W tytule grantu jest mowa o metodach analizy, bo zbieranie danych zbieraniem danych, ale są metody analizy i tutaj pojawia się pojawiają się hasło o modelowaniu wieloagentowym, deep learning i modelach Monte Carlo. Co jesteście w stanie robić dalej z danymi?
RO: Mając dane potrzebujemy narzędzi, które pozwolą przekształcić w sposób możliwie automatyczny te surowe dane, z których znacząca większość jest odniesiona przestrzenie, bądź relatywnie łatwo może zostać odniesiona do postaci użytecznej informacji i wiedzy. Taka piramida data, information, knowledge and wisdom (DIKW pyramid). Idziemy od podstaw tej piramidy ku jej wierzchołkowi i staramy się zautomatyzować proces akwizycji wiedzy. Można to zrobić na bardzo wiele sposobów, de facto na nieskończenie wiele sposobów możemy modelować rozwój zjawisk, w których bardzo wiele zmiennych ma wpływ na naszą zmienną objaśnianą. Oczywiście, jeśli możemy zrobić nieskończenie wiele analiz to potrzebowalibyśmy nieskończenie wiele czasu. Tyle go nie mamy. Myślę też, że nie jest to potrzebne. Trzeba wybrać takie metody, które już się sprawdziły w pokrewnych zagadnieniach albo te rokujące na to, że mogą być użyteczne przy rozwiązywaniu takiego problemu. Najlepiej wybrać kilka. Dlaczego? Znowu odwołam się do słów jednych z tych wielkich tego, który mówił, że po to by mieć dobry pomysł, najlepiej jest mieć wiele pomysłów. Prędzej czy później, któryś z nich powinien okazać się dobry. Jeżeli dysponowalibyśmy tylko jednym modelem to trudno byłoby o jego weryfikację, zwłaszcza wobec faktu, że nie do końca jesteśmy pewni czy dane źródłowe, którymi dysponujemy, uczciwie mówiąc nie tylko w Polsce, ale w większości krajów, statystyka publiczna dotycząc pandemii jest dostatecznie wiarygodna.
DA: Inaczej – jesteśmy pewni, że ona jest niewiarygodna. Pytanie jak bardzo jest niewiarygodna, czyli jak dużo jest nieznanych nieznanych.
RO: Dobrze, że to Pan powiedział. Ja starałem się ująć to znacznie bardziej dyplomatycznie.
DA: Mówiąc nawet dyplomatycznej – dopóki nie wykonamy w ciągu jednego dnia 38 milionów testów PCR to nie wiemy jaka jest sytuacja z pewnością równą 1. Wszystko poniżej jest jakimś lepszym lub gorszym domniemaniem. My wykonujemy tych testów w najlepszym wypadku dziesiątki lub setki tysięcy, więc jasne jest, że to jest estymacja. Po prostu tak działa badanie statystyczne.
RO: Dobrze. To teraz odpowiadając na pytanie jak można przekształcić surowe dane w użyteczną wiedzę. Przyjęliśmy trzy różne podejścia, które pozwalają nam na taką wzajemną walidacje. Porównanie, które jest z nich adekwatne i które może być wykorzystane. Jak zawsze w życiu nie ma darmowych obiadów. Coś za coś. Jedne z tych metod są dość szybkie, w sensie wydajności obliczeniowej, ale za to też zgrubne, inne są bardziej precyzyjne, ale wymagają gigantycznych mocy obliczeniowych, niektóre pozwalają na uwzględnienie bardzo wielu czynników, inne tylko niektórych. Może króciutko o tym co zdaje się być najlepszym rozwiązaniem z tych, które przyjęliśmy. Najlepszym w sensie w jego społecznej użyteczności. Jest to modelowanie wieloagentowe. Metoda, która zdecydowanie wywodzi się z twardej informatyki, ale którą rozszerzamy o uwzględnienie predykatorów, czyli czynników o charakterze przestrzennym i czasowym. Wyobraźmy sobie 38 mln mieszkańców, z których każdy jest reprezentowany w tym cyfrowym świecie przez takiego swojego reprezentanta, którego będziemy nazywali agentem. Ma on swoją lokalizację, w której mieszka. Ma swoją rodzinę, pracę, ulubiony sklep. Czasem pójdzie się pomodlić do kościoła. Z reguły będzie się poruszał komunikacją publiczną, czasem samochodem. Jeżeli wykorzystamy bazę danych obiektów topograficznych (taki cyfrowy odpowiednik mapy topograficznej o dokładności i rozdzielności takiej jakie miały mapy analogowe w skali 1 do 10 000), na to nałożymy rozmieszczenie poszczególnych mieszkańców wraz z przypisaniem ich parametrów dotyczących nie tylko tego, gdzie mieszkają, ale gdzie pracują, gdzie i kiedy się spotykają, kiedy śpią a kiedy bawią, kiedy chodzą do sklepu, kiedy wykonują różne inne czynności.
DA: I z jaką skutecznością wykonują zalecenia epidemiologiczne i jakie mają poglądy polityczne, bo to pewnie też wpływa na to czy ktoś jest antyszczepionkowcem albo anty maseczkowcem?
RO: Dokładnie tak. Bierzemy pod uwagę nie tylko kwestie mobilności, ale też warunki atmosferyczne plus pewne kwestie związane z badaniami stosowanych nauk społecznych, dotyczących pewnych zachowań specyficznych dla określonych regionów Polski i cały szereg innych parametrów, których dzisiaj nie wymieniliśmy, ale mówiłem, że jest ich kilkadziesiąt. Jesteśmy w stanie uruchomiwszy taki system i wprowadziwszy do niego jedną zarażona osobę, sprawdzić co się stanie – udzielić odpowiedzi na pytanie ‘what if’. Jaka będzie odpowiedź tego systemu. Jak prędko dojdzie do ekspansji w czasie i w przestrzeni, w naszym przypadku wirusa COVID-19, choć metodę można uogólnić na różne problemy. Można w ten sposób również badać rozprzestrzenianie się innowacji technologicznych i społecznych. Należy podać szereg innych parametrów stricte epidemiologicznych. Tutaj ogromną rolę odgrywają nasi partnerzy naukowi z Narodowego Instytutu Leków z Warszawskiego Uniwersytetu Medycznego, czy ze Szpitala Akademickiego w Nowym Jorku, czy z Harvardu, którzy umożliwiają nam parametryzacje tych systemów. Jeżeli zbudujemy system, w którym umieścimy niepoprawne parametry to odpowiedź będzie dość oczywista – garbage in, garbage out. Nasze systemy są weryfikowane w oparciu o dane, które którymi dysponujemy, do których mamy umiarkowane zaufanie, ale na czymś musimy się opierać. W związku z czym staramy się kalibrować te systemy w oparciu o dane z Powiatowych Stacji Sanitarno-Epidemiologicznych, dane społecznościowe oraz wszystko to czym jesteśmy w stanie dysponować wykorzystując bazy epidemiologiczne z różnych krajów. To nam pozwala sprawdzić co by się stało, gdybyśmy teraz ten system wykalibrowany na archiwalnych danych puścili dalej. To znaczy co by było za tydzień, za miesiąc, za rok. Oczywiście, co się stanie jeżeli zmienimy pewne parametry, na przykład wprowadzimy twardy lockdown albo odwrotnie co by się stało, gdybyśmy nie zamykali szkół, miejsc pracy, gdybyśmy pozwolili żyć jak przed pandemią, nie wprowadzając żadnych restrykcji dotyczących liczby osób korzystających z komunikacji miejskiej, przebywających w sklepie. Odpowiedzi są bardzo interesujące. Mimo tego, że możemy być zmęczeni pandemią i zmęczeni uciążliwością tych restrykcji, gdyby ich nie zastosować zdecydowanie liczba zachorowań i liczba zgonów byłaby dużo większa. Jest to dość oczywista odpowiedź, ale ona różnicowałaby się przestrzenie zależnie od tych czynników, które wymieniałem wcześniej, na przykład zależnie od tego w jakim rejonie Polski jesteśmy, jak gęsta lub rzadka jest zabudowa, jak gęsta czy rzadka jest sieć komunikacyjna, ile osób korzysta z komunikacji miejskiej, jak dużo mamy sklepów lokalnych w stosunku do hipermarketów, itd. Mnóstwo różnych czynników, które możemy wziąć pod uwagę stawiając pytania, zmieniając parametry, uzyskując inne odpowiedzi. Jest to bardzo potężne narzędzie modelowania, ale ma pewne ograniczenia. Wykorzystanie bazy 38 milionów agentów wymaga jej przygotowania, później wykonania obliczeń na ogromnym zestawie danych. W zasadzie wymaga to użycia superkomputerów. Wykorzystujemy moce obliczeniowa czegoś co nazywamy CENAGIS-em. To jest jeden z większych projektów, które powstały w ostatnich latach na Politechnice Warszawskiej. Pan profesor Gotlib z Wydziału Geodezji i Kartografii wygrał projekt infrastrukturalny, który pozwolił na zbudowanie takiego klastra obliczeniowego, w którym wykorzystywana jest ogromna liczba serwerów i ogromna liczba kart graficznych, na których pewne obliczenia, np. na przykład związane z konwolucyjnymi sieciami neuronowymi są obliczane setki razy szybciej niż z wykorzystaniem klasycznych jednostek obliczeniowych typu CPU. Tak czy inaczej my realizujemy ten proces biorąc pod uwagę pewne filtry przestrzenne, na przykład jednocześnie obliczamy dane dotyczące jednego powiatu, uwzględniając interakcje z powiatami sąsiednimi. Dzięki temu możemy dostrzec bardzo lokalne problemy i ich rozwiązania, czy też ich modyfikacje, zarazem pozyskując te wyniki w racjonalnym czasie kilku, kilkunastu godzin, najwyżej kilku dni. Tym bardziej, że staramy się jednocześnie postawić wiele różnych pytań: co by było, gdybyśmy zastosowali mniej restrykcyjne lub bardziej restrykcyjne ograniczenia, co gdybyśmy zmienili tylko część parametrów, co by było, gdybyśmy zmienili wszystkie parametry, co gdybyśmy wprowadzili politykę, która obowiązywała na Tajwanie, co gdybyśmy pozwolili sobie na to co działo się w Szwecji. Jakie byłyby skutki. To jest jeden z systemów. Drugi wykorzystuje konwolucyjne sieci neuronowe. Jesteśmy w trakcie tworzenia i weryfikacji tego typu obliczeń. Niezwykle złożone obliczenia na mikrorastrach, które wymagają kart graficznych i obliczeń, nawet bardziej na GPU niż na CPU. Natomiast można tutaj wziąć pod uwagę bardzo wiele różnych czynników, które będą stanowiły niezależne wejścia do naszej sieci obliczeniowej. Wreszcie trzecia metoda, która jest najmniej czasochłonna i żmudna pod względem obliczeniowym, natomiast daje dość zgrubne rezultaty, to jest metoda dyfuzji czasoprzestrzennej, która wykorzystuje tak zwane modele Wilsonowskie. Z grubsza rzecz biorąc jest to rodzaj analogii do teorii grawitacji w ujęciu Newtona, tylko zamiast masy mówimy tutaj na przykład o liczbie mieszkańców. Zakładamy, że dwa ośrodki oddziałują na siebie wzajemnie w taki sposób, że wprost proporcjonalnie do iloczynu ich mas, rozumianych jako liczba ludności, a odwrotnie proporcjonalnie do kwadratu odległości między nimi. Naturalnie jest to przybliżenie. Teraz pytanie: co to znaczy odległość? Czy to jest odległość w locie ptaka, odległość po drogach, odległość czasowa niezbędna do pokonania danej odległości i tak dalej. Czy mówimy o wszystkich mieszkańcach, czy tylko o tych, którzy pracują, czy w określonym wieku. Oczywiście, te pierwsze metody Wilsonowskie uległy szeregu modyfikacjom, w tym takich, które my również tutaj wprowadzamy, uwzględniając również inne czynniki, na przykład poziom mobilności, czynniki atmosferyczne, o których wspominaliśmy wcześniej oraz symulacje Monte Carlo, które pozwalają nam emulować w setkach, tysiącach, czy milionach różnych operacji, co mogłoby się stać gdybyśmy troszeczkę zmienili poszczególne parametry. Natomiast odpowiedź, którą dostajemy ma taką zaletę, że jest generowana w ciągu milisekund sekund albo najgorszym przypadku w ciągu pojedynczych sekund. Wadą za to jest to, że odpowiedź, która dotyczy powiatów, województw, w ostateczności gmin. To nie jest odpowiedź, która jest dedykowana każdemu agentowi. Za to pozwala bardzo szybko zgrubnie oszacować co może się stać w danym mieście, w danej gminie i jednostkach sąsiednich, jeżeli zmienią się trochę warunki początkowe, na przykład jeśli wprowadzimy politykę szczepień.
DA: I dochodzimy do bardzo naiwnego pytania. Skoro mamy taki model i możemy odpowiedzieć na pytanie co działa, co nie działa, czy właśnie lepiej maseczki, czy nie maseczki, czy lockdown twardy, to na miejscu polityków zabijałbym się o dostęp do takiego systemu, aby móc przyjść i powiedzieć, że robimy evidence-based policy, że nie wydaje nam się, że te maseczki działają tylko, że one faktycznie działają, bo my wiemy to z badań, które wykonują naukowcy Politechniki Warszawskiej. My wiemy, że to jest rozwiązanie, które zadziałała. Czy polscy politycy bili się o państwa pracę?
RO: Czuję haczyk w tym pytaniu. Domyślałby się pan pewnie odpowiedzi, że nie, nikt się nie interesował naszym badaniem, ale tutaj pana zaskoczę. Jestem po rozmowach z Ministerstwem Zdrowia, które jest bardzo zainteresowane wynikami, nie tylko naszych badań, bo trzeba powiedzieć, że nie jesteśmy jedyną jednostką badawczą, pewnie też nie najsilniejszą w Polsce, która prowadzi tego typu badania i symulacje dotyczące rozwoju pandemii COVID-19. Na przykład bardzo mocnym ośrodkiem jest ICM Uniwersytetu Warszawskiego, który również prowadzi symulacje wieloagentowe, choć nieco inaczej rozumiane. Politechnika Wrocławska, AGH i kilka innych ośrodków, które może nieco mniej interdyscyplinarnie podchodzą do zagadnienia, natomiast mają bardzo ciekawe wyniki symulacji. Otóż Ministerstwo Zdrowia jest może nie w stałym, ale w podtrzymywanym kontakcie z wszystkimi tymi ośrodkami i stara się w jakiś sposób wykorzystywać wyniki naszych badań. Oczywiście, pewnie jako naukowcy i jako pracownicy uczelni badawczej, która chciałaby, aby nie tylko nasze wyniki były publikowane z dużym Impact Factorem za mnóstwo punktów Ministerstwa Szkolnictwa Wyższego, ale chcielibyśmy też, aby ta społeczna użyteczność nauki znalazła tutaj swoje miejsce. W tym sensie rzeczywiście nie jest to dostateczne, ale widzę tutaj co najmniej zainteresowanie Ministerstwa Zdrowia wynikami badań i wdrażaniem pewnej polityki, oczywiście nie jest to takie proste. Obecnie dysponujemy dużo silniejszą bronią niż metody stricte restrykcyjne, to znaczy dysponujemy szczepionkami o różnym poziomie skuteczności. Każda z nich daje bardzo wymierne korzyści. Natomiast różne dziwne ruchy antyszczepionkowców, ich popularność, zwłaszcza w niektórych regionach kraju, sprawiają, że nie wykorzystujemy tych możliwości jakie mamy. Nasze metody dość łatwo można poszerzyć, zresztą zrobiliśmy to, o możliwość uwzględnienia również polityki szczepień. Co by się stało gdybyśmy szczepili. Nie mówię tutaj o konkretnej szczepionce, tylko o określonym poziomie skuteczności. Co gdybyśmy najpierw szczepili osoby starsze, co gdybyśmy szczepienia zaczęli od osób młodszych, tych którzy pracują albo od kobiet albo od kogokolwiek innego – również na tego typu pytania jesteśmy wstanie odpowiedzieć numerycznie. Oczywiście, to jest odpowiedź statystyczna, która zawiera pewnego rodzaju błędy, tak jak w całej statystyce są pewne błędy pierwszego i drugiego rodzaju w zależności od doboru próby losowej, jej liczebności, uwzględnienia lub nie pewnych czynników, zaniedbania z wykryciem pozornych korelacji, możliwe, że ta odpowiedź nie jest 100% poprawna. Jesteśmy przekonani, że nasze modele są na tyle wiarygodnie, że można je wykorzystywać jako podstawę systemów wspomagania decyzyjnego. Mają też tę zaletę, że mogą być też bardzo łatwo zmodyfikowane w przyszłości. Równie łatwo w przyszłym roku, czy w kolejnej dekadzie może pojawić się pandemia o charakterze nie wirusowym a bakteryjnym, która będzie miała trochę inne parametry na wejściu, trochę inne współczynniki zakażalności.
DA: Model jest gotowy. Wystarczy zmienić parametry.
RO: Dokładnie tak. Obyśmy nie musieli z tego skorzystać, ale gdyby tak się stało, będziemy na to gotowi.
DA: Podsumowując to wszystko – myślę, że można powiedzieć, że tak, nauka jest nam potrzebna, chociażby po to, aby podejmować dobre, słuszne, racjonalne decyzje. Bez nauki błądzimy w ciemnościach. Po więcej informacji o grancie profesora Olszewskiego zapraszamy na stronę badawcza.pw.edu.pl i do usłyszenia w następnym podcaście.