Je mehr sich die Pandemie ausbreitet, um so mehr sind auch nicht mehr allein die bestätigten Fälle relevant sondern die „aktiven“ und die mit fatalem Ausgang. Menschen werden auch wieder gesund, sodass Krankenhäuser sich um neu Erkrankte kümmern können – und die Pandemie lässt Tod und Trauer zurück.
Ich bin inzwischen wieder bei Kaggle gelandet, die „confirmed“, „recovered“ und „deaths“ berichten, sodass wir uns die Anzahl der Erkrankten ausrechnen können: Je Datum sind das die bestätigte Fälle minus Gesundete minus Todesfälle. Von Kanada fehlen in diesen Daten jedoch die „recovered“ Zahlen, sodass dort der tatsächliche Krankenstand hoffentlich geringer ausfällt als hier dargestellt. Der Vorteil der Kaggle-Daten besteht auch darin, dass GPS-Koordinaten mit angegeben sind.
Mit diesen Daten lässt sich der Weg des Virus darstellen:
In schwarz sehen wir die zeitliche Entwicklung des „Schwerpunktes“ der weltweit Erkrankten (laut verfügbaren Daten). Derzeit bewegt er sich Tag für Tag nach Westen – in den letzten Tagen etwas langsamer. In rot dargestellt ist die Anzahl der Erkrankten („active“ in den Daten) mit Stand gestern, 30. März. Die Größe eines Punktes ist somit ein Maß für die aktuelle Belastung, die das Gesundheitssystem zu bewältigen hat – oder hätte, so es denn voll funktionsfähig ist. Man erkennt die Herausforderungen, die in Europa derzeit bewältigt werden müssen.
Für alle, die diese in R erstellte Graphik nachbauen möchten (mit PowerBI sollte es ebenfalls gehen): Wir importieren die von Kaggle heruntergeladenen Zeitreihendaten. Die GPS-Koordinaten für jeden Eintrag werden sodann in kartesische xyz-Koordinaten umgerechnet. So lässt sich der Schwerpunkt der Daten berechnen und wieder auf die Erdoberfläche projizieren, was hier dargestellt ist. Eine gewichtete Mittelung über die Werte für Längen- und Breitengrad würde zu falschen Ergebnissen führen.
Um die Pandemie verfolgen zu können, braucht man stabile Datenquellen, in denen sich zum Beispiel die Spaltennamen nicht im Laufe der Zeit ändern. Es ist unhandlich, die Daten wie von Kaggle als Zip herunterladen und entpacken zu müssen. Man möchte die Datei per Programmcode direkt abholen, so wie es zum Beispiel bei Our World in Data möglich ist. Dort finden sich dann allerdings lediglich die Daten der bestätigten Fälle und Todesfälle und es fehlen die Genesungen. Die GPS-Daten gleich mitzuliefern ist ebenfalls eine gute Sache: die Namen von Ländern und Regionen sind eine komplizierte Sache, denn es fehlen Standards, und mit einem einfachen „S-Verweis / V-lookup“ ist es deshalb leider nicht getan.
So ergibt sich folgende Wunschliste an die Daten:
- Tag für Tag die Gesamtzahlen aller bestätigten Fälle, Genesungen, Todesfälle und als Plausibilitätscheck am besten auch den jeweiligen Krankenstand
- Die Unterschiede von Tag zu Tag sind nicht so wichtig – die können wir uns ausrechnen; aber auch sie sind für Plausibilitätsbetrachtungen hilfreich
- GPS-Koordinaten der zu diesen Zahlen gehörigen Orte
- Eine weitere Spalte mit dem jeweiligen Land oder der Region, sodass sich die Werte auch aggregieren lassen
- Und bitte die Spaltennamen nicht ständig ändern, sodass man seinen Programmcode ständig anpassen muss
- Wichtiger ist es, Namen und Text fehlerfrei zu halten, also nicht „Chicago, IL“ und etwas weiter „Chicago, IL – also einmal mit und einmal ohne Ausführungszeichen.
Für Hinweise auf solch eine Datenquelle bin ich sehr dankbar.